07. PowerPoint
Microsoft PowerPoint
Microsoft PowerPoint (opens in a new tab) adalah program presentasi yang dikembangkan oleh Microsoft.
Bagian ini mencakup cara memuat dokumen Microsoft PowerPoint
ke dalam format dokumen yang dapat digunakan di bagian hilir.
Untuk informasi lebih lanjut tentang cara mengatur Unstructured, lihat dokumentasi resmi (opens in a new tab).
Terminal
# Instal package
pip install -qU python-pptx tidak terstruktur
Python
from langchain_community.document_loaders import UnstructuredPowerPointLoader
# Membuat UnstructuredPowerPointLoader
loader = UnstructuredPowerPointLoader("./data/sample-ppt.pptx")
# Memuat data
docs = loader.load()
# Keluarkan jumlah dokumen yang dimuat
print(len(docs))
Unstructured
menciptakan "elements" yang berbeda untuk chunks teks yang berbeda.
Secara default, mereka digabungkan dan dikembalikan sebagai satu dokumen, tetapi Anda dapat dengan mudah memisahkan elemen dengan menentukan mode="elements"
.
Python
# Membuat UnstructuredPowerPointLoader
loader = UnstructuredPowerPointLoader("./data/sample-ppt.pptx", mode="elements")
# Memuat data
docs = loader.load()
print(len(docs))
Python
print(docs[0].page_content)
Python
docs[0].metadata