06. Word
Microsoft Word
Microsoft Word (opens in a new tab) adalah pengolah kata yang dikembangkan oleh Microsoft.
Bagian ini membahas cara memuat dokumen word
ke dalam format dokumen yang dapat digunakan di bagian hilir.
Docx2txtLoader
Anda dapat menggunakan Docx2txt
untuk memuat file .docx sebagai dokumen.
Terminal
# install
pip install -qU docx2txt
Python
from langchain_community.document_loaders import Docx2txtLoader
loader = Docx2txtLoader("./data/sample-word-document.docx") # Inisialisasi pemuat dokumen
docs = loader.load() # Memuat dokumen
print(len(docs))
UnstructuredWordDocumentLoader
Python
from langchain_community.document_loaders import UnstructuredWordDocumentLoader
# Menginstalasi pemuat dokumen Word yang tidak terstruktur
loader = UnstructuredWordDocumentLoader("./data/sample-word-document.docx")
# Memuat dokumen
docs = loader.load()
print(len(docs))
Hasilnya dimuat sebagai satu Dokumen.
Python
# Output metadata
print(docs[0].metadata)
Secara internal, unstructured menciptakan "elemen" yang berbeda untuk setiap potongan teks.
Secara default, semua ini digabungkan bersama, tetapi dapat dengan mudah dipisahkan dengan menentukan mode="elements"
.
Python
# UnstructuredWordDocumentLoader
loader = UnstructuredWordDocumentLoader(
"./data/sample-word-document.docx", mode="elements"
)
# Memuat data
docs = loader.load()
# Menampilkan jumlah dokumen yang dimuat
print(len(docs))
Python
# Cetak isi dokumen pertama
print(docs[0].page_content)
Python
# Cetak isi dokumen pertama
docs[0].metadata