06. Word

Microsoft Word

Microsoft Word (opens in a new tab) adalah pengolah kata yang dikembangkan oleh Microsoft.

Bagian ini membahas cara memuat dokumen word ke dalam format dokumen yang dapat digunakan di bagian hilir.

Docx2txtLoader

Anda dapat menggunakan Docx2txt untuk memuat file .docx sebagai dokumen.

Terminal
# install
pip install -qU docx2txt
Python
from langchain_community.document_loaders import Docx2txtLoader
 
loader = Docx2txtLoader("./data/sample-word-document.docx")  # Inisialisasi pemuat dokumen
 
docs = loader.load()  # Memuat dokumen
 
print(len(docs))

UnstructuredWordDocumentLoader

Python
from langchain_community.document_loaders import UnstructuredWordDocumentLoader
 
# Menginstalasi pemuat dokumen Word yang tidak terstruktur
loader = UnstructuredWordDocumentLoader("./data/sample-word-document.docx")
 
# Memuat dokumen
docs = loader.load()
 
print(len(docs))

Hasilnya dimuat sebagai satu Dokumen.

Python
# Output metadata
print(docs[0].metadata)

Secara internal, unstructured menciptakan "elemen" yang berbeda untuk setiap potongan teks.

Secara default, semua ini digabungkan bersama, tetapi dapat dengan mudah dipisahkan dengan menentukan mode="elements".

Python
# UnstructuredWordDocumentLoader
loader = UnstructuredWordDocumentLoader(
    "./data/sample-word-document.docx", mode="elements"
)
 
# Memuat data
docs = loader.load()
 
# Menampilkan jumlah dokumen yang dimuat
print(len(docs))
Python
# Cetak isi dokumen pertama
print(docs[0].page_content)
Python
# Cetak isi dokumen pertama
docs[0].metadata