05. Excel

Excel

UnstructuredExcelLoader digunakan untuk memuat file Microsoft Excel.

Pemuat ini bekerja dengan file .xlsx dan .xls. Konten halaman akan berupa teks mentah dari file Excel.

Saat menggunakan pemuat dalam mode "elemen", representasi HTML dari file Excel disediakan di bawah kunci text_as_html dalam metadata dokumen.

Terminal
# install
pip install -qU langchain-community unstructured openpyxl
Python
from langchain_community.document_loaders import UnstructuredExcelLoader
 
# Membuat UnstructuredExcelLoader
loader = UnstructuredExcelLoader("./data/titanic.xlsx", mode="elements")
 
# Memuat dokumen
docs = loader.load()
 
# Panjang dokumen keluaran
print(len(docs))

Pastikan bahwa data tersebut dimuat sebagai satu dokumen.

page_content menyimpan data untuk setiap baris, dan text_as_html dalam metadata menyimpan data untuk setiap baris dalam format HTML.

Python
# Output dokumen
print(docs[0].page_content[:200])
Python
# mencetak text_as_html dari metadata
print(docs[0].metadata["text_as_html"][:1000])

DataFrameLoader

  • Membuat dan memuat file Excel sebagai DataFrame menggunakan fungsi read_excel(), yang memuat file seperti file CSV.
Python
import panda as pd
 
# membaca file Excel
df = pd.read_excel("./data/titanic.xlsx")
Python
from langchain_community.document_loaders import DataFrameLoader
 
# Menyiapkan pemuat bingkai data, menentukan kolom konten halaman
loader = DataFrameLoader(df, page_content_column="Name")
 
# Memuat dokumen
docs = loader.load()
 
# Output data
print(docs[0].page_content)
 
# keluarkan metadata
print(docs[0].metadata)