05. Excel
Excel
UnstructuredExcelLoader
digunakan untuk memuat file Microsoft Excel
.
Pemuat ini bekerja dengan file .xlsx
dan .xls
. Konten halaman akan berupa teks mentah dari file Excel.
Saat menggunakan pemuat dalam mode "elemen"
, representasi HTML dari file Excel disediakan di bawah kunci text_as_html
dalam metadata dokumen.
Terminal
# install
pip install -qU langchain-community unstructured openpyxl
Python
from langchain_community.document_loaders import UnstructuredExcelLoader
# Membuat UnstructuredExcelLoader
loader = UnstructuredExcelLoader("./data/titanic.xlsx", mode="elements")
# Memuat dokumen
docs = loader.load()
# Panjang dokumen keluaran
print(len(docs))
Pastikan bahwa data tersebut dimuat sebagai satu dokumen.
page_content
menyimpan data untuk setiap baris, dan text_as_html
dalam metadata
menyimpan data untuk setiap baris dalam format HTML.
Python
# Output dokumen
print(docs[0].page_content[:200])
Python
# mencetak text_as_html dari metadata
print(docs[0].metadata["text_as_html"][:1000])
DataFrameLoader
- Membuat dan memuat file Excel sebagai DataFrame menggunakan fungsi
read_excel()
, yang memuat file seperti file CSV.
Python
import panda as pd
# membaca file Excel
df = pd.read_excel("./data/titanic.xlsx")
Python
from langchain_community.document_loaders import DataFrameLoader
# Menyiapkan pemuat bingkai data, menentukan kolom konten halaman
loader = DataFrameLoader(df, page_content_column="Name")
# Memuat dokumen
docs = loader.load()
# Output data
print(docs[0].page_content)
# keluarkan metadata
print(docs[0].metadata)