03. Hangul Hwp

03. Hangul(HWP)

HWP (Hangul)

Hangul (HWP) adalah pengolah kata yang dikembangkan oleh Hanwha Computer dan merupakan program pembuatan dokumen yang populer di Korea Selatan.

Program ini menggunakan ekstensi file .hwp dan banyak digunakan dalam bisnis, sekolah, lembaga pemerintah, dan banyak lagi. Dengan demikian, jika Anda seorang pengembang Korea, Anda mungkin pernah berurusan dengan dokumen .hwp (atau akan).

Sayangnya, LangChain belum memiliki integrasi, jadi kita harus menggunakan implementasi HWPLoader kita sendiri.

Python
# install
# !pip install -qU langchain-teddynote
Python
from langchain_teddynote.document_loaders import HWPLoader
 
# Membuat objek HWP Loader
loader = HWPLoader("./data/Rencana Transformasi Pemerintah Digital.hwp")
 
# Memuat dokumen
docs = loader.load()
Python
# cetak hasilnya
print(docs[0].page_content[:1000])

metadata berisi informasi nama file.

Python
# cetak hasilnya
print(docs[0].metadata)