11. Arxiv
Arxiv
arXiv (opens in a new tab) adalah arsip akses terbuka untuk dua juta artikel ilmiah di bidang fisika, matematika, ilmu komputer, biologi kuantitatif, keuangan kuantitatif, statistik, teknik elektro dan ilmu sistem, dan ekonomi. Dokumentasi API (opens in a new tab)
Untuk mengakses pemuat dokumen Arxiv, Anda perlu menginstal paket integrasi arxiv
, PyMuPDF
, dan langchain-community
.
PyMuPDF
mengonversi berkas PDF yang diunduh dari situs arxiv.org ke format teks.
# Intall
# !pip install -qU langchain-community arxiv pymupdf
Membuat objek
Anda sekarang dapat menginstansiasi objek model dan memuat dokumen:
from langchain_community.document_loaders import ArxivLoader
# Di Query, masukkan topik artikel yang ingin Anda cari.
loader = ArxivLoader(
query="Chain of thought",
load_max_docs=2, # Jumlah maksimum dokumen
load_all_available_meta=True, # Apakah akan memuat metadata lengkap
)
# Memuat output dokumen
docs = loader.load()
docs
# Mengeluarkan metadata dokumen
docs[0].metadata
Jika load_all_available_meta
= False, hanya beberapa metadata yang akan dikeluarkan, tidak semuanya.
# Di Query, masukkan topik artikel yang ingin Anda cari.
loader = ArxivLoader(
query="ChatGPT",
load_max_docs=2, # jumlah maksimum dokumen
load_all_available_meta=False, # Apakah akan memuat
)
# Memuat Keluaran Dokumen
docs = loader.load()
# Keluarkan metadata dokumen
docs[0].metadata
Ringkasan
Jika Anda ingin menampilkan ringkasan makalah daripada teks lengkap, Anda dapat memanggil fungsi get_summaries_as_docs()
.
# muat ringkasan dokumen
docs = loader.get_summaries_as_docs()
# Akses dokuemnt pertama
print(docs[0].page_content)
lazy_load()
Saat memuat dokumen secara massal, jika Anda dapat melakukan operasi hilir pada subset dari semua dokumen yang dimuat, Anda dapat dengan malas memuat dokumen satu per satu untuk meminimalkan penggunaan memori.
docs = []
# memuat dokumen dengan lazy_load
for doc in loader.lazy_load():
docs.append(doc)
# keluarkan hasilnya
docs