11. Arxiv

Arxiv

arXiv (opens in a new tab) adalah arsip akses terbuka untuk dua juta artikel ilmiah di bidang fisika, matematika, ilmu komputer, biologi kuantitatif, keuangan kuantitatif, statistik, teknik elektro dan ilmu sistem, dan ekonomi. Dokumentasi API (opens in a new tab)

Untuk mengakses pemuat dokumen Arxiv, Anda perlu menginstal paket integrasi arxiv, PyMuPDF, dan langchain-community.

PyMuPDF mengonversi berkas PDF yang diunduh dari situs arxiv.org ke format teks.

Python

# Intall
# !pip install -qU langchain-community arxiv pymupdf

Membuat objek

Anda sekarang dapat menginstansiasi objek model dan memuat dokumen:

Python

from langchain_community.document_loaders import ArxivLoader
 
# Di Query, masukkan topik artikel yang ingin Anda cari.
loader = ArxivLoader(
    query="Chain of thought",
    load_max_docs=2,  # Jumlah maksimum dokumen
    load_all_available_meta=True,  # Apakah akan memuat metadata lengkap
)

Python

# Memuat output dokumen
docs = loader.load()
docs

Python

# Mengeluarkan metadata dokumen
docs[0].metadata

Jika load_all_available_meta = False, hanya beberapa metadata yang akan dikeluarkan, tidak semuanya.

Python

# Di Query, masukkan topik artikel yang ingin Anda cari.
loader = ArxivLoader(
    query="ChatGPT",
    load_max_docs=2,  # jumlah maksimum dokumen
    load_all_available_meta=False,  # Apakah akan memuat
)
 
# Memuat Keluaran Dokumen
docs = loader.load()
 
# Keluarkan metadata dokumen
docs[0].metadata

Ringkasan

Jika Anda ingin menampilkan ringkasan makalah daripada teks lengkap, Anda dapat memanggil fungsi get_summaries_as_docs().

Python

# muat ringkasan dokumen
docs = loader.get_summaries_as_docs()
 
# Akses dokuemnt pertama
print(docs[0].page_content)

lazy_load()

Saat memuat dokumen secara massal, jika Anda dapat melakukan operasi hilir pada subset dari semua dokumen yang dimuat, Anda dapat dengan malas memuat dokumen satu per satu untuk meminimalkan penggunaan memori.

Python

docs = []
 
# memuat dokumen dengan lazy_load
for doc in loader.lazy_load():
    docs.append(doc)

Python

# keluarkan hasilnya
docs

10. Json 13. Upstage Layout Analysis Loader