Ch07 Text Splitter

CH07 - Text Splitter

Perkiraan waktu belajar: 2 Hari

Tingkat kesulitan: Sedang

Pembagian dokumen adalah tahap kedua dari sistem Retrieval-Augmented Generation (RAG), yang merupakan proses penting untuk memproses dokumen yang dimuat dengan efisien dan mempersiapkannya agar sistem dapat memanfaatkan informasi dengan lebih baik.

Tujuan dari tahap ini adalah untuk membagi dokumen yang besar dan kompleks menjadi potongan-potongan kecil yang efisien yang dapat diterima oleh LLM. Ini bertujuan untuk mengompresi atau menyaring informasi yang lebih efisien untuk ditarik nanti berdasarkan pertanyaan yang dimasukkan oleh pengguna.

(Contoh) Berapa jumlah investasi Google di Anthropic?

Google, Investasi 20 Juta Dolar di Anthropic untuk Memperkuat Kolaborasi AI Generatif

KEY Contents

  • Google setuju untuk berinvestasi hingga 20 juta dolar di Anthropic, dengan 5 juta dolar telah diinvestasikan sebagai prioritas awal, dan Anthropic menandatangani kontrak penggunaan layanan cloud dengan Google
  • Google, Microsoft, dan Amazon, tiga perusahaan besar dalam industri cloud, sedang memperluas kolaborasi mereka dengan Anthropic dan OpenAI di bidang AI generatif.

Google Setuju untuk Investasi hingga 20 Juta Dolar di Anthropic dan Menyediakan Layanan Cloud

  • Pada 27 Oktober 2023, Google setuju untuk berinvestasi hingga 20 juta dolar di Anthropic, dengan 5 juta dolar telah diinvestasikan sebagai prioritas awal dan 15 juta dolar sisanya akan diinvestasikan kemudian.
  • Pada Februari 2023, Google telah mengumumkan rencana untuk berinvestasi hingga 40 juta dolar di Anthropic, dengan Amazon yang sebelumnya telah berinvestasi 55 juta dolar pada September.
  • Selain itu, pada 8 November 2023, dilaporkan oleh Bloomberg bahwa Anthropic menandatangani kontrak empat tahun senilai 30 juta dolar untuk menggunakan layanan cloud Google.
  • Dario Amodei dan Daniela Amodei, pendiri Anthropic, mengembangkan 'Claude', model bahasa AI besar (LLM) setelah meninggalkan OpenAI pada 2021. Dengan investasi Google di Anthropic, Microsoft sedang memperluas kolaborasi AI generatif dengan OpenAI.

Pentingnya Segmentation (pembagian atau pemecahan)

  1. Pencarian Informasi yang Tepat (Akurasi): Dengan membagi dokumen, hanya informasi yang relevan dengan pertanyaan (Query) yang dapat diambil. Setiap unit fokus pada topik atau konten tertentu, sehingga menyediakan informasi yang lebih relevan.
  2. Optimasi Sumber Daya (Efisiensi): Memasukkan seluruh dokumen ke dalam LLM dapat mengakibatkan biaya tinggi dan membuatnya sulit untuk mengekstrak jawaban yang efisien dari banyak informasi. Terkadang, masalah ini dapat menyebabkan halusinasi. Oleh karena itu, tujuannya adalah untuk mengekstrak hanya informasi yang diperlukan untuk jawaban.

Proses Pembagian Dokumen

  1. Memahami Struktur Dokumen: Ini melibatkan analisis struktur berbagai jenis dokumen, seperti file PDF, halaman web, eBook, dll. Proses ini dapat mencakup identifikasi bagian-bagian seperti header (kepala), footer (kaki halaman), nomor halaman, judul bagian, dan lainnya dalam dokumen.
  2. Menentukan Unit Pembagian: Memutuskan bagaimana dokumen akan dibagi. Ini bisa berdasarkan halaman, bagian, atau paragraf, tergantung pada isi dan tujuan dokumen.
  3. Menentukan Ukuran Pembagian (chunk size) : Menentukan seberapa banyak unit dokumen yang akan dibagi ke dalam ukuran tertentu.
  4. Penggunaan Overlap (chunk overlap): Umumnya, bagian-bagian dokumen akan sedikit ditumpang tindih saat dibagi, sehingga konteks dari akhir bagian tetap berlanjut di bagian berikutnya.

Chunk Size & Chunk Overlap

Google Perkuat Kerjasama dengan Anthropic dengan Investasi 20 Juta Dolar untuk Pengembangan AI

Poin Utama

  • Google menyepakati investasi hingga 20 juta dolar ke Anthropic, dengan investasi awal sebesar 5 juta dolar. Selain itu, Anthropic menandatangani kontrak untuk menggunakan layanan Google Cloud.
  • Tiga raksasa cloud, yaitu Google, Microsoft, dan Amazon, sedang berupaya memperluas kerjasama dengan Anthropic dan openAI, perusahaan terkemuka di bidang AI generasi berikutnya.

Google Menyediakan Layanan Cloud serta Menandatangani Kesepakatan Investasi Hingga 20 Juta Dolar dengan Anthropic

  • Pada 27 Oktober 2023, Google sepakat untuk menginvestasikan hingga 20 juta dolar ke Anthropic, dengan investasi awal sebesar 5 juta dolar dan rencana investasi tambahan sebesar 15 juta dolar.
  • Google telah berinvestasi sebesar 5 juta dolar ke Anthropic pada Februari 2023, sementara Amazon juga telah mengumumkan rencana investasi hingga 40 juta dolar ke Anthropic pada September lalu.
  • Selain itu, menurut laporan Bloomberg pada 8 November 2023, Anthropic menandatangani kontrak bernilai 30 juta dolar selama 4 tahun untuk menggunakan layanan Google Cloud.
  • Co-founder dari OpenAI, Dario Amodei dan Daniela Amodei, mendirikan Anthropic di Amerika Selatan pada 2021 dan telah mengembangkan model LLM 'Claude' yang setara dengan GPT-4.
  • Sebelum Google berinvestasi di Anthropic, Microsoft telah memperluas kerjasama AI-nya dengan openAI.

Kode

Python
from langchain_text_splitters import RecursiveCharacterTextSplitter
 
# Langkah 2: Membagi Dokumen
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
splits = text_splitter.split_documents(docs)

Visualisasi Pemisahan Chunk

Ini adalah situs Visualisasi Chunk yang dibuat oleh Greg Kamradt.

Referensi