Ch11 Reranker

CH11 - Reranker

Perkiraan waktu belajar: 2 Hari

Tingkat kesulitan: Sedang

Reranker

Reranker adalah komponen utama yang digunakan dalam Sistem Temu Kembali Dua Tahap modern. Reranker dirancang untuk melakukan pencarian yang efisien dan akurat pada set data yang besar, dan terutama bertanggung jawab untuk memberi peringkat ulang dokumen yang ditemukan oleh tahap pertama, Retriever.

Gambaran Umum

Reranker bekerja pada tahap kedua dari sistem pencarian dan bertujuan untuk meningkatkan akurasi hasil pencarian awal. Setelah Retriever dengan cepat mengekstrak dokumen kandidat yang relevan dari kumpulan dokumen yang besar, Reranker menganalisis dokumen kandidat ini secara lebih rinci untuk menentukan peringkat akhirnya.

Bagaimana cara kerjanya

  1. Menerima hasil pencarian awal dari Retriever.
  2. Memproses kueri dan setiap dokumen kandidat dengan menggabungkannya secara berpasangan.
  3. Mengevaluasi relevansi setiap pasangan kueri-dokumen menggunakan model yang kompleks (sering kali berdasarkan transformer).
  4. Memberi peringkat ulang pada dokumen berdasarkan hasil evaluasi.
  5. Terakhir, mengeluarkan hasil peringkat ulang.

Fitur Teknis

Arsitektur.

Terutama menggunakan model berbasis transformer seperti BERT, RoBERTa, dll. Mengadopsi struktur penyandi silang

Format masukan

  • Biasanya input dalam bentuk [CLS] Query [SEP] Dokumen [SEP]

Metode Pelatihan

  1. Pointwise: Memprediksi nilai relevansi dari setiap pasangan kueri-dokumen
  2. Berpasangan (Pairwise): Membandingkan relevansi relatif antara dua dokumen
  3. Berurutan (Listwise): Mengoptimalkan seluruh daftar peringkat sekaligus

Perbedaan dari Retriever

Ciri-ciriRetrieverReranker
TujuanMenemukan dokumen yang relevan dengan cepatPemeringkatan yang akurat
MetodePemrosesan Perhitungan kemiripan sederhanaAnalisis semantik yang kompleks
StrukturModel Penyandi TunggalPenyandi Silang
KompleksitasKomputasi RendahTinggi
PrioritasKecepatanAkurasi
Jenis masukanMemproses pertanyaan dan dokumen secara terpisahMemproses pasangan kueri-dokumen
OutputKumpulan dokumen kandidat dalam jumlah besarPeringkat dan skor yang akurat
SkalabilitasTinggiTerbatas

Pro dan kontra

Kelebihan

  • Meningkatkan akurasi pencarian secara signifikan
  • Dapat memodelkan hubungan semantik yang kompleks
  • Mengimbangi keterbatasan pencarian tingkat pertama

Kekurangan

  • Biaya komputasi yang lebih tinggi
  • Peningkatan waktu pemrosesan
  • Sulit diterapkan secara langsung pada set data yang besar