33 poin oleh GN⁺ 2025-07-17 | 1 komentar | Bagikan ke WhatsApp

> Masa depan RAG bukan terletak pada "jendela konteks yang lebih besar", melainkan pada "retrieval yang lebih baik"

  • Ungkapan "RAG Is Dead" hanya berlaku untuk cara implementasi RAG sederhana ala 2023, dan masalah sebenarnya adalah retrieval berbasis vektor tunggal yang menyebabkan kehilangan informasi besar
  • Metrik evaluasi IR yang ada tidak cocok untuk RAG, dan dibutuhkan standar evaluasi baru yang berfokus pada cakupan fakta, keberagaman, dan relevansi
  • Retriever RAG kini berevolusi melampaui pencocokan sederhana menuju cara yang memahami instruksi dan memilih dokumen relevan berbasis penalaran
  • Model late interaction bergaya ColBERT mempertahankan representasi tingkat token tanpa kompresi informasi, sehingga model kecil dapat melampaui model besar
  • Alih-alih mencari satu embedding yang sempurna, multi-indeks untuk beragam representasi dan struktur smart routing menjadi standar baru

Why the future of RAG lies in better retrieval, not bigger context windows

Sanggahan terhadap klaim “RAG sudah mati”

> Part 1. I don’t use RAG, I just retrieve documents - Yang mati adalah pencarian vektor sederhana, bukan RAG itu sendiri

  • Hamel dan Ben Clavié berargumen bahwa RAG tidak mati, dan justru ini adalah momen ketika arsitektur retrieval perlu berevolusi
  • Cara memasukkan dokumen ke vector DB lalu mencarinya dengan cosine similarity sudah ketinggalan zaman dan menyebabkan kehilangan informasi besar
  • Karena informasi pada LLM terkunci setelah waktu pelatihan, penyisipan informasi berbasis retrieval (RAG) tetap penting
  • Hanya memperbesar context window saja tidak efisien untuk memasukkan semua informasi

Metrik evaluasi yang keliru

> Part 2. Modern IR Evals For RAG - Menjelaskan bahwa metrik evaluasi information retrieval tradisional tidak cocok untuk RAG, serta mengusulkan FreshStack

  • Nandan Thakur menyoroti bahwa metrik evaluasi information retrieval (IR) tradisional tidak cocok untuk RAG
    • Benchmark seperti BEIR hanya mengoptimalkan pencarian dokumen peringkat pertama
    • RAG perlu mempertimbangkan secara menyeluruh cakupan fakta, sudut pandang yang beragam, dan relevansi konteks
    • Untuk itu, ia mengusulkan FreshStack sebagai sistem evaluasi baru

Retriever yang bernalar

> Part 3. Optimizing Retrieval with Reasoning Models - Desain retriever yang mampu memahami instruksi dan melakukan penalaran

  • Sistem Rank1 dari Orion Weller memungkinkan retriever memahami instruksi kompleks seperti "dokumen yang memuat metafora tentang privasi data"
  • Bukan sekadar menghitung kemiripan, sistem ini menghasilkan reasoning trace yang eksplisit untuk memberi dasar penilaian relevansi
  • Dokumen yang tidak bisa ditemukan oleh sistem retrieval lama dapat ditelusuri berdasarkan pemahaman dan penalaran

Potensi model late interaction

> Part 4. Late Interaction Models For RAG - Mempertahankan representasi tanpa kehilangan informasi dengan arsitektur seperti ColBERT

  • Antoine Chaffin menunjukkan bahwa melalui model berbasis Late Interaction seperti ColBERT
    • dokumen tidak dikompresi menjadi satu vektor tunggal, melainkan informasi tingkat token dipertahankan
    • hasilnya, ada kasus di mana model 150M parameter mengungguli model 7B dalam performa penalaran
  • Intinya adalah struktur representasi yang menjaga informasi, bukan menghilangkannya

Bukan satu peta, melainkan banyak peta

> Part 5. RAG with Multiple Representations - Meningkatkan performa retrieval lewat multi-indeks sesuai tujuan

  • Bryan Bischof dan Ayush Chaurasia menekankan bahwa satu embedding saja tidak cukup untuk memenuhi beragam tujuan retrieval
    • Contoh: saat mencari gambar
      • deskripsi tekstual
      • interpretasi puitis
      • gambar serupa
        masing-masing dicari dari indeks yang berbeda
  • Kesimpulan: jangan mencari satu embedding yang sempurna; yang dibutuhkan adalah multi-indeks + sistem routing cerdas yang disesuaikan dengan berbagai bentuk representasi

Strategi masa depan RAG

Empat hal berikut diajukan sebagai masa depan RAG:

  • Membangun standar evaluasi baru yang sesuai dengan tujuan penggunaan
  • Retriever yang memahami instruksi dan bernalar
  • Struktur yang merepresentasikan informasi apa adanya tanpa kompresi
  • Cara menggabungkan indeks untuk berbagai tujuan dan merutekannya secara cerdas

Annotated Notes From the Series

Seri ini terdiri dari 5 bagian dan menyediakan ringkasan dengan timestamp pada slide-slide utama. Lihat tautan masing-masing Part

Part Judul Penjelasan
Part 1 I don’t use RAG, I just retrieve documents Yang mati adalah pencarian vektor sederhana, bukan RAG itu sendiri
Part 2 Modern IR Evals For RAG Menjelaskan bahwa metrik evaluasi IR tradisional tidak cocok untuk RAG, serta mengusulkan FreshStack
Part 3 Optimizing Retrieval with Reasoning Models Desain retriever yang mampu memahami instruksi dan melakukan penalaran
Part 4 Late Interaction Models For RAG Mempertahankan representasi tanpa kehilangan informasi dengan arsitektur seperti ColBERT
Part 5 RAG with Multiple Representations Meningkatkan performa retrieval lewat multi-indeks sesuai tujuan

1 komentar

 
ide127 2025-07-18

"Jangan mencari embedding yang sempurna, tetapi sistem multi-indeks + routing cerdas yang disesuaikan dengan beragam cara representasi"

Karena itu bukan hal yang mudah...