RAG Tidak Mati

(hamel.dev)

33 poin oleh GN⁺ 2025-07-17 | 1 komentar | Bagikan ke WhatsApp

Masa depan RAG bukan terletak pada "jendela konteks yang lebih besar", melainkan pada "retrieval yang lebih baik"

Ungkapan "RAG Is Dead" hanya berlaku untuk cara implementasi RAG sederhana ala 2023, dan masalah sebenarnya adalah retrieval berbasis vektor tunggal yang menyebabkan kehilangan informasi besar
Metrik evaluasi IR yang ada tidak cocok untuk RAG, dan dibutuhkan standar evaluasi baru yang berfokus pada cakupan fakta, keberagaman, dan relevansi
Retriever RAG kini berevolusi melampaui pencocokan sederhana menuju cara yang memahami instruksi dan memilih dokumen relevan berbasis penalaran
Model late interaction bergaya ColBERT mempertahankan representasi tingkat token tanpa kompresi informasi, sehingga model kecil dapat melampaui model besar
Alih-alih mencari satu embedding yang sempurna, multi-indeks untuk beragam representasi dan struktur smart routing menjadi standar baru

Why the future of RAG lies in better retrieval, not bigger context windows

Sanggahan terhadap klaim “RAG sudah mati”

Part 1. I don’t use RAG, I just retrieve documents - Yang mati adalah pencarian vektor sederhana, bukan RAG itu sendiri

Hamel dan Ben Clavié berargumen bahwa RAG tidak mati, dan justru ini adalah momen ketika arsitektur retrieval perlu berevolusi
Cara memasukkan dokumen ke vector DB lalu mencarinya dengan cosine similarity sudah ketinggalan zaman dan menyebabkan kehilangan informasi besar
Karena informasi pada LLM terkunci setelah waktu pelatihan, penyisipan informasi berbasis retrieval (RAG) tetap penting
Hanya memperbesar context window saja tidak efisien untuk memasukkan semua informasi

Metrik evaluasi yang keliru

Part 2. Modern IR Evals For RAG - Menjelaskan bahwa metrik evaluasi information retrieval tradisional tidak cocok untuk RAG, serta mengusulkan FreshStack

Nandan Thakur menyoroti bahwa metrik evaluasi information retrieval (IR) tradisional tidak cocok untuk RAG
- Benchmark seperti BEIR hanya mengoptimalkan pencarian dokumen peringkat pertama
- RAG perlu mempertimbangkan secara menyeluruh cakupan fakta, sudut pandang yang beragam, dan relevansi konteks
- Untuk itu, ia mengusulkan FreshStack sebagai sistem evaluasi baru

Retriever yang bernalar

Part 3. Optimizing Retrieval with Reasoning Models - Desain retriever yang mampu memahami instruksi dan melakukan penalaran

Sistem Rank1 dari Orion Weller memungkinkan retriever memahami instruksi kompleks seperti "dokumen yang memuat metafora tentang privasi data"
Bukan sekadar menghitung kemiripan, sistem ini menghasilkan reasoning trace yang eksplisit untuk memberi dasar penilaian relevansi
Dokumen yang tidak bisa ditemukan oleh sistem retrieval lama dapat ditelusuri berdasarkan pemahaman dan penalaran

Potensi model late interaction

Part 4. Late Interaction Models For RAG - Mempertahankan representasi tanpa kehilangan informasi dengan arsitektur seperti ColBERT

Antoine Chaffin menunjukkan bahwa melalui model berbasis Late Interaction seperti ColBERT
- dokumen tidak dikompresi menjadi satu vektor tunggal, melainkan informasi tingkat token dipertahankan
- hasilnya, ada kasus di mana model 150M parameter mengungguli model 7B dalam performa penalaran
Intinya adalah struktur representasi yang menjaga informasi, bukan menghilangkannya

Bukan satu peta, melainkan banyak peta

Part 5. RAG with Multiple Representations - Meningkatkan performa retrieval lewat multi-indeks sesuai tujuan

Bryan Bischof dan Ayush Chaurasia menekankan bahwa satu embedding saja tidak cukup untuk memenuhi beragam tujuan retrieval
- Contoh: saat mencari gambar
  - deskripsi tekstual
  - interpretasi puitis
  - gambar serupa
    masing-masing dicari dari indeks yang berbeda
Kesimpulan: jangan mencari satu embedding yang sempurna; yang dibutuhkan adalah multi-indeks + sistem routing cerdas yang disesuaikan dengan berbagai bentuk representasi

Strategi masa depan RAG

Empat hal berikut diajukan sebagai masa depan RAG:

Membangun standar evaluasi baru yang sesuai dengan tujuan penggunaan
Retriever yang memahami instruksi dan bernalar
Struktur yang merepresentasikan informasi apa adanya tanpa kompresi
Cara menggabungkan indeks untuk berbagai tujuan dan merutekannya secara cerdas

Annotated Notes From the Series

Seri ini terdiri dari 5 bagian dan menyediakan ringkasan dengan timestamp pada slide-slide utama. Lihat tautan masing-masing Part

Part	Judul	Penjelasan
Part 1	I don’t use RAG, I just retrieve documents	Yang mati adalah pencarian vektor sederhana, bukan RAG itu sendiri
Part 2	Modern IR Evals For RAG	Menjelaskan bahwa metrik evaluasi IR tradisional tidak cocok untuk RAG, serta mengusulkan FreshStack
Part 3	Optimizing Retrieval with Reasoning Models	Desain retriever yang mampu memahami instruksi dan melakukan penalaran
Part 4	Late Interaction Models For RAG	Mempertahankan representasi tanpa kehilangan informasi dengan arsitektur seperti ColBERT
Part 5	RAG with Multiple Representations	Meningkatkan performa retrieval lewat multi-indeks sesuai tujuan

1 komentar

ide127 2025-07-18

"Jangan mencari embedding yang sempurna, tetapi sistem multi-indeks + routing cerdas yang disesuaikan dengan beragam cara representasi"

Karena itu bukan hal yang mudah...