RAG Tidak Mati
(hamel.dev)Masa depan RAG bukan terletak pada "jendela konteks yang lebih besar", melainkan pada "retrieval yang lebih baik"
- Ungkapan "RAG Is Dead" hanya berlaku untuk cara implementasi RAG sederhana ala 2023, dan masalah sebenarnya adalah retrieval berbasis vektor tunggal yang menyebabkan kehilangan informasi besar
- Metrik evaluasi IR yang ada tidak cocok untuk RAG, dan dibutuhkan standar evaluasi baru yang berfokus pada cakupan fakta, keberagaman, dan relevansi
- Retriever RAG kini berevolusi melampaui pencocokan sederhana menuju cara yang memahami instruksi dan memilih dokumen relevan berbasis penalaran
- Model late interaction bergaya ColBERT mempertahankan representasi tingkat token tanpa kompresi informasi, sehingga model kecil dapat melampaui model besar
- Alih-alih mencari satu embedding yang sempurna, multi-indeks untuk beragam representasi dan struktur smart routing menjadi standar baru
Why the future of RAG lies in better retrieval, not bigger context windows
Sanggahan terhadap klaim “RAG sudah mati”
Part 1. I don’t use RAG, I just retrieve documents - Yang mati adalah pencarian vektor sederhana, bukan RAG itu sendiri
- Hamel dan Ben Clavié berargumen bahwa RAG tidak mati, dan justru ini adalah momen ketika arsitektur retrieval perlu berevolusi
- Cara memasukkan dokumen ke vector DB lalu mencarinya dengan cosine similarity sudah ketinggalan zaman dan menyebabkan kehilangan informasi besar
- Karena informasi pada LLM terkunci setelah waktu pelatihan, penyisipan informasi berbasis retrieval (RAG) tetap penting
- Hanya memperbesar context window saja tidak efisien untuk memasukkan semua informasi
Metrik evaluasi yang keliru
Part 2. Modern IR Evals For RAG - Menjelaskan bahwa metrik evaluasi information retrieval tradisional tidak cocok untuk RAG, serta mengusulkan FreshStack
- Nandan Thakur menyoroti bahwa metrik evaluasi information retrieval (IR) tradisional tidak cocok untuk RAG
- Benchmark seperti BEIR hanya mengoptimalkan pencarian dokumen peringkat pertama
- RAG perlu mempertimbangkan secara menyeluruh cakupan fakta, sudut pandang yang beragam, dan relevansi konteks
- Untuk itu, ia mengusulkan FreshStack sebagai sistem evaluasi baru
Retriever yang bernalar
Part 3. Optimizing Retrieval with Reasoning Models - Desain retriever yang mampu memahami instruksi dan melakukan penalaran
- Sistem Rank1 dari Orion Weller memungkinkan retriever memahami instruksi kompleks seperti "dokumen yang memuat metafora tentang privasi data"
- Bukan sekadar menghitung kemiripan, sistem ini menghasilkan reasoning trace yang eksplisit untuk memberi dasar penilaian relevansi
- Dokumen yang tidak bisa ditemukan oleh sistem retrieval lama dapat ditelusuri berdasarkan pemahaman dan penalaran
Potensi model late interaction
Part 4. Late Interaction Models For RAG - Mempertahankan representasi tanpa kehilangan informasi dengan arsitektur seperti ColBERT
- Antoine Chaffin menunjukkan bahwa melalui model berbasis Late Interaction seperti ColBERT
- dokumen tidak dikompresi menjadi satu vektor tunggal, melainkan informasi tingkat token dipertahankan
- hasilnya, ada kasus di mana model 150M parameter mengungguli model 7B dalam performa penalaran
- Intinya adalah struktur representasi yang menjaga informasi, bukan menghilangkannya
Bukan satu peta, melainkan banyak peta
Part 5. RAG with Multiple Representations - Meningkatkan performa retrieval lewat multi-indeks sesuai tujuan
- Bryan Bischof dan Ayush Chaurasia menekankan bahwa satu embedding saja tidak cukup untuk memenuhi beragam tujuan retrieval
- Contoh: saat mencari gambar
- deskripsi tekstual
- interpretasi puitis
- gambar serupa
masing-masing dicari dari indeks yang berbeda
- Contoh: saat mencari gambar
- Kesimpulan: jangan mencari satu embedding yang sempurna; yang dibutuhkan adalah multi-indeks + sistem routing cerdas yang disesuaikan dengan berbagai bentuk representasi
Strategi masa depan RAG
Empat hal berikut diajukan sebagai masa depan RAG:
- Membangun standar evaluasi baru yang sesuai dengan tujuan penggunaan
- Retriever yang memahami instruksi dan bernalar
- Struktur yang merepresentasikan informasi apa adanya tanpa kompresi
- Cara menggabungkan indeks untuk berbagai tujuan dan merutekannya secara cerdas
Annotated Notes From the Series
Seri ini terdiri dari 5 bagian dan menyediakan ringkasan dengan timestamp pada slide-slide utama. Lihat tautan masing-masing Part
| Part | Judul | Penjelasan |
|---|---|---|
| Part 1 | I don’t use RAG, I just retrieve documents | Yang mati adalah pencarian vektor sederhana, bukan RAG itu sendiri |
| Part 2 | Modern IR Evals For RAG | Menjelaskan bahwa metrik evaluasi IR tradisional tidak cocok untuk RAG, serta mengusulkan FreshStack |
| Part 3 | Optimizing Retrieval with Reasoning Models | Desain retriever yang mampu memahami instruksi dan melakukan penalaran |
| Part 4 | Late Interaction Models For RAG | Mempertahankan representasi tanpa kehilangan informasi dengan arsitektur seperti ColBERT |
| Part 5 | RAG with Multiple Representations | Meningkatkan performa retrieval lewat multi-indeks sesuai tujuan |
1 komentar
"Jangan mencari embedding yang sempurna, tetapi sistem multi-indeks + routing cerdas yang disesuaikan dengan beragam cara representasi"
Karena itu bukan hal yang mudah...