RAG Tidak Mati
(hamel.dev)> Masa depan RAG bukan terletak pada "jendela konteks yang lebih besar", melainkan pada "retrieval yang lebih baik"
- Ungkapan "RAG Is Dead" hanya berlaku untuk cara implementasi RAG sederhana ala 2023, dan masalah sebenarnya adalah retrieval berbasis vektor tunggal yang menyebabkan kehilangan informasi besar
- Metrik evaluasi IR yang ada tidak cocok untuk RAG, dan dibutuhkan standar evaluasi baru yang berfokus pada cakupan fakta, keberagaman, dan relevansi
- Retriever RAG kini berevolusi melampaui pencocokan sederhana menuju cara yang memahami instruksi dan memilih dokumen relevan berbasis penalaran
- Model late interaction bergaya ColBERT mempertahankan representasi tingkat token tanpa kompresi informasi, sehingga model kecil dapat melampaui model besar
- Alih-alih mencari satu embedding yang sempurna, multi-indeks untuk beragam representasi dan struktur smart routing menjadi standar baru
Why the future of RAG lies in better retrieval, not bigger context windows
Sanggahan terhadap klaim “RAG sudah mati”
> Part 1. I don’t use RAG, I just retrieve documents - Yang mati adalah pencarian vektor sederhana, bukan RAG itu sendiri
- Hamel dan Ben Clavié berargumen bahwa RAG tidak mati, dan justru ini adalah momen ketika arsitektur retrieval perlu berevolusi
- Cara memasukkan dokumen ke vector DB lalu mencarinya dengan cosine similarity sudah ketinggalan zaman dan menyebabkan kehilangan informasi besar
- Karena informasi pada LLM terkunci setelah waktu pelatihan, penyisipan informasi berbasis retrieval (RAG) tetap penting
- Hanya memperbesar context window saja tidak efisien untuk memasukkan semua informasi
Metrik evaluasi yang keliru
> Part 2. Modern IR Evals For RAG - Menjelaskan bahwa metrik evaluasi information retrieval tradisional tidak cocok untuk RAG, serta mengusulkan FreshStack
- Nandan Thakur menyoroti bahwa metrik evaluasi information retrieval (IR) tradisional tidak cocok untuk RAG
- Benchmark seperti BEIR hanya mengoptimalkan pencarian dokumen peringkat pertama
- RAG perlu mempertimbangkan secara menyeluruh cakupan fakta, sudut pandang yang beragam, dan relevansi konteks
- Untuk itu, ia mengusulkan FreshStack sebagai sistem evaluasi baru
Retriever yang bernalar
> Part 3. Optimizing Retrieval with Reasoning Models - Desain retriever yang mampu memahami instruksi dan melakukan penalaran
- Sistem Rank1 dari Orion Weller memungkinkan retriever memahami instruksi kompleks seperti "dokumen yang memuat metafora tentang privasi data"
- Bukan sekadar menghitung kemiripan, sistem ini menghasilkan reasoning trace yang eksplisit untuk memberi dasar penilaian relevansi
- Dokumen yang tidak bisa ditemukan oleh sistem retrieval lama dapat ditelusuri berdasarkan pemahaman dan penalaran
Potensi model late interaction
> Part 4. Late Interaction Models For RAG - Mempertahankan representasi tanpa kehilangan informasi dengan arsitektur seperti ColBERT
- Antoine Chaffin menunjukkan bahwa melalui model berbasis Late Interaction seperti ColBERT
- dokumen tidak dikompresi menjadi satu vektor tunggal, melainkan informasi tingkat token dipertahankan
- hasilnya, ada kasus di mana model 150M parameter mengungguli model 7B dalam performa penalaran
- Intinya adalah struktur representasi yang menjaga informasi, bukan menghilangkannya
Bukan satu peta, melainkan banyak peta
> Part 5. RAG with Multiple Representations - Meningkatkan performa retrieval lewat multi-indeks sesuai tujuan
- Bryan Bischof dan Ayush Chaurasia menekankan bahwa satu embedding saja tidak cukup untuk memenuhi beragam tujuan retrieval
- Contoh: saat mencari gambar
- deskripsi tekstual
- interpretasi puitis
- gambar serupa
masing-masing dicari dari indeks yang berbeda
- Contoh: saat mencari gambar
- Kesimpulan: jangan mencari satu embedding yang sempurna; yang dibutuhkan adalah multi-indeks + sistem routing cerdas yang disesuaikan dengan berbagai bentuk representasi
Strategi masa depan RAG
Empat hal berikut diajukan sebagai masa depan RAG:
- Membangun standar evaluasi baru yang sesuai dengan tujuan penggunaan
- Retriever yang memahami instruksi dan bernalar
- Struktur yang merepresentasikan informasi apa adanya tanpa kompresi
- Cara menggabungkan indeks untuk berbagai tujuan dan merutekannya secara cerdas
Annotated Notes From the Series
Seri ini terdiri dari 5 bagian dan menyediakan ringkasan dengan timestamp pada slide-slide utama. Lihat tautan masing-masing Part
| Part | Judul | Penjelasan |
|---|---|---|
| Part 1 | I don’t use RAG, I just retrieve documents | Yang mati adalah pencarian vektor sederhana, bukan RAG itu sendiri |
| Part 2 | Modern IR Evals For RAG | Menjelaskan bahwa metrik evaluasi IR tradisional tidak cocok untuk RAG, serta mengusulkan FreshStack |
| Part 3 | Optimizing Retrieval with Reasoning Models | Desain retriever yang mampu memahami instruksi dan melakukan penalaran |
| Part 4 | Late Interaction Models For RAG | Mempertahankan representasi tanpa kehilangan informasi dengan arsitektur seperti ColBERT |
| Part 5 | RAG with Multiple Representations | Meningkatkan performa retrieval lewat multi-indeks sesuai tujuan |
1 komentar
"Jangan mencari embedding yang sempurna, tetapi sistem multi-indeks + routing cerdas yang disesuaikan dengan beragam cara representasi"
Karena itu bukan hal yang mudah...