- Meta Superintelligence(MSI) memperkenalkan hasil riset pertamanya, REFRAG, sebuah pendekatan baru yang secara besar meningkatkan arsitektur RAG (Retrieval-Augmented Generation) yang ada dan mencapai kecepatan respons 30x lebih cepat
- Intinya adalah mengubah potongan dokumen bukan menjadi token, melainkan ke bentuk ‘Chunk Embedding’ yang bisa langsung dipahami LLM, lalu memperkenalkan jaringan kebijakan yang hanya memulihkan sebagian bila diperlukan
- Dengan cara ini, sistem secara signifikan mengurangi biaya KV cache dan attention, menurunkan latensi respons token pertama (TTFT) untuk meningkatkan UX sekaligus menekan biaya operasional
- Makalah ini berfokus bukan pada inovasi arsitektur model, melainkan pada efisiensi di lapisan sistem dan aplikasi, serta menunjukkan arah teknologi yang memungkinkan ROI direalisasikan segera
- Ini menunjukkan potensi untuk mengakali keterbatasan performa dan masalah biaya model besar, serta ke depan dapat mendefinisikan ulang keekonomian produk AI
Latar belakang publikasi makalah pertama MSI
- Laboratorium Meta Superintelligence(MSI) mendapat perhatian besar berkat talenta kelas atas industri dan paket kompensasi yang sangat tinggi
- Fakta bahwa MSI memilih topik RAG (retrieval-augmented generation) yang praktis sebagai makalah pertamanya sangat tidak biasa
- Industri sebelumnya memperkirakan MSI akan fokus pada peningkatan performa foundation model atau pengembangan arsitektur baru, sehingga pilihannya terhadap topik yang praktis dan berdampak ekonomi langsung terasa mengejutkan
- RAG adalah komponen inti layanan komersial seperti agen AI, pencarian, dukungan pelanggan, dan peringkasan, di mana latensi respons dan biaya berdampak langsung pada model bisnis
- Makalah ini menawarkan cara untuk memangkas biaya dan latensi produk AI berbasis RAG dalam skala besar, sehingga bisa langsung menghasilkan ROI (return on investment)
Struktur teknis REFRAG
- 1. Pada pendekatan RAG konvensional, dokumen terkait (chunk) dicari dari vector DB, lalu LLM memproses semua chunk itu dalam bentuk token penuh
- 2. Dalam REFRAG, dokumen dibagi menjadi chunk (sekitar 128 token), lalu masing-masing diubah oleh encoder ringan menjadi satu vektor embedding dan diproyeksikan ke ruang embedding milik LLM
- Embedding ini bisa dihitung sebelumnya dan di-cache
- 3. Saat pengguna mengajukan kueri, chunk terkait akan dicari
- Sebagian besar chunk dikirim ke LLM dalam bentuk embedding, dan
- Hanya sangat sedikit chunk yang dipilih oleh jaringan kebijakan (policy) berbasis RL yang diperluas menjadi urutan token penuh untuk dikirim
- 4. Jaringan kebijakan ini dioptimalkan dengan objektif RL (reinforcement learning), sehingga memilih chunk yang perlu diperluas dalam anggaran terbatas
- Dilatih dengan fungsi reward yang menurunkan perplexity sambil mempertahankan kualitas generasi
- 5. LLM kemudian menghasilkan teks dengan menggabungkan urutan token input (kueri + chunk yang diperluas) dan beberapa placeholder vektor tunggal (chunk terkompresi)
- Hasilnya, LLM dapat menerima “kueri + sebagian token yang dipulihkan + banyak vektor embedding” dan tetap menghasilkan keluaran yang sama dengan input yang lebih pendek
- Struktur ini secara signifikan menurunkan penggunaan cache, jumlah komputasi attention, dan waktu respons awal
Makna teknis dan wawasan utama
- Inti makalah ini adalah kebijakan di mana jaringan kebijakan secara efektif mengompresi chunk yang kurang penting dalam proses RAG dan hanya menguraikan bagian yang penting
- Wawasan tersembunyi yang lebih penting adalah bahwa jika embedding memang sudah dihasilkan di lapisan internal LLM, maka tidak perlu lagi mengubahnya kembali ke bahasa alami dan bisa langsung dikirim sebagai embedding
- Artinya, dengan memproses data langsung di ruang representasi yang sudah dipahami LLM, sistem menghilangkan proses kompresi berulang dan secara dramatis meningkatkan kecepatan tanpa kehilangan akurasi
- Ini dapat diringkas sebagai sudut pandang: bukan mengoptimalkan token, melainkan mengubah konsep token itu sendiri
Signifikansi dalam value chain AI saat ini
- Perbandingan dua vektor inovasi di ranah LLM
- Inovasi level model: arsitektur baru, model yang lebih besar, pretraining baru
- Risiko tinggi, imbal hasil tinggi, timeline panjang, butuh modal besar
- Efisiensi level aplikasi/sistem: optimisasi inferensi, teknik retrieval, orkestrasi
- Risiko lebih rendah, ROI langsung, dapat dimonetisasi secara langsung
- REFRAG berada di jalur kedua, dengan ROI yang jelas berupa peningkatan throughput per GPU, penurunan biaya operasional, dan perbaikan UX
- Perusahaan dan tim produk bisa langsung menguji dampak nyata dari penerapan pendekatan REFRAG terhadap peningkatan throughput per GPU, penurunan biaya infrastruktur, dan penguatan UX
- Pendekatan ini bisa dikombinasikan secara independen dengan retriever dan reranker, sehingga fleksibel diterapkan ke pipeline RAG yang sudah ada
- Terutama di tengah kompetisi pasar vector DB yang makin ketat, beserta dinamika industri seperti rumor penjualan Pinecone, peningkatan efisiensi RAG menjadi topik riset yang sangat relevan saat ini
Keterbatasan yang diperkirakan
- Kompleksitas pelatihan dan engineering
- Perlu menambahkan encoder + projection dan melatih LLM agar memahami embedding (reconstruction pretraining + SFT)
- Kebijakan selektif stabil sebagai masalah RL, tetapi menambah kompleksitas pengembangan
- Batas kompresi
- Kompresi yang terlalu agresif pada akhirnya menurunkan kualitas downstream
- Ada trade-off antara ukuran embedding dan frekuensi perluasan
- Masalah freshness
- Chunk embedding yang telah dihitung sebelumnya cocok untuk korpus statis
- Untuk data yang sering berubah, dibutuhkan pipeline perhitungan ulang embedding atau strategi hibrida
- Pertimbangan per use case
- Peringkasan bersifat kasar, dan tugas yang menuntut presisi tertentu (penalaran hukum, kutipan akurat, fakta medis sensitif) memerlukan evaluasi yang hati-hati
- Dalam kasus seperti ini, mungkin diperlukan anggaran kompresi yang lebih rendah
Kesimpulan dan implikasi
- Pertanyaan inti dari makalah ini: "Bagaimana jika kita tidak mencoba mengoptimalkan biaya token, melainkan memakai jenis token yang sama sekali berbeda?"
- REFRAG menawarkan inovasi praktis yang mengubah struktur biaya produk AI dengan “mendefinisikan ulang konsep token yang dibaca LLM”, sehingga meredakan keterbatasan struktural RAG
- Kemungkinan perluasan ke depan
- Jika pada sisi READ LLM bisa menjadi embedding-native, mungkinkah pada sisi WRITE juga menjadi embedding-native sehingga agen bisa dipercepat 30x secara menyeluruh?
- Biaya per token pada model embedding nyaris nol — apakah ini berarti perpindahan ke arsitektur lain yang memangkas harga token secara drastis? Apa kekurangannya?
- REFRAG mengingatkan bahwa tidak semua inovasi lahir dari model yang lebih besar
- Menjadikan RAG lebih murah dan lebih cepat pada skala besar adalah pengungkit langsung bagi keekonomian produk
- Industri akan memberi penghargaan kepada tim yang mampu mengoperasionalkan kemenangan seperti ini
1 komentar
Opini Hacker News
Dijelaskan bahwa makalah ini tidak ada kaitannya dengan superintelligence; ini adalah makalah yang diterbitkan setelah pergantian nama oleh tim yang telah menelitinya sebelum reorganisasi. Banyak orang memperkirakan Meta tidak akan lagi menerbitkan makalah dan akan menjadi seperti OpenAI, tetapi Meta masih terus cepat dalam menerbitkan makalah dan merilis model berbobot terbuka
Ditekankan bahwa yang dibuka Meta bukan open source, melainkan model dengan bobot terbuka. Bahkan bobot ini pun dirilis dengan lisensi yang lebih ketat daripada Apache 2
Ditekankan bahwa MSL (tim tersebut) bukan hanya terdiri dari beberapa figur terkenal saja
Dalam diskusi terkait RAG (Retrieval-Augmented Generation), ada kebingungan karena istilah ini dipakai dengan berbagai makna. Bagi saya, RAG adalah sistem yang mengubah potongan dokumen dari repositori dokumen yang telah ditentukan sebelumnya menjadi embedding vektor, lalu hanya memasukkan potongan tertentu ke konteks sesuai kebutuhan. Atau fitur pada antarmuka chat LLM yang melakukan pencarian web dengan kata kunci dan sementara memasukkan hanya dokumen yang relevan ke konteks. Saya penasaran apa yang akan terjadi jika jendela konteks yang panjang didukung. Jika semua informasi dimasukkan ke konteks sekaligus, saya khawatir keberagamannya menurun, dan dalam kasus seperti ini mungkin membantu konsistensi, tetapi pada akhirnya bukankah cara menentukan informasi mana yang dipertahankan dan dibuang tetap merupakan RAG? Saya ingin mendengar penjelasan dari orang yang ahli
Secara teknis, RAG adalah semua teknik yang membantu generasi dengan retrieval eksternal. Namun, biasanya istilah ini dipakai lebih sempit untuk merujuk pada pendekatan yang menggunakan vector DB. Memasukkan semua informasi ke jendela konteks besar itu tidak praktis. Pemrosesan menjadi lebih lama, dan jika informasinya terlalu banyak, model akan kesulitan menemukan informasi yang dibutuhkan. Pada akhirnya, ketika dibutuhkan latensi rendah atau ada batas memori, pendekatan RAG ‘klasik’ tetap berguna
Intinya adalah adaptabilitas. Perbedaan utama antara RAG dan non-RAG adalah apakah pertanyaan sudah diketahui saat pembuatan indeks, serta ada atau tidaknya kemampuan membandingkan dokumen yang diambil satu sama lain dan memecah pertanyaan. Non-RAG melihat pertanyaan dan dokumen secara bersamaan dengan hal seperti transformer non-kausal multilapis, sehingga lebih umum dan lebih mudah dioptimalkan dengan deep learning. Sebaliknya, RAG cepat dan murah, tetapi karena memakai alat eksternal, pembelajaran end-to-end menjadi sulit (memerlukan pembelajaran berbasis reward seperti RL). Dalam RAG, dokumen bersifat independen dan pertanyaan tidak diketahui saat pengindeksan. Ada juga bentuk hibrida yang menggabungkan output RAG ke dalam non-RAG. Non-RAG membutuhkan dataset berskala besar, tetapi jika seluruh web dilatih, performanya terus membaik. Peningkatan performa pada kasus spesifik justru lebih mudah. RAG unggul dalam kontrol input dan data terstruktur, serta mudah mencegah worst case, tetapi sulit meningkatkan best case
Saya rasa tidak mungkin memasukkan informasi tak terbatas ke dalam konteks. Menurut pengalaman saya, GPT-5 cepat bingung setelah beberapa halaman. Meskipun diberi sebanyak itu, model tetap tidak bisa mengingatnya
Saya rasa sebenarnya tidak ada yang mengatakan “RAG sudah mati”. Memasukkan seluruh internet ke konteks LLM itu mustahil, dan semakin banyak dimasukkan, biayanya hanya makin tinggi
Meta punya orang-orang terbaik, tetapi tampaknya tidak berhasil memanfaatkan potensi mereka sepenuhnya. Menurut saya, jika mereka tidak terlalu terobsesi pada metrik hasil dan memberi otonomi kepada peneliti, mereka bisa lebih maju dalam persaingan AI. Tim yang baru bergabung terasa dipimpin oleh orang-orang yang pandai menata sistem, dan juga orang-orang yang lebih tertarik pada uang. Sebenarnya kecenderungan ini jelas ada di laboratorium riset big tech mana pun. Organisasi-organisasi ini terlalu menghindari risiko. Dulu, Silicon Valley bisa menjadi seperti sekarang karena para peneliti diberi kebebasan. Saya sendiri, bersama ratusan peneliti ML lain, akan dengan senang hati bekerja bahkan dengan gaji jauh lebih rendah jika diberi otonomi dan sumber daya. Meta juga perlu memakai uang yang sedang mereka investasikan sekarang dengan cara yang lebih beragam, dan kembali pada prinsip-prinsip yang membesarkan Silicon Valley
Menurut saya, makin banyak pesaing, makin muncul fenomena bahwa yang bertahan di puncak bukan “orang yang benar-benar hebat”, melainkan orang yang paling pandai memainkan sistem. Kecenderungan seperti itu terlihat bahkan pada lamaran kerja ke GAFAM atau kasus Tinder
Memberi kebebasan kepada peneliti di lab perusahaan tampaknya tidak benar-benar membantu bisnis. Melihat contoh seperti Bell Labs atau Microsoft Research, memang ada banyak riset hebat, tetapi sangat jarang yang terhubung ke bisnis inti perusahaan. Poinnya adalah bahwa riset AI bukan memberi Meta pendapatan atau daya saing secara nyata, melainkan hanya mendorong pertumbuhan pengetahuan kolektif. Dari sudut pandang perusahaan, pendekatan seperti ini tidak terlalu cocok. Bahkan jika menjadi peneliti, di dunia akademik saat ini pun orang sibuk mengurus mahasiswa atau rapat
Saya meragukan pernyataan bahwa laju perkembangan AI melambat. Saya balik bertanya, diukur dengan apa? Orang yang benar-benar mengikuti bidang ini akan sulit setuju dengan klaim seperti itu
Di bawah tekanan Meta pun, saya selalu penasaran apakah para matematikawan dengan gaji sangat besar itu benar-benar punya waktu untuk berpikir bebas
Pilihan Alex Wang menarik. Ada banyak CEO laboratorium AI yang hebat, dan meski Wang punya kelebihan, pada dasarnya semuanya bertumpu pada MTurk dan timing pasar. Ia tidak terasa cocok sebagai CEO yang akan memimpin AGI
Agak mengejutkan bahwa topik makalah pertama dari lab baru ini adalah RAG yang praktis dan realistis. Biasanya, lab baru pada tahap awal akan menerbitkan beberapa makalah sesuai topik yang masing-masing orang sudah kerjakan, lalu setelah kerja tim dan sinergi cukup terbentuk, barulah muncul riset yang benar-benar inovatif. Jika terlalu memberi makna pada “makalah pertama” yang penting, justru bisa membuat awalnya terasa membebani
Saya penasaran apakah makalah dari tim superintelligence Meta ini memang dirancang langsung oleh tim tersebut, atau makalah yang diterbitkan setelah personel lama berpindah tim. Saya menduga kemungkinan yang pertama lebih besar
Dibagikan ringkasan video penjelasan YouTube tentang makalah RAG ini tautan video
Dari grafik dan tabel dalam makalah, saya tidak langsung melihat perbandingan dengan teknik kompresi konteks lama yang mudah dan bersifat statistik, seperti TF-IDF atau tumpang tindih kata sederhana. Di lapangan industri, metode sederhana seperti ini sangat penting karena performanya hampir sama tetapi bisa mengurangi jumlah informasi hingga 10 kali
Saya pernah memikirkan dan mengimplementasikan ide serupa. Ke depan, diperlukan framework yang menyederhanakan hal ini agar LLM bisa lebih mudah menangani berbagai format embedding
Diperkenalkan tautan proyek open-source terkait RAG REFRAG
Judul artikelnya terlalu sensasional, jadi saya ingin judul yang lebih informatif dan tidak memancing klik