Meta Superintelligence, makalah pertama mengejutkan ‘REFRAG’ tingkatkan efisiensi RAG hingga 30x

(paddedinputs.substack.com)

8 poin oleh GN⁺ 2025-10-12 | 1 komentar | Bagikan ke WhatsApp

Meta Superintelligence(MSI) memperkenalkan hasil riset pertamanya, REFRAG, sebuah pendekatan baru yang secara besar meningkatkan arsitektur RAG (Retrieval-Augmented Generation) yang ada dan mencapai kecepatan respons 30x lebih cepat
Intinya adalah mengubah potongan dokumen bukan menjadi token, melainkan ke bentuk ‘Chunk Embedding’ yang bisa langsung dipahami LLM, lalu memperkenalkan jaringan kebijakan yang hanya memulihkan sebagian bila diperlukan
Dengan cara ini, sistem secara signifikan mengurangi biaya KV cache dan attention, menurunkan latensi respons token pertama (TTFT) untuk meningkatkan UX sekaligus menekan biaya operasional
Makalah ini berfokus bukan pada inovasi arsitektur model, melainkan pada efisiensi di lapisan sistem dan aplikasi, serta menunjukkan arah teknologi yang memungkinkan ROI direalisasikan segera
Ini menunjukkan potensi untuk mengakali keterbatasan performa dan masalah biaya model besar, serta ke depan dapat mendefinisikan ulang keekonomian produk AI

Latar belakang publikasi makalah pertama MSI

Laboratorium Meta Superintelligence(MSI) mendapat perhatian besar berkat talenta kelas atas industri dan paket kompensasi yang sangat tinggi
Fakta bahwa MSI memilih topik RAG (retrieval-augmented generation) yang praktis sebagai makalah pertamanya sangat tidak biasa
Industri sebelumnya memperkirakan MSI akan fokus pada peningkatan performa foundation model atau pengembangan arsitektur baru, sehingga pilihannya terhadap topik yang praktis dan berdampak ekonomi langsung terasa mengejutkan
RAG adalah komponen inti layanan komersial seperti agen AI, pencarian, dukungan pelanggan, dan peringkasan, di mana latensi respons dan biaya berdampak langsung pada model bisnis
Makalah ini menawarkan cara untuk memangkas biaya dan latensi produk AI berbasis RAG dalam skala besar, sehingga bisa langsung menghasilkan ROI (return on investment)
- Mengubah masalah dunia nyata di lapangan lewat capaian kecepatan respons 30x lebih cepat
- Makalah: REFRAG: Rethinking RAG based Decoding

Struktur teknis REFRAG

1. Pada pendekatan RAG konvensional, dokumen terkait (chunk) dicari dari vector DB, lalu LLM memproses semua chunk itu dalam bentuk token penuh
2. Dalam REFRAG, dokumen dibagi menjadi chunk (sekitar 128 token), lalu masing-masing diubah oleh encoder ringan menjadi satu vektor embedding dan diproyeksikan ke ruang embedding milik LLM
- Embedding ini bisa dihitung sebelumnya dan di-cache
3. Saat pengguna mengajukan kueri, chunk terkait akan dicari
- Sebagian besar chunk dikirim ke LLM dalam bentuk embedding, dan
- Hanya sangat sedikit chunk yang dipilih oleh jaringan kebijakan (policy) berbasis RL yang diperluas menjadi urutan token penuh untuk dikirim
4. Jaringan kebijakan ini dioptimalkan dengan objektif RL (reinforcement learning), sehingga memilih chunk yang perlu diperluas dalam anggaran terbatas
- Dilatih dengan fungsi reward yang menurunkan perplexity sambil mempertahankan kualitas generasi
5. LLM kemudian menghasilkan teks dengan menggabungkan urutan token input (kueri + chunk yang diperluas) dan beberapa placeholder vektor tunggal (chunk terkompresi)

Hasilnya, LLM dapat menerima “kueri + sebagian token yang dipulihkan + banyak vektor embedding” dan tetap menghasilkan keluaran yang sama dengan input yang lebih pendek
Struktur ini secara signifikan menurunkan penggunaan cache, jumlah komputasi attention, dan waktu respons awal

Makna teknis dan wawasan utama

Inti makalah ini adalah kebijakan di mana jaringan kebijakan secara efektif mengompresi chunk yang kurang penting dalam proses RAG dan hanya menguraikan bagian yang penting
Wawasan tersembunyi yang lebih penting adalah bahwa jika embedding memang sudah dihasilkan di lapisan internal LLM, maka tidak perlu lagi mengubahnya kembali ke bahasa alami dan bisa langsung dikirim sebagai embedding
Artinya, dengan memproses data langsung di ruang representasi yang sudah dipahami LLM, sistem menghilangkan proses kompresi berulang dan secara dramatis meningkatkan kecepatan tanpa kehilangan akurasi
Ini dapat diringkas sebagai sudut pandang: bukan mengoptimalkan token, melainkan mengubah konsep token itu sendiri

Signifikansi dalam value chain AI saat ini

Perbandingan dua vektor inovasi di ranah LLM
- Inovasi level model: arsitektur baru, model yang lebih besar, pretraining baru
  - Risiko tinggi, imbal hasil tinggi, timeline panjang, butuh modal besar
- Efisiensi level aplikasi/sistem: optimisasi inferensi, teknik retrieval, orkestrasi
  - Risiko lebih rendah, ROI langsung, dapat dimonetisasi secara langsung
REFRAG berada di jalur kedua, dengan ROI yang jelas berupa peningkatan throughput per GPU, penurunan biaya operasional, dan perbaikan UX
Perusahaan dan tim produk bisa langsung menguji dampak nyata dari penerapan pendekatan REFRAG terhadap peningkatan throughput per GPU, penurunan biaya infrastruktur, dan penguatan UX
Pendekatan ini bisa dikombinasikan secara independen dengan retriever dan reranker, sehingga fleksibel diterapkan ke pipeline RAG yang sudah ada
Terutama di tengah kompetisi pasar vector DB yang makin ketat, beserta dinamika industri seperti rumor penjualan Pinecone, peningkatan efisiensi RAG menjadi topik riset yang sangat relevan saat ini

Keterbatasan yang diperkirakan

Kompleksitas pelatihan dan engineering
- Perlu menambahkan encoder + projection dan melatih LLM agar memahami embedding (reconstruction pretraining + SFT)
- Kebijakan selektif stabil sebagai masalah RL, tetapi menambah kompleksitas pengembangan
Batas kompresi
- Kompresi yang terlalu agresif pada akhirnya menurunkan kualitas downstream
- Ada trade-off antara ukuran embedding dan frekuensi perluasan
Masalah freshness
- Chunk embedding yang telah dihitung sebelumnya cocok untuk korpus statis
- Untuk data yang sering berubah, dibutuhkan pipeline perhitungan ulang embedding atau strategi hibrida
Pertimbangan per use case
- Peringkasan bersifat kasar, dan tugas yang menuntut presisi tertentu (penalaran hukum, kutipan akurat, fakta medis sensitif) memerlukan evaluasi yang hati-hati
- Dalam kasus seperti ini, mungkin diperlukan anggaran kompresi yang lebih rendah

Kesimpulan dan implikasi

Pertanyaan inti dari makalah ini: "Bagaimana jika kita tidak mencoba mengoptimalkan biaya token, melainkan memakai jenis token yang sama sekali berbeda?"
REFRAG menawarkan inovasi praktis yang mengubah struktur biaya produk AI dengan “mendefinisikan ulang konsep token yang dibaca LLM”, sehingga meredakan keterbatasan struktural RAG
Kemungkinan perluasan ke depan
- Jika pada sisi READ LLM bisa menjadi embedding-native, mungkinkah pada sisi WRITE juga menjadi embedding-native sehingga agen bisa dipercepat 30x secara menyeluruh?
- Biaya per token pada model embedding nyaris nol — apakah ini berarti perpindahan ke arsitektur lain yang memangkas harga token secara drastis? Apa kekurangannya?
REFRAG mengingatkan bahwa tidak semua inovasi lahir dari model yang lebih besar
- Menjadikan RAG lebih murah dan lebih cepat pada skala besar adalah pengungkit langsung bagi keekonomian produk
- Industri akan memberi penghargaan kepada tim yang mampu mengoperasionalkan kemenangan seperti ini

1 komentar

GN⁺ 2025-10-12

Opini Hacker News

Dijelaskan bahwa makalah ini tidak ada kaitannya dengan superintelligence; ini adalah makalah yang diterbitkan setelah pergantian nama oleh tim yang telah menelitinya sebelum reorganisasi. Banyak orang memperkirakan Meta tidak akan lagi menerbitkan makalah dan akan menjadi seperti OpenAI, tetapi Meta masih terus cepat dalam menerbitkan makalah dan merilis model berbobot terbuka
- Ditekankan bahwa yang dibuka Meta bukan open source, melainkan model dengan bobot terbuka. Bahkan bobot ini pun dirilis dengan lisensi yang lebih ketat daripada Apache 2
- Ditekankan bahwa MSL (tim tersebut) bukan hanya terdiri dari beberapa figur terkenal saja
Dalam diskusi terkait RAG (Retrieval-Augmented Generation), ada kebingungan karena istilah ini dipakai dengan berbagai makna. Bagi saya, RAG adalah sistem yang mengubah potongan dokumen dari repositori dokumen yang telah ditentukan sebelumnya menjadi embedding vektor, lalu hanya memasukkan potongan tertentu ke konteks sesuai kebutuhan. Atau fitur pada antarmuka chat LLM yang melakukan pencarian web dengan kata kunci dan sementara memasukkan hanya dokumen yang relevan ke konteks. Saya penasaran apa yang akan terjadi jika jendela konteks yang panjang didukung. Jika semua informasi dimasukkan ke konteks sekaligus, saya khawatir keberagamannya menurun, dan dalam kasus seperti ini mungkin membantu konsistensi, tetapi pada akhirnya bukankah cara menentukan informasi mana yang dipertahankan dan dibuang tetap merupakan RAG? Saya ingin mendengar penjelasan dari orang yang ahli
- Secara teknis, RAG adalah semua teknik yang membantu generasi dengan retrieval eksternal. Namun, biasanya istilah ini dipakai lebih sempit untuk merujuk pada pendekatan yang menggunakan vector DB. Memasukkan semua informasi ke jendela konteks besar itu tidak praktis. Pemrosesan menjadi lebih lama, dan jika informasinya terlalu banyak, model akan kesulitan menemukan informasi yang dibutuhkan. Pada akhirnya, ketika dibutuhkan latensi rendah atau ada batas memori, pendekatan RAG ‘klasik’ tetap berguna
- Intinya adalah adaptabilitas. Perbedaan utama antara RAG dan non-RAG adalah apakah pertanyaan sudah diketahui saat pembuatan indeks, serta ada atau tidaknya kemampuan membandingkan dokumen yang diambil satu sama lain dan memecah pertanyaan. Non-RAG melihat pertanyaan dan dokumen secara bersamaan dengan hal seperti transformer non-kausal multilapis, sehingga lebih umum dan lebih mudah dioptimalkan dengan deep learning. Sebaliknya, RAG cepat dan murah, tetapi karena memakai alat eksternal, pembelajaran end-to-end menjadi sulit (memerlukan pembelajaran berbasis reward seperti RL). Dalam RAG, dokumen bersifat independen dan pertanyaan tidak diketahui saat pengindeksan. Ada juga bentuk hibrida yang menggabungkan output RAG ke dalam non-RAG. Non-RAG membutuhkan dataset berskala besar, tetapi jika seluruh web dilatih, performanya terus membaik. Peningkatan performa pada kasus spesifik justru lebih mudah. RAG unggul dalam kontrol input dan data terstruktur, serta mudah mencegah worst case, tetapi sulit meningkatkan best case
- Saya rasa tidak mungkin memasukkan informasi tak terbatas ke dalam konteks. Menurut pengalaman saya, GPT-5 cepat bingung setelah beberapa halaman. Meskipun diberi sebanyak itu, model tetap tidak bisa mengingatnya
- Saya rasa sebenarnya tidak ada yang mengatakan “RAG sudah mati”. Memasukkan seluruh internet ke konteks LLM itu mustahil, dan semakin banyak dimasukkan, biayanya hanya makin tinggi
Meta punya orang-orang terbaik, tetapi tampaknya tidak berhasil memanfaatkan potensi mereka sepenuhnya. Menurut saya, jika mereka tidak terlalu terobsesi pada metrik hasil dan memberi otonomi kepada peneliti, mereka bisa lebih maju dalam persaingan AI. Tim yang baru bergabung terasa dipimpin oleh orang-orang yang pandai menata sistem, dan juga orang-orang yang lebih tertarik pada uang. Sebenarnya kecenderungan ini jelas ada di laboratorium riset big tech mana pun. Organisasi-organisasi ini terlalu menghindari risiko. Dulu, Silicon Valley bisa menjadi seperti sekarang karena para peneliti diberi kebebasan. Saya sendiri, bersama ratusan peneliti ML lain, akan dengan senang hati bekerja bahkan dengan gaji jauh lebih rendah jika diberi otonomi dan sumber daya. Meta juga perlu memakai uang yang sedang mereka investasikan sekarang dengan cara yang lebih beragam, dan kembali pada prinsip-prinsip yang membesarkan Silicon Valley
- Menurut saya, makin banyak pesaing, makin muncul fenomena bahwa yang bertahan di puncak bukan “orang yang benar-benar hebat”, melainkan orang yang paling pandai memainkan sistem. Kecenderungan seperti itu terlihat bahkan pada lamaran kerja ke GAFAM atau kasus Tinder
- Memberi kebebasan kepada peneliti di lab perusahaan tampaknya tidak benar-benar membantu bisnis. Melihat contoh seperti Bell Labs atau Microsoft Research, memang ada banyak riset hebat, tetapi sangat jarang yang terhubung ke bisnis inti perusahaan. Poinnya adalah bahwa riset AI bukan memberi Meta pendapatan atau daya saing secara nyata, melainkan hanya mendorong pertumbuhan pengetahuan kolektif. Dari sudut pandang perusahaan, pendekatan seperti ini tidak terlalu cocok. Bahkan jika menjadi peneliti, di dunia akademik saat ini pun orang sibuk mengurus mahasiswa atau rapat
- Saya meragukan pernyataan bahwa laju perkembangan AI melambat. Saya balik bertanya, diukur dengan apa? Orang yang benar-benar mengikuti bidang ini akan sulit setuju dengan klaim seperti itu
- Di bawah tekanan Meta pun, saya selalu penasaran apakah para matematikawan dengan gaji sangat besar itu benar-benar punya waktu untuk berpikir bebas
- Pilihan Alex Wang menarik. Ada banyak CEO laboratorium AI yang hebat, dan meski Wang punya kelebihan, pada dasarnya semuanya bertumpu pada MTurk dan timing pasar. Ia tidak terasa cocok sebagai CEO yang akan memimpin AGI
Agak mengejutkan bahwa topik makalah pertama dari lab baru ini adalah RAG yang praktis dan realistis. Biasanya, lab baru pada tahap awal akan menerbitkan beberapa makalah sesuai topik yang masing-masing orang sudah kerjakan, lalu setelah kerja tim dan sinergi cukup terbentuk, barulah muncul riset yang benar-benar inovatif. Jika terlalu memberi makna pada “makalah pertama” yang penting, justru bisa membuat awalnya terasa membebani
- Saya juga, di dunia akademik, tidak memberi makna khusus pada makalah pertama. Kebanyakan makalah pertama adalah hasil mahasiswa pascasarjana yang berkontribusi pada proyek yang sudah ada milik dosen pembimbing. Dalam praktiknya, sebagian besar makalah pada akhirnya lahir dari tangan profesor. Bahkan pada level lab pun, saya belum pernah mendengar bahwa “makalah pertama” punya nilai yang istimewa
Saya penasaran apakah makalah dari tim superintelligence Meta ini memang dirancang langsung oleh tim tersebut, atau makalah yang diterbitkan setelah personel lama berpindah tim. Saya menduga kemungkinan yang pertama lebih besar
- Menurut pendapat lain, yang benar adalah yang kedua (makalah yang dipublikasikan mengikuti reorganisasi) referensi
Dibagikan ringkasan video penjelasan YouTube tentang makalah RAG ini tautan video
Dari grafik dan tabel dalam makalah, saya tidak langsung melihat perbandingan dengan teknik kompresi konteks lama yang mudah dan bersifat statistik, seperti TF-IDF atau tumpang tindih kata sederhana. Di lapangan industri, metode sederhana seperti ini sangat penting karena performanya hampir sama tetapi bisa mengurangi jumlah informasi hingga 10 kali
Saya pernah memikirkan dan mengimplementasikan ide serupa. Ke depan, diperlukan framework yang menyederhanakan hal ini agar LLM bisa lebih mudah menangani berbagai format embedding
Diperkenalkan tautan proyek open-source terkait RAG REFRAG
Judul artikelnya terlalu sensasional, jadi saya ingin judul yang lebih informatif dan tidak memancing klik
- Saya penasaran judul seperti apa yang akan lebih informatif dan kurang sensasional dengan memanfaatkan bahasa representatif artikel ini

Meta Superintelligence, makalah pertama mengejutkan ‘REFRAG’ tingkatkan efisiensi RAG hingga 30x

Latar belakang publikasi makalah pertama MSI

Struktur teknis REFRAG

Makna teknis dan wawasan utama

Signifikansi dalam value chain AI saat ini

Keterbatasan yang diperkirakan

Kesimpulan dan implikasi

Bacaan terkait

1 komentar

Opini Hacker News