LEAF: Mencapai 97% performa embedding OpenAI dengan 23M parameter, berjalan hanya dengan CPU

(aisparkup.com)

19 poin oleh davespark 2025-11-27 | 1 komentar | Bagikan ke WhatsApp

LEAF (Lightweight Embedding Alignment Framework) adalah model embedding yang dikembangkan oleh MongoDB Research, sebuah solusi inovatif yang memanfaatkan teknik knowledge distillation untuk mengatasi masalah biaya dan kecepatan pada sistem RAG (Retrieval-Augmented Generation). Model embedding berperforma tinggi yang ada selama ini umumnya membutuhkan server GPU, tetapi LEAF memungkinkan model kecil berukuran 23M parameter mencapai 97% performa text-embedding-3-large milik OpenAI sambil tetap dapat berjalan hanya dengan CPU.

Latar belakang dan masalah

Dalam sistem RAG, pengindeksan dokumen boleh berjalan lambat, tetapi respons terhadap kueri pengguna harus selesai dalam ratusan milidetik.
Saat menggunakan model berperforma tinggi, biaya GPU menjadi beban, sedangkan jika beralih ke model berbiaya rendah, performanya menurun. Ini menciptakan dilema.
LEAF menyelesaikan masalah ini melalui "kompatibilitas model guru-siswa".
Berbeda dari metode distilasi yang ada yang menyelaraskan semua layer, LEAF hanya menyelaraskan keluaran akhir (embedding). Dengan cara ini, dokumen dapat diindeks menggunakan model guru yang besar, sementara kueri dapat diproses cepat di CPU menggunakan model siswa yang kecil, dan indeks yang sudah ada tetap bisa digunakan kembali saat model diganti.
Tanpa pelabelan data pelatihan, model ini dapat dilatih hanya dengan satu GPU A100, sehingga aksesibilitasnya tinggi.

Model yang dirilis dan performanya

MongoDB merilis dua model dengan lisensi Apache 2.0:

mdbr-leaf-ir: model yang dioptimalkan untuk pencarian/RAG. Mencetak 53,55 pada benchmark BEIR (melampaui OpenAI small yang memperoleh 51,08, dan mencapai 97% dari OpenAI large yang memperoleh 55,43).
mdbr-leaf-mt: model serbaguna (klasifikasi/clustering). Mencetak 63,97 pada MTEB v2 (mendekati OpenAI small yang memperoleh 64,56), performa terbaik di bawah 30M parameter.

Model-model ini dapat memproses 120 kueri per detik pada CPU 2-core dan hanya menggunakan memori 87MB, sehingga bisa berjalan secara offline di smartphone atau perangkat IoT.

Kesimpulan dan implikasi

LEAF mendemokratisasi embedding berperforma tinggi dengan mengurangi ketergantungan pada GPU, serta mendorong implementasi RAG di lingkungan startup maupun edge computing.
Keterbatasannya adalah penurunan performa 3% dibanding model asli, tetapi pada sebagian besar praktik nyata hal ini dapat diabaikan.
Model dan recipe pelatihannya dapat diunduh dari Hugging Face, serta mudah di-fine-tune dengan data domain tertentu.

1 komentar

kaydash 2025-11-28

Bukankah bge-m3 dan gemma 300M juga sudah bagus dan tidak kecil?