Gemini Embedding 2: model embedding multimodal native pertama

(blog.google)

14 poin oleh GN⁺ 2026-03-11 | Belum ada komentar. | Bagikan ke WhatsApp

Model embedding multimodal penuh pertama yang memetakan teks, gambar, video, audio, dan dokumen ke dalam satu ruang embedding kini tersedia dalam public preview
Dibangun di atas arsitektur Gemini, model ini menangkap maksud semantik dalam lebih dari 100 bahasa dan mendukung berbagai tugas downstream seperti RAG, pencarian semantik, analisis sentimen, dan pengelompokan data
Dengan teknik Matryoshka Representation Learning(MRL), dimensi default 3072 dapat diperkecil secara fleksibel, sehingga keseimbangan antara performa dan biaya penyimpanan bisa diatur
Menetapkan tolok ukur performa baru yang melampaui model terdepan sebelumnya pada tugas teks, gambar, dan video, sekaligus memperkenalkan kemampuan embedding suara
Langsung tersedia melalui Gemini API dan Vertex AI, serta mendukung integrasi dengan framework pihak ketiga utama seperti LangChain, LlamaIndex, dan Weaviate

Modalitas baru dan dimensi output yang fleksibel

Berbasis Gemini dan memanfaatkan kemampuan pemahaman multimodal untuk menghasilkan embedding berkualitas tinggi untuk berbagai jenis input
- Teks: mendukung konteks luas hingga 8192 token input
- Gambar: memproses hingga 6 gambar per permintaan, mendukung format PNG dan JPEG
- Video: mendukung input video hingga 120 detik dalam format MP4 dan MOV
- Audio: melakukan embedding audio secara native tanpa konversi ke teks di tahap tengah
- Dokumen: langsung melakukan embedding PDF hingga 6 halaman
Bukan hanya modalitas tunggal, input interleaved (misalnya: gambar + teks) juga bisa dikirim dalam satu permintaan untuk menangkap hubungan kompleks dan halus antar jenis media yang berbeda
Teknik Matryoshka Representation Learning(MRL) memungkinkan informasi disusun secara bertingkat (nest) sehingga dimensi dapat diperkecil secara dinamis
- Dari dimensi default 3072 dapat diskalakan turun secara fleksibel ke 1536, 768, dan lainnya
- Untuk kualitas terbaik, disarankan menggunakan dimensi 3072, 1536, atau 768

Bukan sekadar peningkatan dari model lama, tetapi menetapkan standar performa baru dalam kedalaman multimodal
Melampaui model terdepan sebelumnya pada tugas teks, gambar, dan video, serta memperkenalkan kemampuan embedding suara yang kuat
Memberikan peningkatan performa yang terukur dan cakupan multimodal yang unik untuk memenuhi beragam kebutuhan embedding

Teknologi embedding adalah inti yang menggerakkan pengalaman di banyak produk Google, mulai dari context engineering untuk RAG hingga pengelolaan data skala besar, pencarian, dan analisis
Everlaw (Max Christoff, CTO): mengadopsi Gemini embedding untuk membantu profesional hukum menemukan informasi penting dalam proses discovery litigasi, meningkatkan presisi dan recall di jutaan catatan, serta memanfaatkan kemampuan pencarian baru yang kuat untuk gambar dan video
Sparkonomy (Guneet Singh, co-founder): menggunakannya sebagai fondasi Creator Economic Equality Engine, dengan multimodalitas native yang mengurangi latensi hingga 70%, hampir menggandakan skor kemiripan semantik pasangan teks-gambar dan teks-video dari 0.4 menjadi 0.8, serta mengindeks jutaan menit video dengan presisi yang belum pernah ada sebelumnya
Mindlid (Ertuğrul Çavuşoğlu, co-founder): menawarkan kontinuitas API yang unggul sehingga bisa langsung diterapkan dengan perubahan minimal pada workflow yang ada; saat ini menguji cara menggabungkan memori percakapan berbasis teks dengan embedding audio dan visual, dan mencatat peningkatan top-1 recall sebesar 20% di aplikasi wellness pribadi

Model Gemini Embedding 2 tersedia melalui Gemini API atau Vertex AI
Tersedia contoh kode Python SDK untuk melakukan embedding teks, gambar, dan audio dalam satu panggilan
Tersedia notebook Colab interaktif untuk Gemini API dan Vertex AI
Mendukung integrasi dengan alat pihak ketiga utama seperti LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, dan Vector Search