- Model embedding multimodal penuh pertama yang memetakan teks, gambar, video, audio, dan dokumen ke dalam satu ruang embedding kini tersedia dalam public preview
- Dibangun di atas arsitektur Gemini, model ini menangkap maksud semantik dalam lebih dari 100 bahasa dan mendukung berbagai tugas downstream seperti RAG, pencarian semantik, analisis sentimen, dan pengelompokan data
- Dengan teknik Matryoshka Representation Learning(MRL), dimensi default 3072 dapat diperkecil secara fleksibel, sehingga keseimbangan antara performa dan biaya penyimpanan bisa diatur
- Menetapkan tolok ukur performa baru yang melampaui model terdepan sebelumnya pada tugas teks, gambar, dan video, sekaligus memperkenalkan kemampuan embedding suara
- Langsung tersedia melalui Gemini API dan Vertex AI, serta mendukung integrasi dengan framework pihak ketiga utama seperti LangChain, LlamaIndex, dan Weaviate
Modalitas baru dan dimensi output yang fleksibel
- Berbasis Gemini dan memanfaatkan kemampuan pemahaman multimodal untuk menghasilkan embedding berkualitas tinggi untuk berbagai jenis input
- Teks: mendukung konteks luas hingga 8192 token input
- Gambar: memproses hingga 6 gambar per permintaan, mendukung format PNG dan JPEG
- Video: mendukung input video hingga 120 detik dalam format MP4 dan MOV
- Audio: melakukan embedding audio secara native tanpa konversi ke teks di tahap tengah
- Dokumen: langsung melakukan embedding PDF hingga 6 halaman
- Bukan hanya modalitas tunggal, input interleaved (misalnya: gambar + teks) juga bisa dikirim dalam satu permintaan untuk menangkap hubungan kompleks dan halus antar jenis media yang berbeda
- Teknik Matryoshka Representation Learning(MRL) memungkinkan informasi disusun secara bertingkat (nest) sehingga dimensi dapat diperkecil secara dinamis
- Dari dimensi default 3072 dapat diskalakan turun secara fleksibel ke 1536, 768, dan lainnya
- Untuk kualitas terbaik, disarankan menggunakan dimensi 3072, 1536, atau 768
Performa mutakhir
- Bukan sekadar peningkatan dari model lama, tetapi menetapkan standar performa baru dalam kedalaman multimodal
- Melampaui model terdepan sebelumnya pada tugas teks, gambar, dan video, serta memperkenalkan kemampuan embedding suara yang kuat
- Memberikan peningkatan performa yang terukur dan cakupan multimodal yang unik untuk memenuhi beragam kebutuhan embedding
Menggali makna data yang lebih dalam — contoh mitra akses awal
- Teknologi embedding adalah inti yang menggerakkan pengalaman di banyak produk Google, mulai dari context engineering untuk RAG hingga pengelolaan data skala besar, pencarian, dan analisis
- Everlaw (Max Christoff, CTO): mengadopsi Gemini embedding untuk membantu profesional hukum menemukan informasi penting dalam proses discovery litigasi, meningkatkan presisi dan recall di jutaan catatan, serta memanfaatkan kemampuan pencarian baru yang kuat untuk gambar dan video
- Sparkonomy (Guneet Singh, co-founder): menggunakannya sebagai fondasi Creator Economic Equality Engine, dengan multimodalitas native yang mengurangi latensi hingga 70%, hampir menggandakan skor kemiripan semantik pasangan teks-gambar dan teks-video dari 0.4 menjadi 0.8, serta mengindeks jutaan menit video dengan presisi yang belum pernah ada sebelumnya
- Mindlid (Ertuğrul Çavuşoğlu, co-founder): menawarkan kontinuitas API yang unggul sehingga bisa langsung diterapkan dengan perubahan minimal pada workflow yang ada; saat ini menguji cara menggabungkan memori percakapan berbasis teks dengan embedding audio dan visual, dan mencatat peningkatan top-1 recall sebesar 20% di aplikasi wellness pribadi
Memulai
- Model Gemini Embedding 2 tersedia melalui Gemini API atau Vertex AI
- Tersedia contoh kode Python SDK untuk melakukan embedding teks, gambar, dan audio dalam satu panggilan
- Tersedia notebook Colab interaktif untuk Gemini API dan Vertex AI
- Mendukung integrasi dengan alat pihak ketiga utama seperti LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, dan Vector Search
Belum ada komentar.