voyage-multimodal-3: Model embedding all-in-one untuk teks, gambar, dan tangkapan layar

(blog.voyageai.com)

4 poin oleh GN⁺ 2024-11-18 | 1 komentar | Bagikan ke WhatsApp

voyage-multimodal-3 yang dirilis Voyage AI adalah model untuk RAG dan pencarian semantik yang ditujukan untuk mencari basis pengetahuan berisi campuran teks dan gambar dengan satu model embedding
Pembeda utamanya adalah kemampuan melakukan vektorisasi materi yang informasi tata letaknya penting—seperti PDF, slide, tabel, gambar, dan tangkapan layar dokumen—tanpa parsing dokumen
Untuk mengurangi keterbatasan pencarian mixed-modality pada model keluarga CLIP, model ini memproses informasi teks dan visual dalam encoder Transformer yang sama, serta mempertahankan relasi konteks pada input yang mencampur berbagai modalitas
Pada 20 dataset pencarian multimodal, model ini menunjukkan akurasi pencarian rata-rata 19,63% lebih tinggi dibanding model embedding multimodal terbaik berikutnya, dan pada 34 dataset pencarian teks juga mengungguli OpenAI v3 large
Semakin tinggi proporsi tangkapan layar, kualitas model berbasis CLIP menurun, sementara voyage-multimodal-3 hanya mengalami penurunan kecil di semua rentang, sehingga praktis untuk pipeline pencarian berbasis tangkapan layar

Kegunaan yang dituju `voyage-multimodal-3`

voyage-multimodal-3 adalah model embedding multimodal pertama dari Voyage AI, yang menargetkan RAG dan pencarian semantik untuk basis pengetahuan yang banyak berisi materi visual bersama teks
Target inputnya adalah teks dan gambar yang kaya konten, dengan contoh utama sebagai berikut
- Tangkapan layar teks
- Gambar dan tabel
- Tangkapan layar PDF
- Deck slide
- Gambar dokumen lainnya
Vektor yang dihasilkan mencerminkan bukan hanya makna teks, tetapi juga fitur visual seperti ukuran font, posisi teks, dan margin
Pada dokumen dengan tata letak kompleks atau campuran gambar/Foto, parsing berbasis heuristik dapat menimbulkan masalah akurasi, sehingga model ini mengambil pendekatan membuat layar asli langsung menjadi vektor untuk pencarian
Contoh fungsi dapat dilihat di sample notebook

Cara embedding yang berbeda dari keluarga CLIP

Model embedding multimodal yang sudah ada seperti Amazon Titan Multimodal G1, Google Vertex AI multimodal, dan Cohere multimodal v3 menggunakan struktur berbasis OpenAI CLIP
Struktur keluarga CLIP memproses modalitas berbeda dengan jaringan independen
- Gambar divektorisasi melalui vision tower
- Teks divektorisasi melalui text tower
- Dalam struktur ini, input yang mencampur teks dan gambar sulit diproses sekaligus
voyage-multimodal-3 secara langsung melakukan vektorisasi kedua modalitas di dalam encoder Transformer yang sama
- Fitur teks dan visual diperlakukan bukan sebagai komponen terpisah, melainkan sebagai bagian dari representasi terpadu
- Ini adalah bentuk penerapan arsitektur model vision-language modern untuk vektorisasi, bukan generasi
Dengan demikian, pada campuran teks dan gambar, tangkapan layar dokumen, PDF kompleks, dan gambar beranotasi, relasi konteks antara informasi visual dan informasi teks dapat dimasukkan bersama ke dalam vektor

Perbedaan yang terlihat dalam pencarian bercampur tangkapan layar

Model mirip CLIP dapat mengalami penurunan performa dalam pencarian mixed-modality karena modality gap
Dalam contoh, vektor terdekat untuk potongan teks “I address you, members of the Seventy-Seventh Congress…” bukanlah tangkapan layar terkait, melainkan teks lain
Fenomena seperti ini menyebabkan bias pencarian, yakni vektor teks menjadi lebih dekat ke item modalitas yang sama tetapi tidak relevan daripada ke gambar yang relevan
Voyage AI menyusun eksperimen kuantitatif dengan dokumentasi PyTorch
- Membuat masing-masing set dokumen dengan konten yang sama sebagai string teks biasa dan sebagai tangkapan layar
- Menyusun dataset mixed-modality dengan mencampur sebagian dokumen berbasis teks dan tangkapan layar dari dokumen lainnya
- Proporsi tangkapan layar diatur berbeda dari 0% hingga 100%
- Setiap model mencari 10 hasil teratas dengan cosine similarity dan dievaluasi menggunakan NDCG@10
Pada model berbasis CLIP, kualitas pencarian menurun saat proporsi tangkapan layar meningkat hingga 90%, dan performanya tetap rendah bahkan ketika semua teks diubah menjadi gambar
voyage-multimodal-3 menunjukkan performa tertinggi di semua proporsi, dengan penurunan performa keseluruhan yang juga nyaris tidak ada
Hasil ini menunjukkan kemampuan memasukkan informasi semantik dalam tangkapan layar ke dalam vektor, serta ketangguhan pendekatan yang memproses semua modalitas input dengan backbone yang sama

Dataset evaluasi dan pembanding

Evaluasi multimodal dilakukan pada 3 tugas dengan total 20 dataset
- Pencarian tabel/gambar: charxiv, mmtab-test, ChartQA, Chartve, FintabnetQA, PlotQA
- Pencarian tangkapan layar dokumen: Energy, Healthcare Industry, Artificial Intelligence, Government Report, InfoVQA, DocVQA, ArxivQA, TabFQuad, TAT-DQA, Shift Project dari ViDoRe benchmark
- Pencarian teks-foto: meme-cap, mm-imdb, winoground, docci
Evaluasi pencarian teks standar dilakukan pada 34 dataset di 6 domain, termasuk hukum, keuangan, percakapan, kode, web, dan teknologi
Pada semua dataset, kuerinya berupa teks, sementara dokumennya dapat berupa gambar, foto, teks, tangkapan layar dokumen, atau kombinasi di antaranya
Model pembanding untuk tugas multimodal adalah sebagai berikut
- OpenAI CLIP large (clip-vit-large-patch14-336)
- Amazon Titan Multimodal Embeddings G1 (amazon.titan-embed-image-v1)
- Cohere multimodal v3 (embed-multimodal-v3.0)
- SigLIP So400M (siglip-so400m-patch14-384)
- ColQwen2 v0.1 (colqwen-v0.1)
Dalam pencarian teks standar, model ini dibandingkan dengan OpenAI v3 large (text-embeddings-3-large), Cohere multimodal/English 1 v3, dan voyage-3
Karena Cohere multimodal v3 menggunakan Cohere English v3 (embed-english-v3.0) sebagai text tower untuk teks murni, pada grafik hanya label “Cohere multimodal v3” yang digunakan untuk mengurangi kebingungan

Hasil akurasi pencarian

voyage-multimodal-3 mencatat akurasi pencarian rata-rata 19,63% lebih tinggi di seluruh 20 dataset pencarian multimodal dibanding model embedding multimodal terbaik berikutnya
Pada pencarian tabel/gambar, model ini mengungguli OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M, dan ColQwen2 v0.1 masing-masing sebesar 41,44%, 45,00%, 43,37%, 20,66%, dan 6,14%
Pada pencarian tangkapan layar dokumen, model ini menunjukkan performa masing-masing 26,54%, 37,68%, 25,84%, 35,62%, dan 0,98% lebih tinggi dibanding model pembanding yang sama
Pada pencarian teks-foto, model ini mengungguli model pembanding yang sama masing-masing sebesar 6,55%, 5,16%, 5,86%, 3,42%, dan 10,34%
Pada pencarian teks standar, model ini menghasilkan performa 5,13% lebih tinggi daripada OpenAI v3 large dan 13,70% lebih tinggi daripada Cohere multimodal/English 1 v3
Akurasi pencarian dokumen teks murni 0,05% lebih tinggi daripada voyage-3, sehingga kedua model berada pada level yang hampir sama
Hasil evaluasi lengkap dipublikasikan di spreadsheet

Mulai menggunakan dan materi yang tersedia

voyage-multimodal-3 dapat digunakan sejak hari peluncurannya
200 juta token pertama gratis
Materi untuk memulai tersedia di sample notebook dan docs
Pengguna yang tertarik pada model embedding fine-tuned dapat menghubungi contact@voyageai.com

1 komentar

GN⁺ 2024-11-18

Komentar Hacker News

Pengamatan intinya sederhana dan intuitif: semua model keluarga CLIP berkinerja kurang baik dalam pencarian modalitas campuran karena adanya jarak antar-modalitas (modality gap)
Misalnya, vektor yang paling dekat dengan kalimat “I address you, members of the Seventy-Seventh Congress…” bukanlah tangkapan layar terkait, melainkan teks lain. Jadi, di ruang embedding, vektor teks menjadi lebih dekat ke teks yang tidak relevan daripada ke gambar yang relevan, sehingga hasil pencarian condong ke modalitas yang sama
- Kutipan ini penting, tetapi jika dilihat sendiri, tidak jelas apakah mereka mengklaim telah menyelesaikan masalah tersebut. Sepertinya mereka mengatakan model baru voyage-multimodal-3 mengidentifikasi konsep yang terhubung lintas modalitas
  Jika ada ruang laten yang bisa mengelompokkan ide yang sama, baik diekspresikan secara visual maupun sebagai teks, itu cukup keren. Namun menurut saya benchmark ini memandang embedding multimodal dengan cara yang cukup sempit. Memang praktis jika gambar teks yang relevan dan embedding teks berdekatan, tetapi sulit mengatakan itu meluas hingga keterkaitan berbagai representasi visual lain, seperti “rabbit” dan foto kelinci. Untuk tujuan sempit berupa pengindeksan gambar dokumen, teknik lain juga tampaknya bisa bekerja cukup baik. Ini terlihat seperti peluang bagus untuk hadirnya dataset benchmark baru untuk representasi konsep multimodal yang melampaui media teks
- Masalah ini mungkin juga diselesaikan dengan multimodal mixup yang mencegah terbentuknya celah ruang laten besar antara dua modalitas: https://arxiv.org/abs/2203.03897
Jika tertarik pada bidang ini, proyek kami yang secara transparan menggunakan ColPali secara internal juga layak dipertimbangkan
https://github.com/tjmlabs/ColiVara
Benchmark utama di area ini adalah leaderboard Vidore, dan saya ingin melihat sejauh mana VoyageAI dibandingkan dengan implementasi open source yang lebih terbuka
Rasanya ada sesuatu yang saya lewatkan. Saya pikir LLM yang “multimodal native” bagaimanapun seharusnya menyertakan embedding multimodal
Misalnya, posting blog Google tentang Gemini menjelaskan bahwa model multimodal lama melatih komponen untuk modalitas berbeda secara terpisah lalu menyambungkannya, sementara Gemini sejak awal dipra-latih dengan berbagai modalitas dan di-fine-tune dengan data multimodal tambahan. Karena itu mereka mengklaim model tersebut secara alami memahami dan menalar semua jenis input sejak awal
- LLM seperti Gemini, atau lebih luasnya model bahasa kausal, dilatih dengan prediksi token berikutnya, sehingga vektor yang diperoleh dengan melakukan pooling pada embedding token keluaran tidak terlalu berguna untuk RAG atau pencarian semantik dibandingkan yang diperoleh dari model embedding sebenarnya
  Yang perlu dibedakan di sini adalah embedding token dan vektor/embedding yang dikeluarkan model embedding: keduanya terkait, tetapi merupakan konsep berbeda. Banyak embedding token, satu untuk tiap token, dikontekstualkan saat melewati transformer, sementara model embedding mengeluarkan satu vektor untuk satu input data seperti teks panjang, foto, atau tangkapan layar dokumen
- Embedding LLM berisi representasi bertumpuk dari banyak konsep sehingga bisa memprediksi token berikutnya, tetapi performanya tidak sebaik model embedding yang dipra-latih dengan contrastive learning
- Jika jawaban lain belum jelas, di sini Anda bisa menganggap “embedding” sebagai “daftar yang dihasilkan oleh suatu layer dalam model AI saya”
  Tepatnya ini konsep yang sedikit lebih spesifik, tetapi dalam konteks ini benar. LLM, termasuk LLM multimodal, juga memiliki embedding, tetapi itu bukan embedding yang dilatih untuk menemukan dokumen serupa, melainkan embedding yang dilatih melalui pembuatan teks
Terlihat cukup mengesankan. Saya penasaran dengan sudut pandang kritis terhadap evaluasi yang disajikan
Saya juga penasaran bagaimana dengan teks non-Inggris. Apakah benar jika saya memahami ini sebagai model yang hanya tersedia lewat API seperti model komersial lain?
- Benar, model Voyage hanya API
  Saya sempat menulis soal dukungan multibahasa, tetapi ternyata salah, jadi saya hapus. Sebagai referensi, Voyage juga memiliki model law, code, dan finance terpisah. Lihat [1]
  Bagaimanapun, hasilnya benar-benar menarik
  [1]: https://docs.voyageai.com/docs/embeddings
Sayang sekali modelnya komersial dan proprietary, serta hanya API
- Apakah menyedihkan kalau harus membayar gaji karyawan?
Kalau ini model khusus API, saya lewatkan. Meski begitu, selamat
- Saya setuju dengan kedua bagian itu. Tentu saja, selain ingin mengenakan biaya kepada orang, ada alasan-alasan jelas untuk hanya berfokus pada API, tetapi fakta bahwa mereka tidak menyediakan opsi lain saja sudah membuat saya pribadi tidak akan mempertimbangkannya
Terlihat cukup menarik. Saya telah mengerjakan AnyModal, sebuah framework untuk mengintegrasikan berbagai tipe data, misalnya gambar dan audio, ke dalam LLM: https://github.com/ritabratamaiti/AnyModal
voyage-multimodal-3 tampak cukup menjanjikan untuk pengembangan LLM multimodal, tetapi saya tidak yakin apakah itu memang use case yang dimaksudkan
Dalam Python API tradisional, engine Voyage men-tokenisasi blok teks dan mengeluarkan string. Model ini tampaknya melakukan hal itu dengan memvektorkan gambar di dalam ruang
Kata seperti you atau apple menjadi satu token, sementara istilah yang lebih kompleks seperti pikachu bisa dipecah seperti pik-a-chu
[1]: https://docs.voyageai.com/docs/tokenization
Cara melihat embedding multimodal ini menarik. Mereka mengukur perubahan performa sesuai proporsi saat input secara bertahap bergeser dari satu modalitas ke modalitas lain
https://i0.wp.com/blog.voyageai.com/wp-content/uploads/2024/...
Di Colab, mereka mengukur nilai dot product 0,428 dan 0,498 lalu menjelaskannya sebagai “nilai kemiripan yang cukup tinggi”. Saya ragu apakah itu benar-benar nilai tinggi
Bisakah kita merancang sistem yang memberi label data dengan yakin menggunakan ambang 0,4?
- Skor kemiripan mentah memang penting, tetapi biasanya yang lebih penting adalah skor relatif dibandingkan dokumen lain
  Dalam contoh notebook, nilai-nilai itu relatif paling tinggi. Saya paham mengapa ini bisa tidak jelas atau membingungkan, dan akan memperbaikinya
- Nilai keluaran mentah itu sendiri umumnya tidak penting. Yang penting adalah posisinya di dalam distribusi keluaran
- Kemiripan kosinus 0,4 tidak sama dengan ambang sigmoid 0,4
  Pada data nyata yang bukan duplikat hampir identik, kemiripan kosinus 0,4 adalah nilai yang cukup bagus

voyage-multimodal-3: Model embedding all-in-one untuk teks, gambar, dan tangkapan layar

Kegunaan yang dituju voyage-multimodal-3

Cara embedding yang berbeda dari keluarga CLIP

Perbedaan yang terlihat dalam pencarian bercampur tangkapan layar

Dataset evaluasi dan pembanding

Hasil akurasi pencarian

Mulai menggunakan dan materi yang tersedia

Bacaan terkait

1 komentar

Komentar Hacker News

Kegunaan yang dituju `voyage-multimodal-3`