Llama 3-V - Mencapai performa setara GPT4-V dengan model 100 kali lebih kecil dan biaya 500 dolar

(aksh-garg.medium.com)

10 poin oleh GN⁺ 2024-05-29 | Belum ada komentar. | Bagikan ke WhatsApp

Llama3-V adalah model multimodal pertama yang berbasis Llama3
Llama3-V dilatih dengan biaya di bawah 500 dolar
Dalam benchmark, performanya meningkat 10-20% dibanding Llava, dan pada sebagian besar metrik menunjukkan performa serupa meski dibandingkan dengan model tertutup yang 100 kali lebih besar

SigLIP: Model embedding gambar, mirip dengan CLIP tetapi menggunakan sigmoid loss.
Penyelarasan embedding teks: SigLIP dibekukan, lalu embedding gambar diselaraskan dengan embedding teks menggunakan modul proyeksi.
Penambahan token gambar: Embedding gambar ditambahkan di depan token teks lalu dimasukkan ke Llama3.

Caching: Embedding gambar dari model SigLIP dihitung terlebih dahulu untuk meningkatkan utilisasi GPU dan menghemat waktu pelatihan/inferensi.
Optimasi MPS/MLX: Model SigLIP dioptimalkan untuk MPS sehingga dapat memproses 32 gambar per detik.

Pra-perhitungan embedding: Embedding gambar dihitung sebelumnya menggunakan SigLIP.
Pelatihan layer proyeksi: Embedding gambar dan teks diselaraskan ke ruang embedding multimodal melalui layer proyeksi.
Supervised learning: Setelah pra-pelatihan, performa model ditingkatkan melalui supervised learning.

Menambahkan vision encoder ke Llama3 8B.
Performa meningkat 10-20% dibanding Llava.
Performa serupa dengan model yang 100 kali lebih besar seperti GPT4v, Gemini Ultra, dan Claude Opus.
Menyediakan pipeline pelatihan dan supervised learning yang efisien dengan biaya di bawah 500 dolar.

Opini GN⁺

Hal yang menarik: Llama3-V menarik karena berhasil mewujudkan model multimodal berperforma tinggi dengan biaya rendah.
Sudut pandang kritis: Muncul pertanyaan apakah menjaga performa sambil menekan ukuran model dan biaya dapat berkelanjutan dalam jangka panjang.
Teknologi terkait: Model dengan fungsi serupa antara lain CLIP dan DALL-E.
Pertimbangan adopsi: Saat mengadopsi teknologi baru, akurasi model dan efisiensi biaya perlu dipertimbangkan.
Untung dan rugi dalam memilih teknologi: Performa tinggi bisa diperoleh dengan biaya rendah, tetapi skalabilitas model dan biaya pemeliharaan juga perlu dipertimbangkan.