- Llama3-V adalah model multimodal pertama yang berbasis Llama3
- Llama3-V dilatih dengan biaya di bawah 500 dolar
- Dalam benchmark, performanya meningkat 10-20% dibanding Llava, dan pada sebagian besar metrik menunjukkan performa serupa meski dibandingkan dengan model tertutup yang 100 kali lebih besar
Arsitektur model
- SigLIP: Model embedding gambar, mirip dengan CLIP tetapi menggunakan sigmoid loss.
- Penyelarasan embedding teks: SigLIP dibekukan, lalu embedding gambar diselaraskan dengan embedding teks menggunakan modul proyeksi.
- Penambahan token gambar: Embedding gambar ditambahkan di depan token teks lalu dimasukkan ke Llama3.
Optimasi inferensi
- Caching: Embedding gambar dari model SigLIP dihitung terlebih dahulu untuk meningkatkan utilisasi GPU dan menghemat waktu pelatihan/inferensi.
- Optimasi MPS/MLX: Model SigLIP dioptimalkan untuk MPS sehingga dapat memproses 32 gambar per detik.
Proses pelatihan
- Pra-perhitungan embedding: Embedding gambar dihitung sebelumnya menggunakan SigLIP.
- Pelatihan layer proyeksi: Embedding gambar dan teks diselaraskan ke ruang embedding multimodal melalui layer proyeksi.
- Supervised learning: Setelah pra-pelatihan, performa model ditingkatkan melalui supervised learning.
Ringkasan
- Menambahkan vision encoder ke Llama3 8B.
- Performa meningkat 10-20% dibanding Llava.
- Performa serupa dengan model yang 100 kali lebih besar seperti GPT4v, Gemini Ultra, dan Claude Opus.
- Menyediakan pipeline pelatihan dan supervised learning yang efisien dengan biaya di bawah 500 dolar.
Opini GN⁺
- Hal yang menarik: Llama3-V menarik karena berhasil mewujudkan model multimodal berperforma tinggi dengan biaya rendah.
- Sudut pandang kritis: Muncul pertanyaan apakah menjaga performa sambil menekan ukuran model dan biaya dapat berkelanjutan dalam jangka panjang.
- Teknologi terkait: Model dengan fungsi serupa antara lain CLIP dan DALL-E.
- Pertimbangan adopsi: Saat mengadopsi teknologi baru, akurasi model dan efisiensi biaya perlu dipertimbangkan.
- Untung dan rugi dalam memilih teknologi: Performa tinggi bisa diperoleh dengan biaya rendah, tetapi skalabilitas model dan biaya pemeliharaan juga perlu dipertimbangkan.
Belum ada komentar.