10 poin oleh GN⁺ 2024-05-29 | Belum ada komentar. | Bagikan ke WhatsApp
  • Llama3-V adalah model multimodal pertama yang berbasis Llama3
  • Llama3-V dilatih dengan biaya di bawah 500 dolar
  • Dalam benchmark, performanya meningkat 10-20% dibanding Llava, dan pada sebagian besar metrik menunjukkan performa serupa meski dibandingkan dengan model tertutup yang 100 kali lebih besar

Arsitektur model

  • SigLIP: Model embedding gambar, mirip dengan CLIP tetapi menggunakan sigmoid loss.
  • Penyelarasan embedding teks: SigLIP dibekukan, lalu embedding gambar diselaraskan dengan embedding teks menggunakan modul proyeksi.
  • Penambahan token gambar: Embedding gambar ditambahkan di depan token teks lalu dimasukkan ke Llama3.

Optimasi inferensi

  • Caching: Embedding gambar dari model SigLIP dihitung terlebih dahulu untuk meningkatkan utilisasi GPU dan menghemat waktu pelatihan/inferensi.
  • Optimasi MPS/MLX: Model SigLIP dioptimalkan untuk MPS sehingga dapat memproses 32 gambar per detik.

Proses pelatihan

  • Pra-perhitungan embedding: Embedding gambar dihitung sebelumnya menggunakan SigLIP.
  • Pelatihan layer proyeksi: Embedding gambar dan teks diselaraskan ke ruang embedding multimodal melalui layer proyeksi.
  • Supervised learning: Setelah pra-pelatihan, performa model ditingkatkan melalui supervised learning.

Ringkasan

  • Menambahkan vision encoder ke Llama3 8B.
  • Performa meningkat 10-20% dibanding Llava.
  • Performa serupa dengan model yang 100 kali lebih besar seperti GPT4v, Gemini Ultra, dan Claude Opus.
  • Menyediakan pipeline pelatihan dan supervised learning yang efisien dengan biaya di bawah 500 dolar.

Opini GN⁺

  • Hal yang menarik: Llama3-V menarik karena berhasil mewujudkan model multimodal berperforma tinggi dengan biaya rendah.
  • Sudut pandang kritis: Muncul pertanyaan apakah menjaga performa sambil menekan ukuran model dan biaya dapat berkelanjutan dalam jangka panjang.
  • Teknologi terkait: Model dengan fungsi serupa antara lain CLIP dan DALL-E.
  • Pertimbangan adopsi: Saat mengadopsi teknologi baru, akurasi model dan efisiensi biaya perlu dipertimbangkan.
  • Untung dan rugi dalam memilih teknologi: Performa tinggi bisa diperoleh dengan biaya rendah, tetapi skalabilitas model dan biaya pemeliharaan juga perlu dipertimbangkan.

Belum ada komentar.

Belum ada komentar.