4 poin oleh GN⁺ 2024-05-23 | 2 komentar | Bagikan ke WhatsApp
  • Chameleon adalah keluarga model multimodal campuran berbasis token dengan fusi awal yang dapat memahami dan menghasilkan gambar serta teks dalam urutan apa pun
  • Keluarga model ini mencakup pendekatan pelatihan yang stabil, resep alignment, dan parameter arsitektur untuk pengaturan multimodal campuran berbasis token dengan fusi awal
  • Sejak awal, pendekatan pelatihan yang stabil diadopsi, dan resep alignment serta parameter arsitektur dirancang agar sesuai untuk pengaturan multimodal campuran berbasis token dengan fusi awal
  • Model ini dievaluasi pada berbagai tugas yang komprehensif seperti visual question answering, pembuatan caption gambar, pembuatan teks, pembuatan gambar, dan generasi multimodal campuran bentuk panjang
    • Menunjukkan performa state-of-the-art pada tugas pembuatan caption gambar
    • Pada tugas teks saja, melampaui Llama-2 dan menunjukkan performa yang kompetitif dengan model seperti Mixtral 8x7B dan Gemini-Pro
    • Memiliki kemampuan pembuatan gambar yang sangat baik dan dapat melakukan beragam tugas dengan satu model
    • Pada evaluasi generasi multimodal campuran format panjang, ketika prompt atau output mencakup urutan campuran gambar dan teks, performanya menyamai atau melampaui model yang jauh lebih besar seperti Gemini Pro dan GPT-4V
  • Chameleon mencapai kemajuan penting dalam pemodelan terpadu untuk dokumen multimodal yang lengkap
  • Ini menetapkan tolok ukur baru untuk model multimodal terpadu dengan kemampuan menyeluruh di berbagai tugas

Opini GN⁺

  • Model multimodal dapat memproses berbagai bentuk input secara bersamaan, sehingga sangat berguna dalam aplikasi dunia nyata. Misalnya, ini memberikan keuntungan besar pada sistem visual question answering atau pembuatan caption gambar.
  • Chameleon menunjukkan performa yang kompetitif dibandingkan Llama-2, Mixtral 8x7B, dan Gemini-Pro. Ini membuktikan fleksibilitas dan performanya di berbagai tugas.
  • Saat mengadopsi teknologi baru, stabilitas model, biaya pelatihan, dan kebutuhan data perlu dipertimbangkan. Dalam kasus Chameleon, pendekatan fusi awal memang stabil, tetapi penerapan nyata mungkin memerlukan data yang memadai dan sumber daya komputasi yang besar.
  • Performa dalam generasi multimodal campuran jangka panjang sangat menarik. Ini membuka kemungkinan besar untuk pembuatan dokumen kompleks atau produksi konten multimedia.
  • Di industri, terdapat berbagai model multimodal seperti GPT-4 dari OpenAI dan BERT dari Google. Penting untuk membandingkan karakteristik serta kelebihan dan kekurangan masing-masing model untuk memilih model yang tepat.

2 komentar

 
GN⁺ 2024-05-23
Opini Hacker News

Ringkasan kumpulan komentar Hacker News

  • Riset dasar dan masalah softmax

    • Riset dasarnya sangat menarik. Terutama, analisis tentang sulitnya menggunakan softmax di berbagai ruang tokenisasi sangat mengesankan.
    • Pada model berukuran 34b, masalahnya paling menonjol. Ini mengingatkan bahwa pelatihan model skala besar memunculkan masalah baru.
  • Multimodalitas dan Mirasol3B

    • Dibandingkan dengan Mirasol3B, model ini tidak mendukung audio. Mirasol3B dari Google memungkinkan demo dengan mengubah audio menjadi gambar.
    • Meta juga bergerak ke arah multimodalitas. Mode suara GPT yang baru kemungkinan besar juga menggunakan arsitektur yang sama.
    • Ketika modalitas baru ditambahkan, performa model meningkat pada ukuran parameter yang sama.
  • Waktu dan biaya pelatihan

    • Waktu pelatihan adalah 4282407 jam, yang berarti konsumsi listrik sekitar 1 GWh jika menggunakan GPU 200W. Biayanya sekitar $100,000.
    • Dengan satu GPU, dibutuhkan 500 tahun waktu pelatihan dan biaya energi $100,000. Dalam praktiknya, pelatihan dapat dilakukan selama 2 bulan dengan 3000 GPU.
  • Performa model Chameleon

    • Model Chameleon menyamai atau melampaui performa model yang lebih besar seperti Gemini Pro dan GPT-4V. Model ini menunjukkan performa unggul dalam evaluasi generasi modalitas campuran.
    • Ini merupakan kemajuan penting dalam pemodelan terpadu untuk dokumen multimodal.
  • Kecepatan perkembangan teknologi

    • Perkembangan teknologi sangat cepat. Banyak hal yang menarik dan mudah dipahami.
    • Namun, hal ini bisa menimbulkan kelelahan, dan karena begitu banyak uang yang diinvestasikan, sebagian besar terasa seperti penipuan. Lebih baik mendalami satu topik dan membaca paper terkait.
  • Adopsi model multimodal

    • Belakangan ini model multimodal telah diadopsi secara luas, tetapi masih menggunakan encoder atau decoder terpisah untuk tiap modalitas.
    • Misalnya, Gemini Pro menggunakan token gambar dan GPT-4V juga serupa. Keduanya melatih dua tokenizer yang berbeda terlebih dahulu.
  • Model terpadu dan persaingan antarmodalitas

    • Model terpadu memang menarik, tetapi temuan tentang "persaingan antarmodalitas" menunjukkan bahwa dalam jangka pendek mungkin lebih baik melatih model yang dikhususkan untuk tiap modalitas.
  • Rencana open source Meta

    • Ada rasa penasaran apakah Meta berencana merilis model-model ini sebagai open source.
    • Pertanyaan juga muncul apakah modelnya bisa diunduh.