2 poin oleh GN⁺ 2024-05-14 | 1 komentar | Bagikan ke WhatsApp

Peluncuran model generasi berikutnya dari seri Falcon 2

  • Technology Innovation Institute (TII) merilis seri model bahasa besar (LLM) generasi berikutnya, Falcon 2
    • Falcon 2 11B: model 11 miliar parameter yang dilatih dengan 5,5 triliun token, dengan efisiensi dan aksesibilitas yang ditingkatkan
    • Falcon 2 11B VLM: model multimodal pertama yang memiliki kemampuan vision-to-language untuk mengubah input visual menjadi output teks
  • Kedua model mendukung multibahasa, dan khususnya Falcon 2 11B VLM saat ini merupakan satu-satunya model kelas atas yang menyediakan kemampuan konversi gambar-ke-teks

Performa Falcon 2 11B

  • Menurut evaluasi Hugging Face, Falcon 2 11B menunjukkan performa yang lebih baik daripada Meta Llama 3 8B, serta performa yang hampir setara dengan Google Gemma 7B (Falcon 2 11B: 64.28 vs Gemma 7B: 64.29)
  • Falcon 2 11B dan 11B VLM keduanya akan dirilis sebagai open source dan tersedia bagi developer tanpa pembatasan
  • Ke depannya, seri Falcon 2 akan diperluas ke model dengan berbagai ukuran, dan direncanakan untuk mengadopsi teknologi Mixture of Experts (MoE) guna semakin meningkatkan performa

Fitur Falcon 2 11B VLM

  • Mampu memproses berbagai bahasa seperti Inggris, Prancis, Spanyol, Jerman, dan Portugis
  • Dibekali kemampuan vision-to-language yang dapat mengenali dan menafsirkan gambar serta informasi visual dari lingkungan
    • Dapat dimanfaatkan di berbagai industri seperti kesehatan, keuangan, e-commerce, pendidikan, dan hukum
    • Cakupan penggunaan yang luas, mulai dari manajemen dokumen, pengarsipan digital, dan pengindeksan konteks hingga dukungan bagi penyandang tunanetra
  • Dapat berjalan secara efisien pada satu GPU, sehingga sangat skalabel dan mudah diintegrasikan ke infrastruktur ringan seperti laptop

Opini GN⁺

  • Seri Falcon 2 adalah model generasi berikutnya yang semakin meningkatkan performa dan efisiensi model Falcon sebelumnya. Khususnya, Falcon 2 11B VLM memiliki arti penting karena merupakan model multimodal multibahasa berskala besar pertama yang dilengkapi kemampuan vision-to-language. Hal ini diharapkan memungkinkan pemrosesan terpadu antara data visual dan data bahasa, sehingga interaksi yang lebih alami dan lebih mendekati manusia dapat terwujud.

  • Namun, AI multimodal masih berada pada tahap awal dan masih memiliki ruang perbaikan dari sisi stabilitas dan ketangguhan. Karena itu, untuk penggunaan nyata diperlukan proses pemeriksaan dan penyempurnaan yang cermat terhadap masalah bias data, isu privasi dan keamanan, serta kerentanan terhadap input yang salah.

  • Fakta bahwa seri Falcon 2 akan dirilis sebagai open source juga merupakan poin yang patut diperhatikan. Ini diharapkan dapat mendorong partisipasi aktif komunitas developer serta mempercepat perbaikan dan perluasan model. Namun, dalam kasus model open source, ada pula kekhawatiran soal potensi penyalahgunaan, sehingga tampaknya penting untuk memasukkan hal-hal seperti acceptable use policy ke dalam kebijakan lisensi agar mendorong penggunaan AI yang bertanggung jawab.

  • Rencana adopsi teknologi Mixture of Experts (MoE) juga merupakan bagian yang menarik. MoE adalah pendekatan yang menggabungkan beberapa jaringan kecil yang terspesialisasi untuk menghasilkan keluaran yang lebih presisi dan lebih terpersonalisasi melalui kolaborasi lintas domain keahlian. Pendekatan ini diperkirakan akan sangat berkontribusi pada peningkatan performa seri Falcon 2 di masa depan. Arah riset seperti ini dapat dinilai sebagai bagian dari upaya untuk mewujudkan sistem AI yang lebih efisien dan lebih cerdas, melampaui sekadar memperbesar skala model.

1 komentar

 
GN⁺ 2024-05-14
Opini Hacker News
  • Ditunjukkan bahwa hasil benchmark model Falcon 2 11B berada di tingkat yang mirip dengan Mistral 7B dan Llama 3 8B. Jika mempertimbangkan peningkatan ukuran model, ini tidak terlihat terlalu mengesankan.

  • Ada masalah pada lisensinya. Lisensi Apache 2 dimodifikasi dengan menambahkan klausul tambahan, termasuk persyaratan untuk mematuhi kebijakan penggunaan yang dapat diterima. Masalahnya, tidak diketahui bagaimana kebijakan itu akan berubah di masa depan. Terlepas dari isi saat ini, isinya bisa diubah menjadi apa pun nanti dan tetap harus dipatuhi. Tren menyebut lisensi seperti ini sebagai "open source" dinilai bermasalah karena tidak sesuai dengan definisi OSI.

  • Terhadap klaim bahwa "Falcon 2 11B lebih unggul daripada Llama 3 8B milik Meta dan menunjukkan performa setara dengan Gemma 7B milik Google", muncul bantahan bahwa ada kesan kuat Llama 3 8B mengungguli Gemma 7B di hampir semua aspek.

  • Terkait ungkapan "satu-satunya model AI dengan kemampuan Vision-to-Language yang unik", muncul pertanyaan apakah itu sebenarnya tidak jauh berbeda dari yang dilakukan GPT-4 Vision atau LLaVA.

  • Kembali disorot bahwa model Falcon tidak terlalu terbuka. Falcon versi sebelumnya juga tidak tampil sebaik hasil benchmark-nya. Meski diumumkan sebagai lompatan besar, ada yang merasa model ini tidak benar-benar melampaui model pesaing.

  • Kesan bahwa PR soal model 11B yang berkinerja lebih baik daripada model 7B dan 8B di kelas yang sama terasa agak berlebihan. Meski tetap ingin mencobanya untuk inferensi lokal, penilaian intuitif saat ini adalah bahwa Llama 3 8B yang sudah di-fine-tune masih yang terbaik.

  • Jika model ini dilatih terutama dengan dataset publik, memakai hardware AWS, serta algoritme dan teknik yang sudah dikenal luas, muncul pertanyaan apa bedanya dengan model lain yang pada dasarnya bisa dilatih siapa saja asal punya uang. Ada juga pandangan skeptis/kritis bahwa ini tampak tidak lebih dari upaya untuk terlihat relevan dan sekadar "flex".

  • Dikatakan Falcon 2 11B lebih unggul daripada Llama 3 8B, tetapi karena jumlah parameternya lebih besar, perbandingan itu dianggap tidak adil. Model open source terbaik tampaknya adalah Llama 3 70B, sehingga dipertanyakan mengapa mereka mengklaim melampaui Llama 3 padahal bahkan tidak melampaui model terbaiknya.