TII Memperkenalkan Seri Model AI Falcon 2 yang Mengungguli Llama 3 8B

(tii.ae)

2 poin oleh GN⁺ 2024-05-14 | 1 komentar | Bagikan ke WhatsApp

TII dari Abu Dhabi memperkenalkan seri Falcon 2, menonjolkan model multibahasa dan multimodal dalam persaingan LLM open source
Falcon 2 11B adalah model 11 miliar parameter yang dilatih dengan 5,5 triliun token, dan mengungguli Meta Llama 3 8B di leaderboard Hugging Face
Falcon 2 11B VLM adalah model multimodal pertama TII yang mengubah input visual menjadi teks, dan interpretasi gambar dapat diterapkan di berbagai industri
Kedua model tersedia sebagai open source dan mengikuti TII Falcon License 2.0, dirancang agar lebih mudah di-deploy dan diintegrasikan oleh developer bahkan pada infrastruktur yang lebih ringan
TII berencana memperluas Falcon 2 ke berbagai ukuran dan mempertimbangkan Mixture of Experts untuk meningkatkan performa dan kualitas respons

Peluncuran Falcon 2 dan Komposisi Model

Technology Innovation Institute adalah organisasi riset terapan di bawah Advanced Technology Research Council Abu Dhabi, dan pada 13 Mei 2024 meluncurkan model bahasa besar Falcon 2
Seri ini terdiri dari dua model
- Falcon 2 11B: LLM 11 miliar parameter yang dilatih dengan 5,5 triliun token
- Falcon 2 11B VLM: model vision-to-language yang mengubah input visual menjadi output teks
Kedua model mendukung multibahasa, dan Falcon 2 11B VLM adalah model multimodal pertama TII
TII memposisikan Falcon 2 11B VLM sebagai satu-satunya model di pasar kelas atas saat ini yang memiliki kemampuan konversi image-to-text

Perbandingan Performa dan Cakupan Penggunaan

Falcon 2 11B dibandingkan dengan kelompok model pre-trained di leaderboard evaluasi open LLM Hugging Face
- Mencatat performa lebih tinggi daripada Meta Llama 3 8B
- Berada di jajaran teratas dengan skor yang hampir sama dengan Google Gemma 7B
- Skornya berada di kisaran Falcon 2 11B 64,28 dan Gemma 7B 64,29
Model Falcon 2 11B menangani tugas dalam bahasa Inggris, Prancis, Spanyol, Jerman, Portugis, dan berbagai bahasa lainnya
Falcon 2 11B VLM dapat mengidentifikasi dan menafsirkan gambar serta materi visual dari lingkungan sekitar
- Bidang penerapan yang disebutkan meliputi kesehatan, keuangan, e-commerce, pendidikan, dan hukum
- Kasus penggunaan juga mencakup manajemen dokumen, pengarsipan digital, pengindeksan kontekstual, dan dukungan bagi penyandang tunanetra

Cara Rilis dan Rencana Berikutnya

Falcon 2 11B dan Falcon 2 11B VLM sama-sama tersedia sebagai open source sehingga dapat diakses oleh developer
Kedua model diperkenalkan sebagai model yang dapat berjalan efisien bahkan pada satu GPU, sehingga lebih mudah di-deploy dan diintegrasikan pada infrastruktur yang lebih ringan seperti laptop dan perangkat lainnya
Falcon 2 11B tersedia dengan TII Falcon License 2.0, lisensi perangkat lunak permisif berbasis Apache 2.0
- Lisensi ini mencakup kebijakan penggunaan yang diizinkan untuk mendorong penggunaan AI yang bertanggung jawab
TII berencana mendiversifikasi ukuran model Falcon 2 generasi berikutnya dan mempertimbangkan penerapan Mixture of Experts
- Mixture of Experts adalah pendekatan yang menggabungkan jaringan kecil dengan keahlian berbeda untuk menghasilkan respons yang lebih cermat dan lebih disesuaikan
- TII menilai pendekatan ini dapat meningkatkan akurasi dan mempercepat pengambilan keputusan
Informasi tentang model baru dapat ditemukan di FalconLLM.TII.ae

1 komentar

GN⁺ 2024-05-14

Opini Hacker News

Hasil benchmark tampaknya kurang lebih mirip dengan Mistral 7B dan Llama 3 8B, jadi jika mempertimbangkan ukuran model yang lebih besar, ini tidak terlihat terlalu mengesankan
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- Benar. Falcon-180b juga awalnya banyak di-hype, tetapi komunitas segera menyadari bahwa model itu hampir tidak berguna, dan dalam kasus umum model bahasa besar yang lebih kecil dengan mudah mengalahkannya
  Kali ini mereka mengklaim falcon-11b lebih baik daripada Llama 3 8b, tetapi sudah terlihat beberapa masalah. falcon-11b sekitar 40% lebih besar daripada Llama 3 8b, sehingga sulit membandingkannya dalam kelas ukuran yang sama, dan klaimnya bertumpu pada benchmark otomatis, padahal sudah lama jelas bahwa benchmark otomatis saja tidak cukup untuk menarik kesimpulan seperti itu
  Beberapa skor benchmark otomatis jauh lebih rendah daripada Llama 3 8b, dan hanya unggul tipis pada satu benchmark saja. Memungkinkan saja membuatnya terlihat seperti yang terbaik sepanjang masa pada satu benchmark, tetapi itu sama sekali tidak berarti modelnya bagus
  Meski tidak ada evaluasi manusia sama sekali, mereka sengaja memakai judul clickbait dengan klaim yang terburu-buru, dan sambil mengatakan lebih baik daripada Llama 3, mereka sepenuhnya mengabaikan Llama 3 70b
  Jujur saja, saya kesal tiiuae terus mendapat terlalu banyak perhatian meski tidak merilis sesuatu yang berguna dan terus membuat clickbait yang menyesatkan seperti ini
- Sepertinya seluruh model mereka memang begitu. Ukurannya benar-benar besar, tetapi tidak ada peningkatan performa nyata dibanding usaha yang dicurahkan
  Dataset web yang sudah mereka kurasi tampaknya disensor berat, dan itu mungkin juga berpengaruh. Secara moral sangat konservatif, sehingga pornografi dan berbagai topik sepenuhnya dikecualikan
  Jadi tidak mengherankan jika terlalu banyak menyaring konten dan hanya memasukkan lebih banyak hal yang mirip menjadi sebagian penyebab masalahnya
- Metrik pembandingnya mungkin tidak tepat
  Memang modelnya lebih besar, tetapi pelatihannya membutuhkan token lebih sedikit daripada Llama 3. Masalahnya, tanpa dataset publik, sulit untuk membandingkan dan mereproduksinya dengan benar
  Sulit mengetahui apakah penyebabnya arsitektur model, kualitas dataset, ukuran model, kombinasinya, atau alasan lain
Lisensinya tidak bagus: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
Ini adalah lisensi Apache 2 yang dimodifikasi dengan klausul tambahan, termasuk persyaratan untuk mengikuti kebijakan penggunaan yang diperbolehkan: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
Namun lisensi Apache 2 yang dimodifikasi itu menyatakan bahwa “kebijakan penggunaan yang diperbolehkan dapat diperbarui sewaktu-waktu, dan Anda harus memantau alamat web tempat kebijakan tersebut dihosting untuk memastikan penggunaan karya atau karya turunan mematuhi kebijakan yang diperbarui”
Apa pun pandangan kita terhadap kebijakan penggunaan yang diperbolehkan saat ini, mereka mempertahankan hak untuk mengubahnya sesuka hati di masa depan, dan pengguna harus mengikuti kebijakan baru
Ini menunjukkan dengan baik mengapa saya tidak suka tren menyebut lisensi seperti ini sebagai open source meski tidak kompatibel dengan definisi OSI
- Pada dasarnya, ini sama sekali tidak bisa dipakai untuk penggunaan yang tidak sepele. Karena mereka bisa melarang kasus penggunaan kapan saja tanpa pemberitahuan
- Saya benar-benar penasaran apakah klausul “mereka mempertahankan hak untuk mengubahnya sesuka hati di masa depan, dan pengguna harus mengikuti kebijakan baru” benar-benar akan dipertahankan di pengadilan. Saya ingin tahu apakah ada yurisprudensi atau preseden terkait
- Permainan lisensi seperti ini bukan yang pertama. Saat Falcon 1 juga ada. Saya menghargai usahanya, tetapi mereka tampaknya masih terus mencari apakah dan bagaimana cara memonetisasinya
- Model 40b tampaknya murni Apache
Ada kalimat “Falcon 2 11B baru melampaui Llama 3 8B milik Meta dan memberikan performa setara dengan model Google Gemma 7B terdepan,” padahal setahu saya Llama 3 8B unggul jauh atas Gemma 7B pada hampir semua metrik
- Perlu diperhatikan bahwa ini perbandingan model dasar, bukan model yang di-tuning untuk chat. Karena Falcon-11B saat ini belum memiliki model yang di-tuning untuk chat. Tuning chat dari Meta tampaknya lebih baik daripada tuning chat Gemma
  Meski begitu, dari pengalaman saya, model chat Gemma 1.1 cukup lumayan, dan saya memang merasa model chat Llama3 8B jelas lebih baik
  CodeGemma 1.1 7B khususnya sangat diremehkan jika dibandingkan dengan model-model coding terkait. Model dasar CodeGemma 7B termasuk salah satu yang terbaik di antara model yang saya uji untuk pelengkapan kode, dan model chat-nya juga termasuk salah satu yang terbaik di antara model yang saya uji untuk penulisan kode
  Model lain tampaknya lebih pandai mengincar benchmark, tetapi dalam penggunaan nyata tidak mampu bertahan sebaik CodeGemma. Saya menantikan seperti apa CodeLlama3 nanti, tetapi model itu belum ada
- Ini memang anekdotal, tetapi menurut pengalaman saya Gemma benar-benar tidak berguna, sedangkan Llama 3 8b luar biasa bagus untuk ukurannya. Gagasan bahwa Gemma mengungguli Llama 3 terasa aneh. Jika Gemma unggul pada beberapa benchmark, mungkin ada semacam kontaminasi
- Saya juga merasa itu aneh
  Belakangan ini saya tidak banyak mengikuti benchmark, dan sepenuhnya mencurahkan perhatian pada basket
  Sebagai catatan, sebenarnya saya sedikit lebih jago daripada Lebron. Lebron bahkan jauh lebih buruk daripada putri saya yang berusia tiga tahun, dan saya kadang-kadang mengalahkan putri saya. Dalam basket
Aduh, kukira ini tulisan tentang Falcon AT dari Spectrum Holobyte. Menurut MyAbandonware.com:
“Pada dasarnya Falcon 2 tetapi entah bagaimana dipasarkan secara berbeda, Falcon AT adalah rilisan kedua dalam seri simulasi penerbangan hardcore inovatif Falcon dari Spectrum Holobyte. Berbeda dengan anggapan umum bahwa Falcon 3.0 adalah awal simulasi penerbangan modern, Falcon AT sudah berkembang jauh dari Falcon, dengan grafis EGA yang tajam, banyak opsi realistis, dan kampanye yang jauh diperluas. Game ini adalah simulasi pertempuran udara modern dengan tutorial yang sangat baik, beragam misi, dan mekanika penerbangan akurat yang kemudian dikenal dan dicintai para penggemar Falcon. Di antara berbagai inovasinya ada juga opsi multiplayer yang secara mengejutkan cukup bisa dimainkan lewat hotseat dan modem. Kini sebagian besar terlupakan, tetapi Falcon AT menjelaskan celah yang sulit dipahami antara Falcon dan Falcon 3.0”
- Sepertinya ada tren menamai produk baru dari game komputer klasik. Mungkin tidak disengaja. Baru saja di sini juga ada tulisan tentang sistem bernama Loom, tetapi itu bukan game petualangan klasik. Rasanya seseorang akan merilis model bahasa besar atau perangkat lunak jaringan lalu menamainya Zork
- Sekarang di halaman utama juga ada “F-16 Strike Eagle II reverse engineering” <https://news.ycombinator.com/item?id=40347662>, jadi itu ikut memicu asosiasi untuk berpikir serupa
Aku tidak tahu apa maksud frasa “satu-satunya model AI dengan kemampuan visual-bahasa”. Bukankah ini kira-kira yang dilakukan GPT-4 Vision dan LLaVA?
- Awalnya kukira mereka sedang bermain kata dengan membelokkan maknanya
  Bisa saja maksudnya LLaVA adalah model bahasa-visual, tetapi bahkan dengan tafsir itu pun aku tidak bisa membuatnya masuk akal
  Mungkin memang hanya berbohong
- Semua model Claude juga termasuk
Model terbuka selalu disambut baik, tetapi seperti yang juga ditunjukkan di sini, model Falcon tidak terlalu terbuka. Falcon yang asli juga tidak bekerja sebaik yang disiratkan angka benchmark-nya. Mereka mendorongnya seolah-olah itu kemajuan besar, tetapi saat rilis aku tidak merasa model itu mengungguli model-model terbuka pesaingnya
Klaim promosi bahwa model 11B mengungguli model 7B dan 8B di “kelas yang sama” terasa agak dipaksakan. Akan kita lihat nanti, tetapi untuk inferensi lokal aku jelas berniat mencobanya. Namun intuisi saya mengatakan llama 3 8B yang sudah di-fine-tune kemungkinan besar masih yang terbaik di kelasnya per minggu ini
- Aku juga melihat Falcon asli tidak berkinerja setara dengan angka benchmark-nya. Sepertinya pelatihannya kurang dari sudut pandang token per parameter. Rasanya mereka sekadar ingin punya model 40 miliar parameter, dan pendekatannya lebih mirip era sebelum optimasi Chinchilla
Pengingat seperti ini, bahwa AI akan digunakan bukan hanya oleh negara demokratis yang setidaknya mencoba melakukan sebagian pengawasan etis, tetapi juga oleh para diktator terburuk, benar-benar mengerikan
- MBZ bukan MBS, dan Arab Saudi serta UEA adalah negara yang berbeda. MBZ adalah salah satu pemimpin paling populer di dunia, dan rakyatnya termasuk yang paling kaya
  Negaranya adalah salah satu dari sedikit negara maju yang ekonominya masih terus tumbuh stabil, dan memiliki salah satu kebijakan imigrasi paling bebas di dunia, tetapi tetap menjadi salah satu negara teraman di luar Asia Timur
  Dibanding diktator terburuk, ia jauh lebih dekat menjadi kandidat diktator terbaik
Ada hal yang ingin kupahami. Model ini sebagian besar dilatih dengan dataset publik, memakai perangkat keras AWS, dan menggunakan algoritma serta teknik yang sudah dikenal, bukan? Apa bedanya dengan model-model lain yang bisa dilatih siapa saja asalkan punya uang?
Dari sudut pandangku yang skeptis atau hampir anti, ini terlihat hanya sebagai pamer dan upaya agar tampak relevan. Apakah ada hal lain dalam upaya seperti ini yang luput dari perhatianku?
- Banyak model masuk dalam kategori ini. Kedaulatan punya nilai tertentu, baik bagi negara maupun perusahaan. Ancaman persaingan juga baik untuk semua orang
  Meski hasil akhirnya kebanyakan tidak terlalu menarik, senang melihat ada orang-orang yang mengerjakan hal semacam ini
Untuk sesaat kukira ini terkait dengan simulasi penerbangan klasik:
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX juga punya roket Falcon 1 dan Falcon 9, serta Falcon 5 yang pernah diusulkan tetapi tidak dikembangkan
Bias artikelnya kelewat konyol sampai-sampai membuatku ingin bilang UEA seharusnya lebih halus sedikit. “Mengalahkan llama 3” adalah ringkasan yang mencurigakan dan tidak membantu, sementara bagian “satu-satunya model AI dengan kemampuan visual-bahasa” benar-benar membingungkan

TII Memperkenalkan Seri Model AI Falcon 2 yang Mengungguli Llama 3 8B

Peluncuran Falcon 2 dan Komposisi Model

Perbandingan Performa dan Cakupan Penggunaan

Cara Rilis dan Rencana Berikutnya

Bacaan terkait

1 komentar

Opini Hacker News