- EuroLLM adalah large language model (LLM) yang mendukung 24 bahasa resmi UE dan dikembangkan bersama oleh lembaga-lembaga riset di Eropa, dengan tujuan kedaulatan AI dan kemandirian teknologi Eropa
- Dengan model 9B parameter, model ini dilatih menggunakan lebih dari 4 triliun token dalam 35 bahasa, sehingga menunjukkan keunggulan pada tugas bahasa seperti tanya jawab, peringkasan, dan terjemahan
- EuroLLM 9B Base dirilis untuk fine-tuning, sementara EuroLLM 9B Instruct adalah versi dengan kemampuan mengikuti instruksi percakapan dan tersedia di Hugging Face
- Proyek ini melibatkan institusi-institusi utama Eropa seperti Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe, dan dilatih di superkomputer MareNostrum 5
- Proyek ini juga mengumumkan ekspansi multimodal (gambar dan suara) serta kebijakan open source sepenuhnya, dengan target menjadi infrastruktur inti ekosistem inovasi AI di Eropa
Ikhtisar EuroLLM
- EuroLLM adalah large language model (Local LLM) yang dikembangkan di Eropa dan mendukung seluruh 24 bahasa resmi UE
- Dirancang sebagai model AI berbentuk infrastruktur publik yang dapat digunakan warga, perusahaan, dan peneliti Eropa tanpa hambatan bahasa
- Dikembangkan dengan dukungan dari Horizon Europe, European Research Council, dan EuroHPC milik Uni Eropa
- Pelatihan dilakukan di superkomputer MareNostrum 5
Karakteristik teknis
- EuroLLM 9B: berukuran 9 miliar parameter, dilatih dengan 4 triliun token data dalam 35 bahasa
- Model Base ditujukan untuk fine-tuning oleh pengguna, sedangkan model Instruct memiliki kemampuan mengikuti instruksi percakapan
- Fitur utama:
- Dioptimalkan untuk performa pemrosesan bahasa alami multibahasa seperti tanya jawab, peringkasan, dan terjemahan
- Ekspansi multimodal direncanakan — ke depan akan ditambahkan kemampuan memahami gambar dan suara
- Dapat dimanfaatkan secara bebas oleh peneliti, institusi, dan masyarakat umum melalui distribusi open source
Institusi peserta dan jaringan kolaborasi
- Institusi peserta:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
- Tokoh peneliti utama:
- André Martins (Unbabel, profesor teknik di Lisbon) — pakar machine learning dan pemrosesan bahasa alami
- Alexandra Birch (Aveni.ai, profesor di Edinburgh) — memimpin riset terjemahan multibahasa dan AI etis
- Pierre Colombo (Université Paris-Saclay) — meneliti keamanan AI dan penerapan AI di bidang hukum
Misi dan visi
- Tujuan EuroLLM adalah mengamankan kedaulatan AI Eropa dan mendorong kemajuan teknologi multibahasa
- Melalui LLM yang dikembangkan secara mandiri di Eropa, proyek ini ingin menciptakan siklus inovasi yang mempercepat pertumbuhan (flywheel for innovation)
- Mendukung peneliti dan perusahaan agar dapat mengembangkan layanan dan riset baru berbasis model AI buatan Eropa
- Eropa ingin memperkuat kepemimpinan teknologi berbasis keberagaman bahasa,
serta membangun model inovasi yang mandiri dalam ekosistem AI global
1 komentar
Komentar Hacker News
Uni Eropa memiliki total 24 bahasa resmi: Bulgaria, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Finlandia, Prancis, Jerman, Yunani, Hungaria, Irlandia, Italia, Latvia, Lituania, Malta, Polandia, Portugis, Rumania, Slovakia, Slovenia, Spanyol, dan Swedia
Bahasa Malta adalah satu-satunya bahasa Afro-Asiatik, sedangkan Hungaria, Finlandia, dan Estonia termasuk dalam rumpun Uralik. Sisanya termasuk rumpun Indo-Eropa, dengan Yunani berada di cabang Helenik dan Irlandia di rumpun Keltik
Mungkin modelnya perlu dilatih ulang
Kontribusi utama riset ini tampaknya adalah pembahasan yang rinci soal sumber data pelatihan
Para pembuat kebijakan Eropa tampaknya sama sekali tidak tahu bagaimana membina industri padat teknologi. Skema subsidi dengan model ‘memilih pemenang’ jelas akan gagal. Cerita soal akses ke superkomputer Eropa juga menarik. Tweet terkait
Namun, kendala terbesar yang sebenarnya dihadapi perusahaan Eropa bukanlah regulasi, melainkan akses ke modal.
Tiongkok justru punya regulasi yang lebih ketat tetapi industri perangkat lunaknya tetap berkembang. Korea juga mendapat manfaat serupa dari proteksionisme.
Yang perlu dipelajari Eropa adalah lebih banyak proteksionisme teknologi. Pieter Levels pada akhirnya hanyalah seorang influencer, bukan pendiri serius
Di AS ada banyak pendiri dari latar FAANG, tetapi Eropa kekurangan ekosistem seperti itu.
Bahkan jika proyek superkomputer gagal, bisa jadi efek ekonomi ikutan memang merupakan tujuannya
“(2024)” hilang dari judul. Model 9B dirilis pada Desember tahun lalu. Halaman resmi
Tim EuroLLM melibatkan lembaga-lembaga besar Eropa seperti Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, dan Naver Labs.
Eropa saat ini mengoperasikan jaringan superkomputer publik melalui EuroHPC JU, dan mereka mulai mengembangkan model segera setelah memperoleh hak akses. Cerita resmi
Bisa dibilang ini adalah pemanfaatan ulang sumber daya komputasi yang awalnya untuk simulasi fisika
Bukankah kebanyakan model frontier sudah mendukung banyak bahasa? Saya rasa tidak perlu menambahkan dukungan bahasa secara terpisah
Sayang sekali korpus yang benar-benar digunakan tidak dipublikasikan. Untuk bahasa minoritas seperti Irlandia, kemungkinan besar sebagian besar berbasis dokumen hukum, dan hampir tidak ada data bahasa lisan.
Akan menarik jika evaluasi per bahasa dilakukan menurut standar penutur asli.
LLM bisa memberi dampak positif pada bahasa yang terancam punah seperti ini, tetapi sebelumnya juga ada risikonya (misalnya kasus Wikipedia Gaelik Skotlandia).
Meski begitu, secara keseluruhan saya rasa ini upaya yang baik
EuroLLM-9B adalah model yang dirilis pada Desember 2024, dan mencatat 17.6% pada MMLU-Pro, yaitu sedikit di atas acak.
Untuk tabel perbandingan dengan model EU lain, lihat di sini
Saya penasaran kenapa hanya AS dan Tiongkok yang menghasilkan model unggulan. Selain Mistral dari Prancis, hampir tidak ada model Eropa. India, Jepang, dan Korea juga kondisinya mirip
Populasinya 1,3 kali AS, PDB-nya 75% dari AS, tetapi ukuran industri teknologinya hanya sebagian kecil dari AS.
Tujuh perusahaan big tech terbesar AS 20 kali lebih besar daripada tujuh perusahaan terbesar Eropa, dan pendapatannya 10 kali lebih tinggi. Tautan referensi
Karena itu mereka bergantung pada pendanaan akademik seperti Horizon, tetapi kolaborasi semacam ini sulit berujung pada produk nyata
Untuk mengunduh model EuroLLM-9B di Hugging Face, diperlukan persetujuan untuk memberikan informasi kontak. Saya penasaran apakah permintaan seperti ini umum
Menarik bahwa model 9B ini mendapat perhatian. Namun model TildeOpen-30B yang dirilis dua bulan lalu dan mendukung 19 bahasa Eropa hampir tidak disebut sama sekali. Halaman model
Performa dasarnya rendah, tetapi ini model terbuka dengan potensi fine-tuning yang besar