EuroLLM: LLM yang dikembangkan di Eropa dan mendukung 24 bahasa resmi Uni Eropa

(eurollm.io)

3 poin oleh GN⁺ 2025-10-29 | 1 komentar | Bagikan ke WhatsApp

EuroLLM adalah large language model (LLM) yang mendukung 24 bahasa resmi UE dan dikembangkan bersama oleh lembaga-lembaga riset di Eropa, dengan tujuan kedaulatan AI dan kemandirian teknologi Eropa
Dengan model 9B parameter, model ini dilatih menggunakan lebih dari 4 triliun token dalam 35 bahasa, sehingga menunjukkan keunggulan pada tugas bahasa seperti tanya jawab, peringkasan, dan terjemahan
EuroLLM 9B Base dirilis untuk fine-tuning, sementara EuroLLM 9B Instruct adalah versi dengan kemampuan mengikuti instruksi percakapan dan tersedia di Hugging Face
Proyek ini melibatkan institusi-institusi utama Eropa seperti Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe, dan dilatih di superkomputer MareNostrum 5
Proyek ini juga mengumumkan ekspansi multimodal (gambar dan suara) serta kebijakan open source sepenuhnya, dengan target menjadi infrastruktur inti ekosistem inovasi AI di Eropa

Ikhtisar EuroLLM

EuroLLM adalah large language model (Local LLM) yang dikembangkan di Eropa dan mendukung seluruh 24 bahasa resmi UE
- Dirancang sebagai model AI berbentuk infrastruktur publik yang dapat digunakan warga, perusahaan, dan peneliti Eropa tanpa hambatan bahasa
Dikembangkan dengan dukungan dari Horizon Europe, European Research Council, dan EuroHPC milik Uni Eropa
- Pelatihan dilakukan di superkomputer MareNostrum 5

Karakteristik teknis

EuroLLM 9B: berukuran 9 miliar parameter, dilatih dengan 4 triliun token data dalam 35 bahasa
- Model Base ditujukan untuk fine-tuning oleh pengguna, sedangkan model Instruct memiliki kemampuan mengikuti instruksi percakapan
Fitur utama:
- Dioptimalkan untuk performa pemrosesan bahasa alami multibahasa seperti tanya jawab, peringkasan, dan terjemahan
- Ekspansi multimodal direncanakan — ke depan akan ditambahkan kemampuan memahami gambar dan suara
- Dapat dimanfaatkan secara bebas oleh peneliti, institusi, dan masyarakat umum melalui distribusi open source

Institusi peserta dan jaringan kolaborasi

Institusi peserta:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
Tokoh peneliti utama:
- André Martins (Unbabel, profesor teknik di Lisbon) — pakar machine learning dan pemrosesan bahasa alami
- Alexandra Birch (Aveni.ai, profesor di Edinburgh) — memimpin riset terjemahan multibahasa dan AI etis
- Pierre Colombo (Université Paris-Saclay) — meneliti keamanan AI dan penerapan AI di bidang hukum

Misi dan visi

Tujuan EuroLLM adalah mengamankan kedaulatan AI Eropa dan mendorong kemajuan teknologi multibahasa
- Melalui LLM yang dikembangkan secara mandiri di Eropa, proyek ini ingin menciptakan siklus inovasi yang mempercepat pertumbuhan (flywheel for innovation)
- Mendukung peneliti dan perusahaan agar dapat mengembangkan layanan dan riset baru berbasis model AI buatan Eropa
Eropa ingin memperkuat kepemimpinan teknologi berbasis keberagaman bahasa,
serta membangun model inovasi yang mandiri dalam ekosistem AI global

1 komentar

GN⁺ 2025-10-29

Komentar Hacker News

Uni Eropa memiliki total 24 bahasa resmi: Bulgaria, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Finlandia, Prancis, Jerman, Yunani, Hungaria, Irlandia, Italia, Latvia, Lituania, Malta, Polandia, Portugis, Rumania, Slovakia, Slovenia, Spanyol, dan Swedia
Bahasa Malta adalah satu-satunya bahasa Afro-Asiatik, sedangkan Hungaria, Finlandia, dan Estonia termasuk dalam rumpun Uralik. Sisanya termasuk rumpun Indo-Eropa, dengan Yunani berada di cabang Helenik dan Irlandia di rumpun Keltik
- Lebih tepatnya, bahasa Malta adalah bahasa Semitik. Lihat Wikipedia
- Dalam pemilu Belanda besok, dua partai mengusulkan agar bahasa Frisia ditambahkan ke daftar bahasa resmi. Artikel terkait
  Mungkin modelnya perlu dilatih ulang
- Saya bisa membaca, menulis, dan berbicara dalam bahasa Malta. Kalau ada yang penasaran soal bahasanya, silakan tanya apa saja
- Lituania dan Latvia termasuk rumpun Baltik. Tidak berkerabat dengan bahasa Slavia
- Jika melihat makalahnya, model ini tidak terbatas hanya pada 24 bahasa tersebut. Bahasa Arab, Katalan, Tionghoa, Hindi, Jepang, Korea, Norwegia, Rusia, Turki, Ukraina, dan lainnya juga termasuk. PDF makalah
  Kontribusi utama riset ini tampaknya adalah pembahasan yang rinci soal sumber data pelatihan
Para pembuat kebijakan Eropa tampaknya sama sekali tidak tahu bagaimana membina industri padat teknologi. Skema subsidi dengan model ‘memilih pemenang’ jelas akan gagal. Cerita soal akses ke superkomputer Eropa juga menarik. Tweet terkait
- Prosedur subsidi UE memang tidak menarik, tapi Levels tampaknya agak terlalu percaya diri. Ia memang pandai memonetisasi diri sebagai influencer, tetapi saya rasa tidak tepat memakai superkomputer yang didanai negara untuk menjalankan game browser berbasis iklan
- Yang benar-benar penting adalah membuat Eropa menjadi lingkungan yang ramah bagi startup AI. Prioritasnya adalah melonggarkan regulasi dan memberi insentif pajak.
  Namun, kendala terbesar yang sebenarnya dihadapi perusahaan Eropa bukanlah regulasi, melainkan akses ke modal.
  Tiongkok justru punya regulasi yang lebih ketat tetapi industri perangkat lunaknya tetap berkembang. Korea juga mendapat manfaat serupa dari proteksionisme.
  Yang perlu dipelajari Eropa adalah lebih banyak proteksionisme teknologi. Pieter Levels pada akhirnya hanyalah seorang influencer, bukan pendiri serius
- Saya penasaran hasil nyata seperti apa yang dihasilkan strategi ‘memilih pemenang’ ini
- Saya ragu apakah tujuan kebijakan seperti ini benar-benar untuk ‘memilih pemenang’, atau justru untuk memperkuat kapasitas pendiri dan mendorong ekonomi.
  Di AS ada banyak pendiri dari latar FAANG, tetapi Eropa kekurangan ekosistem seperti itu.
  Bahkan jika proyek superkomputer gagal, bisa jadi efek ekonomi ikutan memang merupakan tujuannya
- Orang-orang terlalu lunak padanya. Banyak orang mungkin bahkan tidak tahu siapa ‘levelsio’, jadi saya heran kenapa semua orang bertingkah seolah mengenalnya
“(2024)” hilang dari judul. Model 9B dirilis pada Desember tahun lalu. Halaman resmi
Tim EuroLLM melibatkan lembaga-lembaga besar Eropa seperti Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, dan Naver Labs.
Eropa saat ini mengoperasikan jaringan superkomputer publik melalui EuroHPC JU, dan mereka mulai mengembangkan model segera setelah memperoleh hak akses. Cerita resmi
Bisa dibilang ini adalah pemanfaatan ulang sumber daya komputasi yang awalnya untuk simulasi fisika
Bukankah kebanyakan model frontier sudah mendukung banyak bahasa? Saya rasa tidak perlu menambahkan dukungan bahasa secara terpisah
- Namun inti model ini adalah bahwa model tersebut dilatih dengan data resmi UE
- Bukan sekadar ada contoh bahasa, tetapi proporsi data tiap bahasa juga penting. Karena data bahasa Inggris jauh lebih banyak, performa bahasa lain menurun
- Metode pelatihannya berbeda. Dalam kasus bahasa Jepang, performa sering rendah karena masalah tokenisasi
- Dalam bahasa selain Inggris, sering terasa seperti hasil terjemahan yang tidak alami. Pengguna bahasa Prancis sering menunjukkan kalimat yang janggal
- Pemerintah-pemerintah Eropa memiliki banyak sekali arsip digital dan data budaya. Perbedaan budaya seperti ini juga bisa memengaruhi nilai-nilai yang dibawa model
Sayang sekali korpus yang benar-benar digunakan tidak dipublikasikan. Untuk bahasa minoritas seperti Irlandia, kemungkinan besar sebagian besar berbasis dokumen hukum, dan hampir tidak ada data bahasa lisan.
Akan menarik jika evaluasi per bahasa dilakukan menurut standar penutur asli.
LLM bisa memberi dampak positif pada bahasa yang terancam punah seperti ini, tetapi sebelumnya juga ada risikonya (misalnya kasus Wikipedia Gaelik Skotlandia).
Meski begitu, secara keseluruhan saya rasa ini upaya yang baik
EuroLLM-9B adalah model yang dirilis pada Desember 2024, dan mencatat 17.6% pada MMLU-Pro, yaitu sedikit di atas acak.
Untuk tabel perbandingan dengan model EU lain, lihat di sini
Saya penasaran kenapa hanya AS dan Tiongkok yang menghasilkan model unggulan. Selain Mistral dari Prancis, hampir tidak ada model Eropa. India, Jepang, dan Korea juga kondisinya mirip
- Tidak terlalu mengejutkan. Eropa terus tertinggal dalam daya saing teknologi.
  Populasinya 1,3 kali AS, PDB-nya 75% dari AS, tetapi ukuran industri teknologinya hanya sebagian kecil dari AS.
  Tujuh perusahaan big tech terbesar AS 20 kali lebih besar daripada tujuh perusahaan terbesar Eropa, dan pendapatannya 10 kali lebih tinggi. Tautan referensi
- Eropa punya akses modal yang rendah dan pasarnya terfragmentasi.
  Karena itu mereka bergantung pada pendanaan akademik seperti Horizon, tetapi kolaborasi semacam ini sulit berujung pada produk nyata
- Melatih model frontier memerlukan struktur permodalan yang sangat besar. Hanya AS dan Tiongkok yang bisa menghimpun miliaran dolar
- UE membuat undang-undang AI setebal 900 halaman lalu saling memberi selamat, sementara Tiongkok sudah lebih dulu memberlakukan undang-undang dua halaman
- Sebenarnya nilai komersial model-model seperti ini juga belum terbukti. Sebagian besar masih berjalan dengan kontrak pemerintah atau dana investasi
Untuk mengunduh model EuroLLM-9B di Hugging Face, diperlukan persetujuan untuk memberikan informasi kontak. Saya penasaran apakah permintaan seperti ini umum
- Saya juga pernah melihatnya pada beberapa model. Misalnya Llama 3.1-8B-Instruct juga punya prosedur serupa
- Ya, itu prosedur yang cukup umum
Menarik bahwa model 9B ini mendapat perhatian. Namun model TildeOpen-30B yang dirilis dua bulan lalu dan mendukung 19 bahasa Eropa hampir tidak disebut sama sekali. Halaman model
Performa dasarnya rendah, tetapi ini model terbuka dengan potensi fine-tuning yang besar

EuroLLM: LLM yang dikembangkan di Eropa dan mendukung 24 bahasa resmi Uni Eropa

Ikhtisar EuroLLM

Karakteristik teknis

Institusi peserta dan jaringan kolaborasi

Misi dan visi

Bacaan terkait

1 komentar

Komentar Hacker News