ETH Zurich dan EPFL akan merilis LLM yang dikembangkan di infrastruktur publik

(ethz.ch)

2 poin oleh GN⁺ 2025-07-12 | 1 komentar | Bagikan ke WhatsApp

ETH Zurich dan EPFL memimpin pengembangan model bahasa besar (LLM) yang sepenuhnya dikembangkan secara terbuka di infrastruktur publik dan akan segera merilisnya
Model ini berfokus pada transparansi, performa multibahasa, dan aksesibilitas luas, sehingga dapat dimanfaatkan di berbagai bidang seperti sains, pemerintahan, dan sektor swasta
Kode sumber dan bobot model, serta data pelatihan akan dibuka, dan seluruh proses dirancang agar dapat direproduksi untuk mendorong riset terbuka dan kepatuhan regulasi
Model ini dilatih di superkomputer terbaru Alps (CSCS) dengan energi ramah lingkungan, dengan tujuan skala besar, performa tinggi, dan penggunaan data yang bertanggung jawab
LLM ini dijadwalkan dirilis pada akhir musim panas dengan lisensi Apache 2.0, dan diharapkan berkontribusi pada inovasi dan penguatan riset di seluruh dunia

Kolaborasi internasional dan latar belakang pembangunan LLM terbuka

Dalam International Open-Source LLM Builders Summit yang digelar di Jenewa, sekitar 50 organisasi global terkait open-source LLM dan AI tepercaya berkumpul di satu tempat
Acara yang diselenggarakan oleh pusat AI EPFL dan ETH Zurich ini menjadi momentum penting untuk mengaktifkan kolaborasi dan ekosistem foundation model terbuka
LLM terbuka makin dipandang sebagai alternatif terhadap sistem komersial yang dikembangkan secara tertutup di AS, Tiongkok, dan wilayah lain

Karakteristik LLM publik baru dan rencana peluncuran

Melalui kolaborasi peneliti dari EPFL, ETH Zurich, universitas-universitas Swiss lainnya, dan insinyur CSCS, LLM yang sepenuhnya terbuka dan dikembangkan untuk publik akan segera dirilis
Saat ini model tersebut berada pada tahap pengujian akhir, dan akan tersedia untuk diunduh dengan lisensi terbuka
Model ini menempatkan transparansi, performa multibahasa, dan aksesibilitas luas sebagai nilai inti

Prinsip keterbukaan penuh dan transparansi

Kode sumber dan bobot model akan dibuka seluruhnya
Data pelatihan juga akan dipublikasikan secara transparan dan dirancang agar dapat direproduksi, sehingga mendukung adopsi di sains, pemerintahan, pendidikan, dan sektor swasta
Pendekatan ini bertujuan untuk mendorong inovasi dan memperkuat akuntabilitas

Pendapat para ahli

Peneliti ETH AI Center, Imanol Schlag, menekankan bahwa “model yang sepenuhnya terbuka sangat penting untuk aplikasi yang dapat dipercaya serta kemajuan riset mengenai risiko dan peluang AI”
Proses yang transparan juga mempermudah kepatuhan terhadap regulasi

Desain multibahasa

Salah satu karakteristik utama model ini adalah dukungan untuk lebih dari 1.000 bahasa
Profesor Antoine Bosselut menyatakan bahwa sejak awal mereka berfokus pada dukungan multibahasa yang luas
Pra-pelatihan dilakukan menggunakan dataset berskala besar dalam lebih dari 1.500 bahasa (60% bahasa Inggris, 40% non-Inggris), serta data kode dan matematika
Dengan mencerminkan konten dari beragam bahasa dan budaya di seluruh dunia, model ini memiliki kegunaan global yang tinggi

Skalabilitas dan inklusivitas

Model ini akan dirilis dalam dua ukuran: 8 miliar (8B) dan 70 miliar (70B) parameter
- Versi 70B merupakan salah satu model sepenuhnya terbuka paling kuat di dunia
Model dilatih dengan lebih dari 15 triliun token berkualitas tinggi (unit teks kecil) untuk mencapai keandalan tinggi dan kegunaan umum

Penggunaan data yang bertanggung jawab

Model ini dikembangkan dengan mematuhi kewajiban transparansi yang disyaratkan oleh hukum perlindungan data Swiss, hukum hak cipta, dan EU AI Act
Hasil riset terbaru menunjukkan bahwa menghormati penolakan web crawling (robots exclusion standard) hampir tidak menurunkan performa LLM

Pengembangan berbasis superkomputer dan keberlanjutan

Pelatihan model dilakukan di superkomputer Alps milik CSCS yang berlokasi di Lugano
- Dilengkapi dengan 10.000 NVIDIA Grace Hopper Superchip, menjadikannya infrastruktur AI kelas dunia
- Memungkinkan pelatihan yang efisien dengan listrik 100% netral karbon
Implementasi Alps yang sukses dimungkinkan berkat kolaborasi strategis selama 15 tahun dengan NVIDIA dan HPE/Cray
Alps memainkan peran kunci dalam memenuhi kebutuhan pekerjaan AI skala besar, termasuk pretraining LLM yang kompleks
Profesor Thomas Schulthess menegaskan bahwa upaya bersama lembaga riset publik dan industri membuktikan kontribusinya terhadap infrastruktur AI yang berdaulat, inovasi terbuka, serta sains dan masyarakat global

Akses terbuka dan pemanfaatan global

LLM ini dijadwalkan dirilis pada akhir musim panas dengan lisensi Apache 2.0
Dokumentasi seperti arsitektur model, metode pelatihan, dan pedoman penggunaan juga akan disediakan untuk mendukung penggunaan ulang yang transparan dan pengembangan lanjutan
Profesor Antoine Bosselut mengatakan bahwa para peneliti publik diharapkan dapat memimpin perkembangan model terbuka, dan berbagai organisasi dapat membangun aplikasi mereka sendiri di atasnya
Profesor Martin Jaggi menyatakan bahwa “keterbukaan penuh merupakan faktor penting untuk mendorong inovasi melalui kolaborasi Swiss, Eropa, dan internasional, serta menarik talenta terbaik”

1 komentar

GN⁺ 2025-07-12

Komentar Hacker News

Saya menantikan hasilnya. Setahu saya, ETH dan EPFL sedang melatih atau melakukan fine-tuning pada versi lama, bukan model LLaMA terbaru, jadi performanya mungkin agak tertinggal dibanding SOTA. Namun, menurut saya yang paling penting adalah ETH dan EPFL membangun pengalaman dalam pelatihan skala besar. Dari yang saya dengar, klaster AI yang baru dibangun itu masih mengalami banyak trial and error di tahap awal. Orang sering meremehkan betapa sulitnya melatih model pada skala ini dengan infrastruktur sendiri. Sebagai konteks, saya lahir di Swiss dan belajar di ETH. Mereka jelas punya kecerdasan yang cukup, tetapi pengalaman pelatihan skala besar masih kurang. Selain itu, secara pribadi saya merasa banyak "sihir" dalam LLM sebenarnya berasal dari infrastruktur.
- Sebenarnya saya rasa banyak sihir itu datang dari dataset, khususnya SFT dan data fine-tuning/RLHF lainnya. Itulah yang selama ini membedakan model yang benar-benar dipakai orang dengan yang tidak. Saya sepenuhnya setuju soal pentingnya membangun pengalaman, dan saya juga melihat pembangunan infrastruktur sebagai bagian inti dari rantai pasok LLM yang berdaulat. Tetapi data juga harus mendapat perhatian besar sejak awal agar modelnya benar-benar berguna.
- Untuk melatih LLM SOTA, infrastrukturnya juga menjadi cukup rumit. Banyak orang mengira cukup mengunggah arsitektur dan dataset lalu memakai sesuatu seperti Ray, selesai. Padahal kenyataannya perlu sangat banyak hal: perancangan dataset, pembangunan pipeline evaluasi, metode pelatihan, memaksimalkan efisiensi hardware, latensi antarnode, pemulihan error, dan banyak lagi. Meski begitu, saya rasa bagus jika makin banyak pemain masuk ke bidang ini.
- Saya melihat frasa "from scratch" dan berasumsi mereka melakukan pretraining, bukan fine-tuning. Kalau ada yang punya pandangan lain saya penasaran. Saya juga ingin tahu apakah mereka memakai arsitektur Llama yang umum, dan bagaimana hasil benchmark-nya.
Kalimat menghormati opt-out web crawling hampir tidak menurunkan performa sangat menyenangkan untuk dibaca.
- Walaupun dari metrik pelatihan tampaknya tidak ada penurunan performa, pada akhirnya dari sudut pandang pengguna akhir hasilnya bisa berbeda. Pengguna dan pemilik situs web pada dasarnya punya tujuan yang berbeda. Pengguna menginginkan jawaban dan konten, sementara pemilik situs mengincar iklan atau penjualan tambahan. Pada akhirnya, biasanya hanya salah satu yang bisa dipenuhi.
Saya penasaran apakah ini akan menjadi preseden baru terkait transparansi dataset. Jika terwujud, saya rasa ini perkembangan yang penting. Tapi kalau nama mesinnya dibuat AIps (AI Petaflops Supercomputer), itu akan lebih lucu.
- Model OLMo buatan Allen Institute for Artificial Intelligence juga sepenuhnya terbuka. OLMo is fully open Posisi AI2 adalah bahwa keterbukaan sejati berarti membuka data, model, dan kode sekaligus. Pelajari lebih lanjut tentang OLMo
- Smollm juga, setahu saya, merupakan model yang sepenuhnya terbuka.
Data pelatihan yang terbuka adalah pembeda yang krusial. Saya penasaran apakah ini dataset yang benar-benar terbuka pertama pada skala seperti ini. Upaya sebelumnya seperti The Pile juga berharga, tetapi punya keterbatasan. Saya juga menantikan bagaimana mereka akan menjamin reproduksibilitas pelatihan.
- Dari kalimat "model akan sepenuhnya terbuka: source code dan bobot akan dirilis, data pelatihan transparan dan dapat direproduksi", saya rasa penekanannya lebih pada "dapat direproduksi" daripada seluruh data pelatihan benar-benar dibuka. Mungkin materi rujukan seperti daftar URL halaman yang dipakai dalam pelatihan akan dirilis, tetapi bukan kontennya sendiri.
- Benar, masih ada isu hak cipta tradisional yang ikut terlibat, jadi kemungkinan tidak akan disediakan langsung sebagai dataset yang sudah dikemas.
Inilah yang dimaksud dengan "demokratisasi AI".
Siaran persnya membahas sangat banyak tentang bagaimana mereka membuatnya, tetapi hampir tidak ada informasi tentang kemampuan nyatanya dibanding model terbuka lain.
- Untuk universitas, mengajarkan 'bagaimana cara membuatnya' memang merupakan inti utama, jadi wajar jika fokusnya ada di sana.
- Katanya, model akan dirilis dalam dua versi, 8B (8 miliar) dan 70B (70 miliar), dan versi 70B akan menjadi salah satu model terbuka paling kuat di dunia, dijadwalkan dirilis pada akhir musim panas ini dengan lisensi Apache 2.0. Jadi kita bisa melihatnya sendiri pada bulan September.
Sebagai orang Swiss, saya bangga melihat kabar ini berada di puncak HN. Kedua universitas ini telah melahirkan banyak pendiri startup, peneliti, dan insinyur kelas dunia, tetapi selalu tertutup bayang-bayang AS. Namun, berkat infrastruktur publik yang sangat baik, pendidikan, dan stabilitas politik (+ netralitas), saya rasa mereka bisa menangkap peluang khusus di bidang open LLM.
Dalam artikelnya disebutkan: "open LLM semakin dipandang sebagai alternatif yang tepercaya, sementara sebagian besar sistem komersial dikembangkan secara tertutup di AS atau Tiongkok". Perusahaan-perusahaan yang saat ini membuat LLM besar justru punya insentif untuk menurunkan kualitas demi monetisasi seperti mendorong langganan atau iklan produk. Sebagian bahkan sudah memiliki bias politik. Akan sangat bermakna jika di Eropa ada layanan pencarian/AI untuk kepentingan publik yang dibangun lewat kolaborasi akademisi dan pemerintah, lalu bergerak dengan fokus pada pengguna.
- Tetapi menyediakan layanan seperti itu sendiri sangat rumit. Sekalipun mereka berhasil melatih model yang bagus, penyajian layanan nyatanya tetap akan dilakukan oleh pihak swasta. Jadi secara esensial, tekanan monetisasi tetap ada. Dalam AI, karena biaya operasionalnya besar, kecenderungan ini bisa jadi lebih kuat. Pada akhirnya, jika layanannya gratis maka penggunalah produknya, sehingga nilai harus diekstraksi secara agresif agar tetap menghasilkan keuntungan.
Saya juga ingin segera mencobanya dalam pengujian nyata.
Saya bertanya-tanya kenapa mereka mengumumkannya seperti ini padahal belum dirilis. Menurut saya, perlu bicara terus terang.
- Pengumuman ini disampaikan dalam International Open-Source LLM Builders Summit yang diadakan minggu ini di Swiss. Saya rasa tidak aneh untuk membagikan jadwal dan rencana dalam konteks seperti itu.
- Bisa jadi untuk tujuan pendanaan. Dan juga punya arti dalam menanamkan kuat-kuat di benak pengguna Eropa bahwa ada LLM yang dikembangkan secara publik di Eropa, setidaknya bukan buatan AS atau Tiongkok. (Mungkin justru terlalu logis sampai-sampai bisa saja tidak disetujui di Brussel.)
- Di Swiss, ada klise bahwa kalau melakukan sesuatu, mereka melakukannya dengan sangat santai.

ETH Zurich dan EPFL akan merilis LLM yang dikembangkan di infrastruktur publik

Kolaborasi internasional dan latar belakang pembangunan LLM terbuka

Karakteristik LLM publik baru dan rencana peluncuran

Prinsip keterbukaan penuh dan transparansi

Pendapat para ahli

Desain multibahasa

Skalabilitas dan inklusivitas

Penggunaan data yang bertanggung jawab

Pengembangan berbasis superkomputer dan keberlanjutan

Akses terbuka dan pemanfaatan global

Bacaan terkait

1 komentar

Komentar Hacker News