Apertus, model fondasi terbuka untuk AI berdaulat
(apertvs.ai)- Ekosistem AI Swiss meluncurkan model fondasi buatannya sendiri, Apertus, dengan sasaran AI berdaulat, sambil menonjolkan dasar kolaborasi EPFL, ETH Zurich, dan CSCS
- Pembeda utamanya adalah bobot terbuka, data terbuka, dan sains terbuka, dengan penekanan pada reproduktibilitas melalui dokumentasi data pelatihan, kode, bobot, metodologi, hingga prinsip penyelarasan
- Dari sisi regulasi dan kepercayaan, model ini mempertimbangkan persyaratan EU AI Act, termasuk penghormatan terhadap opt-out, penghapusan PII, dan pencegahan hafalan
- Untuk performa, disebut mampu bersaing dengan model terbuka papan atas di kelas 8B dan 70B parameter, serta dilatih sejak awal dalam lebih dari 1.000 bahasa
- Swisscom berpartisipasi sebagai mitra strategis, dan rilis berikutnya, riset, serta kabar komunitas akan dilanjutkan melalui newsletter
Pihak pengembang dan cakupan keterbukaan
- Apertus adalah model fondasi yang dikembangkan oleh Swiss AI Initiative
- Swiss AI Initiative merupakan kolaborasi antara EPFL, ETH Zurich, dan CSCS
- Cakupan yang dibuka mencakup data pelatihan, kode, bobot, metodologi, dan prinsip penyelarasan
- Elemen yang dibuka didokumentasikan dan diarahkan agar dapat direproduksi
- Apertus menegaskan karakter model terbukanya dengan frasa “Di AI, Open sama dengan Source”
Respons terhadap regulasi dan karakteristik model
- Model ini dibangun untuk memenuhi persyaratan EU AI Act
- Menghormati opt-out
- Menghapus PII
- Mencegah hafalan
- Model ini menonjolkan performa yang mampu bersaing dengan model terbuka papan atas pada skala setara 8B dan 70B parameter
- Dukungan multibahasa disertakan sejak awal, dan model dilatih dalam lebih dari 1.000 bahasa
Kemitraan dan kabar komunitas
- Swisscom adalah mitra strategis Swiss AI Initiative
- Newsletter menyediakan kabar tentang rilis Apertus, riset tim, dan komunitas
1 komentar
Komentar Hacker News
Untuk LLM yang sepenuhnya terbuka, ada juga OLMo 3.1 dari Allen AI dan K2 Think V2 dari MBZUAI, dan keduanya membuka seluruh pipeline pelatihan serta dataset mereka
Nvidia Nemotron juga merupakan model sumber pelatihan terbuka, tetapi sebagian dataset-nya bersifat proprietari
Mengutip komentar dari lambda, model Nemotron umumnya lebih kuat daripada Olmo dan K2 Think V2 (berdasarkan benchmark Artificial Analysis), dan dataset-nya juga banyak tumpang tindih. Banyak dataset dibuat dari sumber yang sama dengan hanya perbedaan pada penyaringannya, dan Olmo serta K2 Think V2 juga memakai sebagian dataset Nemotron
Nemotron adalah LLM yang modern dan cukup mumpuni, dan model 122b-nya juga lebih kuat daripada Deepseek R1 (model 671b) pada sebagian besar benchmark, dan baru-baru ini versi 550b Ultra juga dirilis
https://news.ycombinator.com/item?id=48492439
Jika perusahaan-perusahaan terdepan memilih pendekatan ini, awalnya mungkin akan jauh lebih lambat, tetapi pada 2035 kita mungkin akan berada jauh lebih maju daripada sekarang. Sebaliknya, sekarang sebagian besar masyarakat justru berharap AI gagal
Saya suka idenya, dan kebutuhan bagi semua pihak di luar AS untuk memikirkan kedaulatan teknologi juga makin besar. Karena AS sudah menjadi tempat yang tidak aman untuk menyimpan data
Hanya saja, Apertus terasa bergerak dengan kecepatan komite, jadi saya tidak berharap mereka akan menghasilkan model yang kompetitif. Setidaknya tampaknya sulit bersaing dengan model saat ini, dan mungkin bisa bersaing dengan model dari setahun lalu, tetapi tampaknya itu pun belum tercapai
Secara pribadi saya menyukai pendekatan perlindungan data ala UE, tetapi saya penasaran apakah yang dimaksud adalah wilayah lain atau mekanisme perlindungan lain yang benar-benar bisa menjaga data tetap “aman”
Saya rasa analogi Linux juga tidak cocok di sini. Ini lebih besar dari itu, dan merupakan ancaman langsung terhadap laboratorium riset AI komersial serta model bisnis mereka
Laboratorium-laboratorium ini sudah bertahun-tahun mendaur ulang berbagai makalah dasar yang sama, dan tampaknya masa akhirnya sudah dekat
Ke depan, model open source, data terbuka, dan resep terbuka bisa menjadi pusatnya, dan suatu hari nanti bukan hanya inferensi, tetapi pelatihan pun bisa di-crowdsourcing dengan cara seperti BitTorrent
Terakhir, model-model Tiongkok (GLM, Deepseek, MiMax) juga bekerja sangat baik, dan pengguna model-model itu akan bilang mereka sama sekali tidak merindukan OpenAI/Anthropic/Gemini. Kalau begitu, keberadaan model terbuka seperti ini memberi alasan yang cukup kuat untuk tidak perlu merindukan model Tiongkok juga
Untuk model yang mengklaim fokus pada banyak bahasa, model ini cukup tidak stabil pada pertanyaan sederhana seperti “bagaimana mengatakan X dalam bahasa Y” atau “bagaimana mengonjugasikan verba X dalam bahasa Y”
Ia terus berhalusinasi kata-kata yang tidak ada, dan bahkan setelah dikoreksi, malah membuat kebohongan baru
Sepertinya mereka tidak memasukkan banyak data pelatihan berlabel bahasa
“Bagaimana mengatakan X dalam bahasa Y” adalah tugas yang berbeda dari sekadar mengatakan X dalam bahasa Y
Model instruksi mereka tampak seperti fine-tuning Llama3.1 tahun lalu. Saya penasaran apakah ada kemajuan pada model barunya
Harapan terakhir saya untuk kedaulatan AI ada pada model terbuka dari Tiongkok
Jika ingin mencampur model dengan cara seperti ini, lihat https://github.com/deepbluedynamics/nemesis8
Hasil keluaran paling berpengaruh dari proyek Apretus jelas adalah orang-orangnya. Mengutip kalimat berkesan dari Dominique Paul(https://www.thisiscrispin.com/), hal yang luput dari kebanyakan orang adalah bahwa tim ini bukan tim keempat yang melakukan hal yang sama seperti hampir semua penyedia LLM lain, dan juga bukan tim yang bisa belajar dari pengalaman masa lalunya sendiri
Saya rasa jika tim ini melatih model sekali lagi, biayanya bisa turun menjadi seperempat dan hasilnya akan jauh lebih baik
Lisensinya cukup menarik, tetapi saya tidak tahu siapa yang akan mengikuti pendekatan ini dalam jangka panjang
Data pelatihan dan Apertus LLM dapat memuat atau menghasilkan informasi yang secara langsung maupun tidak langsung merujuk pada individu yang dapat diidentifikasi (data pribadi). Pengguna memproses data pribadi sebagai pengendali independen sesuai hukum perlindungan data yang berlaku
Sebagai pengembang Apertus LLM, SNAI secara berkala menyediakan unduhan berkas hash yang mencerminkan permintaan penghapusan perlindungan data yang telah diterima, dan pengguna dapat menerapkannya sebagai filter output. Ini memungkinkan penghapusan data pribadi yang muncul dalam output model, dan sangat disarankan agar setiap 6 bulan setelah rilis model, filter output ini diunduh dari SNAI dan diterapkan
Versi sebelumnya dari model ini cukup buruk, tetapi mereka mengklaim mematuhi hukum hak cipta. Namun setelah saya uji sendiri, itu juga ternyata tidak benar, jadi menurut saya model ini sama sekali tidak berguna
Model yang sepenuhnya terbuka: bobot terbuka + data terbuka + seluruh detail pelatihan termasuk semua data dan resep pelatihan
Saya penasaran bagaimana pandangan komunitas terhadap kedaulatan AI yang didanai oleh negara-negara di seluruh dunia
Mengapa harus menekankan “kedaulatan”? Bukankah terbuka saja sudah cukup?