1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Ekosistem AI Swiss meluncurkan model fondasi buatannya sendiri, Apertus, dengan sasaran AI berdaulat, sambil menonjolkan dasar kolaborasi EPFL, ETH Zurich, dan CSCS
  • Pembeda utamanya adalah bobot terbuka, data terbuka, dan sains terbuka, dengan penekanan pada reproduktibilitas melalui dokumentasi data pelatihan, kode, bobot, metodologi, hingga prinsip penyelarasan
  • Dari sisi regulasi dan kepercayaan, model ini mempertimbangkan persyaratan EU AI Act, termasuk penghormatan terhadap opt-out, penghapusan PII, dan pencegahan hafalan
  • Untuk performa, disebut mampu bersaing dengan model terbuka papan atas di kelas 8B dan 70B parameter, serta dilatih sejak awal dalam lebih dari 1.000 bahasa
  • Swisscom berpartisipasi sebagai mitra strategis, dan rilis berikutnya, riset, serta kabar komunitas akan dilanjutkan melalui newsletter

Pihak pengembang dan cakupan keterbukaan

  • Apertus adalah model fondasi yang dikembangkan oleh Swiss AI Initiative
  • Cakupan yang dibuka mencakup data pelatihan, kode, bobot, metodologi, dan prinsip penyelarasan
  • Elemen yang dibuka didokumentasikan dan diarahkan agar dapat direproduksi
  • Apertus menegaskan karakter model terbukanya dengan frasa “Di AI, Open sama dengan Source”

Respons terhadap regulasi dan karakteristik model

  • Model ini dibangun untuk memenuhi persyaratan EU AI Act
    • Menghormati opt-out
    • Menghapus PII
    • Mencegah hafalan
  • Model ini menonjolkan performa yang mampu bersaing dengan model terbuka papan atas pada skala setara 8B dan 70B parameter
  • Dukungan multibahasa disertakan sejak awal, dan model dilatih dalam lebih dari 1.000 bahasa

Kemitraan dan kabar komunitas

  • Swisscom adalah mitra strategis Swiss AI Initiative
  • Newsletter menyediakan kabar tentang rilis Apertus, riset tim, dan komunitas

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Untuk LLM yang sepenuhnya terbuka, ada juga OLMo 3.1 dari Allen AI dan K2 Think V2 dari MBZUAI, dan keduanya membuka seluruh pipeline pelatihan serta dataset mereka
    Nvidia Nemotron juga merupakan model sumber pelatihan terbuka, tetapi sebagian dataset-nya bersifat proprietari
    Mengutip komentar dari lambda, model Nemotron umumnya lebih kuat daripada Olmo dan K2 Think V2 (berdasarkan benchmark Artificial Analysis), dan dataset-nya juga banyak tumpang tindih. Banyak dataset dibuat dari sumber yang sama dengan hanya perbedaan pada penyaringannya, dan Olmo serta K2 Think V2 juga memakai sebagian dataset Nemotron
    Nemotron adalah LLM yang modern dan cukup mumpuni, dan model 122b-nya juga lebih kuat daripada Deepseek R1 (model 671b) pada sebagian besar benchmark, dan baru-baru ini versi 550b Ultra juga dirilis
    https://news.ycombinator.com/item?id=48492439

    • Allen AI belum mendapat perhatian yang cukup. Menurut saya, AI generatif sejak awal seharusnya dibangun dengan cara seperti ini
      Jika perusahaan-perusahaan terdepan memilih pendekatan ini, awalnya mungkin akan jauh lebih lambat, tetapi pada 2035 kita mungkin akan berada jauh lebih maju daripada sekarang. Sebaliknya, sekarang sebagian besar masyarakat justru berharap AI gagal
    • Saya jadi ingin mencoba Nemotron lagi. Kemarin saya memakai model terbarunya di OpenRouter dan hasilnya kurang bagus, bahkan lebih buruk daripada StepFun
  • Saya suka idenya, dan kebutuhan bagi semua pihak di luar AS untuk memikirkan kedaulatan teknologi juga makin besar. Karena AS sudah menjadi tempat yang tidak aman untuk menyimpan data
    Hanya saja, Apertus terasa bergerak dengan kecepatan komite, jadi saya tidak berharap mereka akan menghasilkan model yang kompetitif. Setidaknya tampaknya sulit bersaing dengan model saat ini, dan mungkin bisa bersaing dengan model dari setahun lalu, tetapi tampaknya itu pun belum tercapai

    • Saya setuju dengan pernyataan bahwa “AS sudah menjadi tempat yang tidak aman untuk menyimpan data”, tetapi saya penasaran mengapa negara lain dianggap sebagai suaka data yang lebih baik
      Secara pribadi saya menyukai pendekatan perlindungan data ala UE, tetapi saya penasaran apakah yang dimaksud adalah wilayah lain atau mekanisme perlindungan lain yang benar-benar bisa menjaga data tetap “aman”
  • Saya rasa analogi Linux juga tidak cocok di sini. Ini lebih besar dari itu, dan merupakan ancaman langsung terhadap laboratorium riset AI komersial serta model bisnis mereka
    Laboratorium-laboratorium ini sudah bertahun-tahun mendaur ulang berbagai makalah dasar yang sama, dan tampaknya masa akhirnya sudah dekat
    Ke depan, model open source, data terbuka, dan resep terbuka bisa menjadi pusatnya, dan suatu hari nanti bukan hanya inferensi, tetapi pelatihan pun bisa di-crowdsourcing dengan cara seperti BitTorrent
    Terakhir, model-model Tiongkok (GLM, Deepseek, MiMax) juga bekerja sangat baik, dan pengguna model-model itu akan bilang mereka sama sekali tidak merindukan OpenAI/Anthropic/Gemini. Kalau begitu, keberadaan model terbuka seperti ini memberi alasan yang cukup kuat untuk tidak perlu merindukan model Tiongkok juga

  • Untuk model yang mengklaim fokus pada banyak bahasa, model ini cukup tidak stabil pada pertanyaan sederhana seperti “bagaimana mengatakan X dalam bahasa Y” atau “bagaimana mengonjugasikan verba X dalam bahasa Y”
    Ia terus berhalusinasi kata-kata yang tidak ada, dan bahkan setelah dikoreksi, malah membuat kebohongan baru

    • Kemungkinan besar model itu tidak tahu bahwa tiap kumpulan kata merujuk ke bahasa tertentu
      Sepertinya mereka tidak memasukkan banyak data pelatihan berlabel bahasa
      “Bagaimana mengatakan X dalam bahasa Y” adalah tugas yang berbeda dari sekadar mengatakan X dalam bahasa Y
  • Model instruksi mereka tampak seperti fine-tuning Llama3.1 tahun lalu. Saya penasaran apakah ada kemajuan pada model barunya
    Harapan terakhir saya untuk kedaulatan AI ada pada model terbuka dari Tiongkok

    • Kedaulatan AI bukan soal memakai hanya satu model. Ini soal memakai model yang sesuai untuk tugasnya, dan membuat beberapa model mendiskusikan solusi bersama sebelum memberi jawaban
      Jika ingin mencampur model dengan cara seperti ini, lihat https://github.com/deepbluedynamics/nemesis8
  • Hasil keluaran paling berpengaruh dari proyek Apretus jelas adalah orang-orangnya. Mengutip kalimat berkesan dari Dominique Paul(https://www.thisiscrispin.com/), hal yang luput dari kebanyakan orang adalah bahwa tim ini bukan tim keempat yang melakukan hal yang sama seperti hampir semua penyedia LLM lain, dan juga bukan tim yang bisa belajar dari pengalaman masa lalunya sendiri
    Saya rasa jika tim ini melatih model sekali lagi, biayanya bisa turun menjadi seperempat dan hasilnya akan jauh lebih baik

  • Lisensinya cukup menarik, tetapi saya tidak tahu siapa yang akan mengikuti pendekatan ini dalam jangka panjang
    Data pelatihan dan Apertus LLM dapat memuat atau menghasilkan informasi yang secara langsung maupun tidak langsung merujuk pada individu yang dapat diidentifikasi (data pribadi). Pengguna memproses data pribadi sebagai pengendali independen sesuai hukum perlindungan data yang berlaku
    Sebagai pengembang Apertus LLM, SNAI secara berkala menyediakan unduhan berkas hash yang mencerminkan permintaan penghapusan perlindungan data yang telah diterima, dan pengguna dapat menerapkannya sebagai filter output. Ini memungkinkan penghapusan data pribadi yang muncul dalam output model, dan sangat disarankan agar setiap 6 bulan setelah rilis model, filter output ini diunduh dari SNAI dan diterapkan

  • Versi sebelumnya dari model ini cukup buruk, tetapi mereka mengklaim mematuhi hukum hak cipta. Namun setelah saya uji sendiri, itu juga ternyata tidak benar, jadi menurut saya model ini sama sekali tidak berguna

    • Selama syarat berikut ini benar, rilis ini memberi kontribusi yang lebih besar bagi sains secara keseluruhan dibanding sebagian besar model yang dilatih “di balik pintu tertutup”
      Model yang sepenuhnya terbuka: bobot terbuka + data terbuka + seluruh detail pelatihan termasuk semua data dan resep pelatihan
    • Mereka memakai fineweb, yang diturunkan dari Common Crawl, dan Common Crawl mengumpulkan halaman web tanpa izin
    • Saya penasaran bagaimana Anda mengujinya. Bisa dijelaskan? Apakah Anda punya kumpulan fakta terpisah yang seharusnya dilindungi hak cipta, lalu memeriksa apakah model itu entah bagaimana menghasilkan keseluruhan karya secara verbatim?
  • Saya penasaran bagaimana pandangan komunitas terhadap kedaulatan AI yang didanai oleh negara-negara di seluruh dunia
    Mengapa harus menekankan “kedaulatan”? Bukankah terbuka saja sudah cukup?