1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Status GitHub adalah Open, dan README pada a778c1ec4e21180ee55c3ea016a348e549e75f09 menyebut model tersebut dibuat dari penggabungan Nex-N2-Pro dan Qwen3.5-397B-A17B, telah melalui On-Policy Distillation dari model yang lebih kuat, dan pada versi sebelumnya base merged version sempat salah diunggah alih-alih model distilled final
  • Pokok persoalan yang diangkat adalah bahwa prefeitura-rio/Rio-3.5-Open-397B dipresentasikan sebagai original 397B model yang dilatih oleh IplanRIO, tetapi bobotnya merupakan penggabungan langsung elemen per elemen sekitar 0.6/0.4 antara Nex dan Qwen, tanpa bukti adanya pelatihan mandiri
  • Setelah system prompt “You are Rio” yang di-hardcode dihapus dan 120 pertanyaan identitas dikirim ke rio-397b, hasil pengukuran menunjukkan respons Nex 79.2% (95/120), respons Nex-AGI 73.3% (88/120), dan respons Rio 0.0% (0/120)
  • Contoh respons setelah prompt dihapus mencakup “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance”, dan “Shanghai Innovation Institute”, yang disebut hampir mereproduksi mentah-mentah penjelasan organisasi dalam data identitas Nex
  • Analisis bobot mengukur hubungan (Rio − Qwen) = α × (Nex − Qwen) per tensor, lalu membandingkan collinearity dengan patokan cos_fit bernilai ≈ 0 pada model independen dan ≈ 1 pada model hasil penggabungan
  • Nilai pengukuran yang dilaporkan adalah pada routed experts α = 0.571 ± 0.0016, cos_fit = 0.993; pada lm_head α = 0.574, cos_fit = 0.991; pada attention α ≈ 0.585, cos_fit ≈ 0.986; dan pada linear-attention projections α ≈ 0.586, cos_fit ≈ 0.984
  • Setelah perubahan README dibagikan, 00INDEX menanyakan apakah credit tersebut berarti diperbarui satu jam sebelumnya, sementara yhcc merespons agar melihat dulu apakah model akan diunggah keesokan harinya
  • Soal ada tidaknya dana publik kemudian menjadi isu terpisah; satu komentar membagikan tautan X yang bertuliskan “No public funds were used”, komentar lain menyertakan tautan X berisi pernyataan wali kota, dan kemudian gambar kutipan menampilkan kalimat “no public money was spent on this model training”

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Saya tidak punya keterkaitan, tetapi menurut saya yang terjadi kurang lebih begini: 1) model resminya diklaim berbasis Qwen 397B, dan kemungkinan Nex juga memakai model dasar yang sama sehingga besar kemungkinan mereka sama sekali tidak merilis Nex Pro 2) peningkatannya kemungkinan berasal dari penambahan distilasi on-policy pada penggabungan bobot, tetapi model yang diunggah sama sekali tidak menunjukkan adanya distilasi sehingga menimbulkan kebingungan
    3) model ini tidak dipromosikan selain lewat unggahan Reddit dua hari sebelumnya, lalu menyebar secara alami karena bertepatan dengan pertandingan pertama Piala Dunia Brasil pada akhir pekan. Wali Kota Rio memang memanfaatkan eksposur gratis itu, tetapi itu bukan sesuatu yang dilakukan bersama tim peneliti
    4) jika memang hanya menggabungkan dua model, rasanya tidak ada alasan untuk menyembunyikan Nex sambil merilisnya sebagai model berbasis Qwen 397B dan bahkan menyebut makalah SwiReasoning
    5) bagaimanapun, klaim ini bisa dengan mudah diverifikasi jika mereka mengunggah model yang benar

    • Untuk poin 2, ada https://news.ycombinator.com/item?id=48529544
    • Saya benar-benar tidak pernah menyangka akan melihat judul LLM buatan Rio de Janeiro sendiri di HN, jadi fakta bahwa ini terjadi saja sudah mengejutkan
    • Jika model dasarnya digabung dengan model hasil fine-tuning dari lab lain, peningkatannya mungkin berasal dari sebagian bobot hasil fine-tuning model lain itu
      Jika benar mereka “tidak sengaja” gagal mengunggah model yang performanya lebih baik, seharusnya sekarang mereka sudah sempat mengunggah file yang benar
    • Saya tidak paham maksud debut Piala Dunia. Brasil bukannya sudah juara 5 kali?
    • Sepemahaman saya, mereka sama sekali tidak melakukan distilasi, dan semua bobot adalah rata-rata elemen demi elemen 60/40 antara Qwen dan Nex
      Kalau kontraktor Rio benar-benar melakukan post-training sendiri seperti yang diklaim, saya ragu ini mungkin terjadi: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • Bagian yang mengatakan “semua tensor bobot Rio setara dengan campuran 0.6/0.4 Nex dan Qwen hingga tingkat ribuan deviasi standar, dan itu berlaku di 60 layer serta seluruh komponen jaringan. Fine-tuning lain tidak bisa dijelaskan dengan interpolasi” menunjukkan betapa mengejutkannya ketahanan model deep learning belakangan ini
    Artinya semua bobot hanya digabung secara linear sederhana, tetapi performanya tidak rusak, malah meningkat

    • Di beberapa benchmark, bisa dibilang memang membaik
      Pada akhirnya ini seperti permainan memutar-mutar kenop sampai muncul satu hasil benchmark yang lebih bagus lalu langsung dirilis. Di HuggingFace ada banyak model fine-tuning dan model chimera yang lebih baik pada pengujian tertentu, tetapi biasanya justru lebih buruk untuk penggunaan lain
      Hal seperti ini juga sering terjadi pada model yang dimodifikasi untuk menghapus sensor. Memang berhasil membuatnya mengeluarkan keluaran yang sebelumnya disensor, tetapi kualitas keluaran secara keseluruhan menurun
    • Ini bisa terjadi karena Nex sendiri adalah versi fine-tuning Qwen3.5: https://huggingface.co/nex-agi/Nex-N2-Pro
      Saya rasa cara ini tidak akan bekerja untuk dua LLM dengan pra-pelatihan yang berbeda. Kalaupun bisa, bentuk aktivasi internal, dimensi, jumlah expert, dan kosakata tokennya harus persis sama, jadi secara realistis hal seperti ini hampir tidak mungkin terjadi di luar fine-tuning atau eksperimen akademik
    • Ini disebut linear mode connectivity, dan tampaknya bekerja pada hampir semua model besar
      Hasilnya begitu bagus sampai dalam banyak kasus menjadi bagian eksplisit dari proses pelatihan. Misalnya membuat beberapa cabang pelatihan, menggabungkannya, lalu melanjutkan pelatihan
      Mengapa ini bisa bekerja sebaik itu masih belum dipahami
    • Ini memang ide yang sudah dikenal: https://arxiv.org/abs/2203.05482
      Meski begitu, tetap mengejutkan bahwa pendekatan sesederhana ini bisa berhasil
    • Menarik membayangkan mungkin ada kumpulan penyesuaian “rahasia” yang, bila diterapkan pada bobot itu atau pada model yang lebih kecil, bisa menghasilkan simulasi kecerdasan yang jauh lebih unggul daripada hal seperti Fable
  • Pemerintah Kota Rio de Janeiro melalui perusahaan IT IplanRIO merilis Rio-3.5-Open-397B, dan memperkenalkannya sebagai model fine-tuning Qwen3.5 buatan sendiri yang mengalahkan model terbuka serupa dalam benchmark
    Isu yang ditautkan menilai bahwa ini sebenarnya adalah penggabungan bobot sekitar 60% Nex-N2 Pro + 40% Qwen3.5-397B-A17B, termasuk Nex-N2 yang dirilis sekitar seminggu lebih awal

    • Saya tidak tahu bahwa model merging seperti ini memungkinkan. Dari sudut pandang perangkat lunak murni tentu masuk akal, tetapi mengejutkan bahwa ini efektif
    • Jadi masalahnya bukan tidak mencantumkan asal Qwen, melainkan tidak menyebut Nex-N2 Pro?
    • Jika Rio menghabiskan waktu untuk LLM, mereka seharusnya sudah memiliki infrastruktur TI dan perangkat lunak kelas dunia
      Terlihat seperti pemborosan pajak
  • Seseorang mendapat keuntungan dari pekerjaan orang lain tanpa atribusi yang benar, siapa sangka hal seperti ini bisa terjadi!

    • Ini adalah model bobot terbuka yang dibangun di atas model bobot terbuka lain
      Inti kontroversinya adalah bahwa mereka merilisnya sambil mengklaim telah melakukan post-training yang meningkatkan hasil. Ternyata model itu sebenarnya bukan model yang telah dipost-training seperti klaim mereka
      Sekarang halaman HuggingFace-nya memang menyebut model merge, tetapi sebelumnya tidak. Mereka mencoba mengklaim bahwa mereka keliru mengunggah model yang salah ke HuggingFace dan sebentar lagi akan mengunggah model yang asli
      Singkatnya, mereka tampaknya berpikir bisa saja menyambung dua model bobot terbuka lalu mengklaim tim mereka mencapai hasil post-training yang luar biasa, tanpa menyadari bahwa peneliti lain cukup pintar untuk mengetahui bahwa tidak ada post-training sama sekali
    • Yang penting bukan atribusinya, melainkan berbohong soal kemampuan lembaga riset
    • Saya penasaran bagaimana orang menilai pemerintah atau kontraktor pemerintah yang mengatakan telah melakukan banyak pekerjaan padahal sebenarnya tidak melakukan apa-apa
    • Ini adalah penipuan murni dengan uang pajak. Mau berharap apa lagi?
    • Sulit menyebutnya sebagai “pekerjaan mereka”, karena 99,99% pekerjaan lebih dulu dilakukan oleh pembuat konten asli, lalu perusahaan-perusahaan AS merangkainya menjadi LLM mutakhir, dan “mereka” hanya melakukan “pekerjaan” membuat model sendiri berdasarkan model AS itu
      Kalau maksudnya mereka melakukan 0,00001% dari pekerjaan yang masuk ke produk akhir, ya mungkin benar
      Ini lebih mirip seperti mem-fork distribusi Linux, menambahkan beberapa tema dan font, lalu seseorang lain mem-fork distribusi itu lagi dan menambahkan tema lain, lalu mengeluh soal itu
  • Pola tidak merilis model hasil penggabungan lalu rebranding sebagai “dikembangkan sendiri” cukup mengkhawatirkan
    Ini merusak kepercayaan terhadap pengembangan AI sumber terbuka, jadi publikasi model membutuhkan pelacakan asal-usul yang lebih baik dan standar transparansi yang lebih jelas

  • Akan bagus jika ada penjelasan atau tautan referensi tentang bagaimana penggabungan model dilakukan
    Saya penasaran apakah ini benar-benar penggabungan bobot secara matematis, atau metode seperti distilasi. Jika memang sama sekali tidak ada pelatihan seperti yang disebut di artikel, sepertinya ini bukan distilasi

    • Sebagai titik awal, dokumen ini cukup bagus: https://huggingface.co/docs/peft/developer_guides/model_merg...
      Secara umum, penggabungan berarti teknik mencampur bobot model yang berbeda secara matematis secara langsung. Ini sangat populer sekitar 2 tahun lalu, dan banyak Frankenmodel bermunculan di papan peringkat
      Secara pribadi, saya melihat penggabungan berada dalam kategori yang sama dengan hal-hal seperti “abliteration”. Keduanya adalah teknik memodifikasi bobot model secara bedah tanpa loop pelatihan/penyetelan tradisional. Jika tertarik pada bidang ini, Maxime Labonne layak diikuti
    • Tidak banyak yang perlu dibaca
      Model A: A_1, …, A_n
      Model B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      Artinya, ini hanyalah kombinasi linear bobot dari model-model berbeda pada tiap posisi
  • Fakta bahwa mereka bahkan mencoba membuat model sejak awal sudah cukup mengejutkan
    Meski begitu, mungkin ini tetap sinyal positif bahwa divisi TI pemerintah kota punya keberanian untuk mencoba hal seperti ini

    • Penggabungan dan fine-tuning ada di tingkat yang bahkan bisa dilakukan individu yang mau membakar sedikit uang, jadi pemerintah daerah pun sangat mungkin melakukannya
    • Seperti hipotesis di komentar yang sudah terkubur, kemungkinan yang lebih masuk akal adalah mereka mengajukan anggaran pelatihan LLM yang besar ke pemerintah, mengambil sebagian besar uangnya, lalu merilis model gabungan murah untuk membenarkan penggelapan tersebut
  • “Begini, Steve(Jobs), saya rasa situasinya lebih mirip kita berdua sama-sama punya tetangga kaya bernama Xerox, dan ketika saya masuk untuk mencuri TV, ternyata Anda sudah lebih dulu mengambilnya.”
    — Bill Gates

    • Bagian awal kutipan itu malah lebih lucu: “Bill Gates entah bagaimana muncul sendirian dan dikelilingi 10 karyawan Apple. … Steve mulai berteriak kepada Bill, menanyakan kenapa dia melanggar perjanjian.”
      Akhirnya malah lebih menarik: “Apple mengajukan gugatan hak cipta besar terhadap Microsoft pada 1988, tetapi pada akhirnya kalah karena alasan teknis. Hakim memutuskan bahwa Apple secara ceroboh telah memberikan lisensi permanen kepada Microsoft atas antarmuka pengguna Mac pada November 1985.”
      Jadi bukan Microsoft yang mencuri GUI Apple, melainkan Apple yang menyerahkannya
    • Andai ini benar-benar kutipan asli. Keras sekali