LLM “dikembangkan sendiri” milik Rio de Janeiro tampaknya merupakan gabungan dari model yang sudah ada
(github.com/nex-agi)- Status GitHub adalah Open, dan README pada a778c1ec4e21180ee55c3ea016a348e549e75f09 menyebut model tersebut dibuat dari penggabungan
Nex-N2-ProdanQwen3.5-397B-A17B, telah melalui On-Policy Distillation dari model yang lebih kuat, dan pada versi sebelumnya base merged version sempat salah diunggah alih-alih model distilled final - Pokok persoalan yang diangkat adalah bahwa
prefeitura-rio/Rio-3.5-Open-397Bdipresentasikan sebagai original 397B model yang dilatih oleh IplanRIO, tetapi bobotnya merupakan penggabungan langsung elemen per elemen sekitar 0.6/0.4 antara Nex dan Qwen, tanpa bukti adanya pelatihan mandiri - Setelah system prompt “You are Rio” yang di-hardcode dihapus dan 120 pertanyaan identitas dikirim ke
rio-397b, hasil pengukuran menunjukkan responsNex79.2%(95/120), responsNex-AGI73.3%(88/120), dan responsRio0.0%(0/120) - Contoh respons setelah prompt dihapus mencakup “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance”, dan “Shanghai Innovation Institute”, yang disebut hampir mereproduksi mentah-mentah penjelasan organisasi dalam data identitas Nex
- Analisis bobot mengukur hubungan
(Rio − Qwen) = α × (Nex − Qwen)per tensor, lalu membandingkan collinearity dengan patokancos_fitbernilai≈ 0pada model independen dan≈ 1pada model hasil penggabungan - Nilai pengukuran yang dilaporkan adalah pada routed experts
α = 0.571 ± 0.0016,cos_fit = 0.993; padalm_headα = 0.574,cos_fit = 0.991; pada attentionα ≈ 0.585,cos_fit ≈ 0.986; dan pada linear-attention projectionsα ≈ 0.586,cos_fit ≈ 0.984 - Setelah perubahan README dibagikan, 00INDEX menanyakan apakah credit tersebut berarti diperbarui satu jam sebelumnya, sementara yhcc merespons agar melihat dulu apakah model akan diunggah keesokan harinya
- Soal ada tidaknya dana publik kemudian menjadi isu terpisah; satu komentar membagikan tautan X yang bertuliskan “No public funds were used”, komentar lain menyertakan tautan X berisi pernyataan wali kota, dan kemudian gambar kutipan menampilkan kalimat “no public money was spent on this model training”
1 komentar
Komentar Hacker News
Saya tidak punya keterkaitan, tetapi menurut saya yang terjadi kurang lebih begini: 1) model resminya diklaim berbasis Qwen 397B, dan kemungkinan Nex juga memakai model dasar yang sama sehingga besar kemungkinan mereka sama sekali tidak merilis Nex Pro 2) peningkatannya kemungkinan berasal dari penambahan distilasi on-policy pada penggabungan bobot, tetapi model yang diunggah sama sekali tidak menunjukkan adanya distilasi sehingga menimbulkan kebingungan
3) model ini tidak dipromosikan selain lewat unggahan Reddit dua hari sebelumnya, lalu menyebar secara alami karena bertepatan dengan pertandingan pertama Piala Dunia Brasil pada akhir pekan. Wali Kota Rio memang memanfaatkan eksposur gratis itu, tetapi itu bukan sesuatu yang dilakukan bersama tim peneliti
4) jika memang hanya menggabungkan dua model, rasanya tidak ada alasan untuk menyembunyikan Nex sambil merilisnya sebagai model berbasis Qwen 397B dan bahkan menyebut makalah SwiReasoning
5) bagaimanapun, klaim ini bisa dengan mudah diverifikasi jika mereka mengunggah model yang benar
Jika benar mereka “tidak sengaja” gagal mengunggah model yang performanya lebih baik, seharusnya sekarang mereka sudah sempat mengunggah file yang benar
Kalau kontraktor Rio benar-benar melakukan post-training sendiri seperti yang diklaim, saya ragu ini mungkin terjadi: https://x.com/tenobrus/status/2066243352211996728/photo/1
Bagian yang mengatakan “semua tensor bobot Rio setara dengan campuran 0.6/0.4 Nex dan Qwen hingga tingkat ribuan deviasi standar, dan itu berlaku di 60 layer serta seluruh komponen jaringan. Fine-tuning lain tidak bisa dijelaskan dengan interpolasi” menunjukkan betapa mengejutkannya ketahanan model deep learning belakangan ini
Artinya semua bobot hanya digabung secara linear sederhana, tetapi performanya tidak rusak, malah meningkat
Pada akhirnya ini seperti permainan memutar-mutar kenop sampai muncul satu hasil benchmark yang lebih bagus lalu langsung dirilis. Di HuggingFace ada banyak model fine-tuning dan model chimera yang lebih baik pada pengujian tertentu, tetapi biasanya justru lebih buruk untuk penggunaan lain
Hal seperti ini juga sering terjadi pada model yang dimodifikasi untuk menghapus sensor. Memang berhasil membuatnya mengeluarkan keluaran yang sebelumnya disensor, tetapi kualitas keluaran secara keseluruhan menurun
Saya rasa cara ini tidak akan bekerja untuk dua LLM dengan pra-pelatihan yang berbeda. Kalaupun bisa, bentuk aktivasi internal, dimensi, jumlah expert, dan kosakata tokennya harus persis sama, jadi secara realistis hal seperti ini hampir tidak mungkin terjadi di luar fine-tuning atau eksperimen akademik
Hasilnya begitu bagus sampai dalam banyak kasus menjadi bagian eksplisit dari proses pelatihan. Misalnya membuat beberapa cabang pelatihan, menggabungkannya, lalu melanjutkan pelatihan
Mengapa ini bisa bekerja sebaik itu masih belum dipahami
Meski begitu, tetap mengejutkan bahwa pendekatan sesederhana ini bisa berhasil
Pemerintah Kota Rio de Janeiro melalui perusahaan IT IplanRIO merilis Rio-3.5-Open-397B, dan memperkenalkannya sebagai model fine-tuning Qwen3.5 buatan sendiri yang mengalahkan model terbuka serupa dalam benchmark
Isu yang ditautkan menilai bahwa ini sebenarnya adalah penggabungan bobot sekitar 60% Nex-N2 Pro + 40% Qwen3.5-397B-A17B, termasuk Nex-N2 yang dirilis sekitar seminggu lebih awal
Terlihat seperti pemborosan pajak
Seseorang mendapat keuntungan dari pekerjaan orang lain tanpa atribusi yang benar, siapa sangka hal seperti ini bisa terjadi!
Inti kontroversinya adalah bahwa mereka merilisnya sambil mengklaim telah melakukan post-training yang meningkatkan hasil. Ternyata model itu sebenarnya bukan model yang telah dipost-training seperti klaim mereka
Sekarang halaman HuggingFace-nya memang menyebut model merge, tetapi sebelumnya tidak. Mereka mencoba mengklaim bahwa mereka keliru mengunggah model yang salah ke HuggingFace dan sebentar lagi akan mengunggah model yang asli
Singkatnya, mereka tampaknya berpikir bisa saja menyambung dua model bobot terbuka lalu mengklaim tim mereka mencapai hasil post-training yang luar biasa, tanpa menyadari bahwa peneliti lain cukup pintar untuk mengetahui bahwa tidak ada post-training sama sekali
Kalau maksudnya mereka melakukan 0,00001% dari pekerjaan yang masuk ke produk akhir, ya mungkin benar
Ini lebih mirip seperti mem-fork distribusi Linux, menambahkan beberapa tema dan font, lalu seseorang lain mem-fork distribusi itu lagi dan menambahkan tema lain, lalu mengeluh soal itu
Pola tidak merilis model hasil penggabungan lalu rebranding sebagai “dikembangkan sendiri” cukup mengkhawatirkan
Ini merusak kepercayaan terhadap pengembangan AI sumber terbuka, jadi publikasi model membutuhkan pelacakan asal-usul yang lebih baik dan standar transparansi yang lebih jelas
Akan bagus jika ada penjelasan atau tautan referensi tentang bagaimana penggabungan model dilakukan
Saya penasaran apakah ini benar-benar penggabungan bobot secara matematis, atau metode seperti distilasi. Jika memang sama sekali tidak ada pelatihan seperti yang disebut di artikel, sepertinya ini bukan distilasi
Secara umum, penggabungan berarti teknik mencampur bobot model yang berbeda secara matematis secara langsung. Ini sangat populer sekitar 2 tahun lalu, dan banyak Frankenmodel bermunculan di papan peringkat
Secara pribadi, saya melihat penggabungan berada dalam kategori yang sama dengan hal-hal seperti “abliteration”. Keduanya adalah teknik memodifikasi bobot model secara bedah tanpa loop pelatihan/penyetelan tradisional. Jika tertarik pada bidang ini, Maxime Labonne layak diikuti
Model A: A_1, …, A_n
Model B: B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
Artinya, ini hanyalah kombinasi linear bobot dari model-model berbeda pada tiap posisi
Fakta bahwa mereka bahkan mencoba membuat model sejak awal sudah cukup mengejutkan
Meski begitu, mungkin ini tetap sinyal positif bahwa divisi TI pemerintah kota punya keberanian untuk mencoba hal seperti ini
“Begini, Steve(Jobs), saya rasa situasinya lebih mirip kita berdua sama-sama punya tetangga kaya bernama Xerox, dan ketika saya masuk untuk mencuri TV, ternyata Anda sudah lebih dulu mengambilnya.”
— Bill Gates
Akhirnya malah lebih menarik: “Apple mengajukan gugatan hak cipta besar terhadap Microsoft pada 1988, tetapi pada akhirnya kalah karena alasan teknis. Hakim memutuskan bahwa Apple secara ceroboh telah memberikan lisensi permanen kepada Microsoft atas antarmuka pengguna Mac pada November 1985.”
Jadi bukan Microsoft yang mencuri GUI Apple, melainkan Apple yang menyerahkannya