- Model open-weights Kimi K2.6 dari Moonshot AI menjuarai AI Coding Contest Day 12 pada Word Gem Puzzle dengan 22 match point dan rekor 7-1-0
- MiMo V2-Pro dari Xiaomi finis di posisi kedua dengan 20 poin, ChatGPT GPT-5.5 di posisi ketiga dengan 16 poin, GLM 5.1 di posisi keempat dengan 15 poin, dan Claude Opus 4.7 di posisi kelima dengan 12 poin; model dari Anthropic, OpenAI, Google, dan xAI semuanya berada di bawah dua model teratas
- Word Gem Puzzle adalah puzzle huruf sliding tile dari 10×10 hingga 30×30; kata di bawah 7 huruf mendapat penalti, kata 7 huruf atau lebih dihitung
panjang - 6 poin, dan tiap pasangan model memainkan 5 ronde per ukuran grid dengan batas waktu 10 detik
- Kimi K2.6 mencetak total 77 poin dengan sliding rakus yang berulang kali memilih langkah yang membuka kata bernilai positif, sementara MiMo V2-Pro tidak benar-benar melakukan slide dan hanya mengirim semua kata 7 huruf atau lebih dari grid awal sekaligus untuk finis kedua dengan total 43 poin
- Hasil ini bukan berarti satu puzzle membalikkan benchmark umum, tetapi model yang bisa diunduh seperti Kimi K2.6 kini mempersempit persaingan karena mencatat 54 poin di Artificial Analysis Intelligence Index, mendekati GPT-5.5 dengan 60 poin dan Claude dengan 57 poin
Susunan kompetisi dan model peserta
- GLM 5.1 dari Zhipu AI finis di posisi keempat, sementara DeepSeek V4 hanya di posisi kedelapan
- Kode yang dibuat Nemotron Super 3 dari Nvidia mengandung error sintaks dan gagal terhubung ke server game, sehingga kompetisi sebenarnya berlangsung dengan 9 model
- Kimi K2.6 adalah model open-weights yang tersedia untuk penggunaan publik dari startup Tiongkok Moonshot AI yang didirikan pada 2023, sementara MiMo V2-Pro saat ini hanya tersedia lewat API
- Xiaomi mengonfirmasi bahwa bobot model V2.5 Pro yang lebih baru akan segera dirilis
- Hasil kali ini tidak sekadar bisa diringkas sebagai “Tiongkok mengalahkan Barat”, melainkan sebagai kemenangan dua model spesifik: Kimi K2.6 dan MiMo V2-Pro
Aturan Word Gem Puzzle
- Word Gem Puzzle adalah puzzle huruf sliding tile yang dimainkan di grid persegi panjang berisi tile huruf dan satu ruang kosong
- Ukuran grid bisa berupa 10×10, 15×15, 20×20, 25×25, atau 30×30, dan bot dapat mendorong tile yang bersebelahan ke ruang kosong
- Bot dapat mengirim kata bahasa Inggris yang valid kapan saja jika terbentuk dalam garis lurus horizontal atau vertikal
- Kata diagonal dan kata terbalik tidak dihitung
- Sistem skor dirancang untuk memberi imbalan pada kata panjang dan penalti pada kata pendek
- Kata di bawah 7 huruf kehilangan poin
- Kata 5 huruf mengurangi 1 poin, kata 3 huruf mengurangi 3 poin
- Kata 7 huruf atau lebih dihitung
panjang - 6 poin, sehingga kata 8 huruf bernilai 2 poin
- Kata yang sama hanya bisa dikirim sekali, dan kata yang lebih dulu dikirim bot lain tidak menghasilkan poin
- Setiap pasangan model memainkan total 5 ronde, masing-masing satu ronde untuk tiap ukuran grid, dengan batas waktu 10 detik per ronde berdasarkan wall-clock
- Grid dibuat dengan menempatkan kata kamus sungguhan seperti teka-teki silang, lalu mengisi sisa kotak dengan huruf sesuai frekuensi tile Scrabble, dan terakhir mengacak ruang kosong
- Board yang lebih besar diacak lebih kuat, sehingga pada 10×10 banyak seed word masih tersisa apa adanya, tetapi pada 30×30 hampir tidak ada yang tersisa
Perilaku tiap model dan faktor keberhasilan atau kegagalan
-
Kimi K2.6
- Kimi K2.6 menang dengan aktif mendorong tile dan mencatat skor tertinggi turnamen, yaitu 77 poin total
- Strateginya bersifat rakus: setiap langkah yang mungkin diberi skor berdasarkan kata bernilai positif baru yang dibuka, lalu langkah terbaik dijalankan dan diulang
- Jika tidak ada langkah yang membuka kata positif, model memilih arah legal pertama berdasarkan urutan alfabet
- Pendekatan ini kadang memunculkan bolak-balik tepi yang tidak efisien dalam bentuk 2-cycle, ketika ruang kosong memantul maju-mundur tanpa progres
- Pada grid kecil, banyak seed word masih tersisa sehingga inefisiensi ini merugikan, tetapi pada 30×30 hampir semua kata sudah pecah dan perlu dibentuk ulang, sehingga banyak slide justru berbuah poin
-
MiMo V2-Pro
- Kode sliding MiMo ada di repositori, tetapi kondisi “nilai tertinggi > 0” tidak pernah aktif sehingga dalam praktiknya model tidak pernah melakukan slide sama sekali
- Model memindai kata 7 huruf atau lebih dari grid awal, lalu mengirim semua submission dalam satu paket TCP
- Strategi ini rapuh karena sepenuhnya bergantung pada seed word yang tetap utuh setelah pengacakan
- Pada grid yang masih menyisakan kata, strategi ini cepat menghasilkan poin, tetapi pada grid yang tidak menyisakannya, strategi ini tidak mendapat poin sama sekali
- Skor akhirnya adalah 43 poin total dan menempatkannya di peringkat kedua
-
Claude Opus 4.7
- Claude juga tidak melakukan slide
- Dari log langkah, pada board 25×25 tingkat pengacakan masih cukup bisa ditangani, tetapi pada 30×30, saat perpindahan tile nyata menjadi perlu, model runtuh
- Tidak melakukan slide dalam sliding puzzle menjadi batasan yang jelas
-
GPT-5.5
- GPT-5.5 menggunakan pendekatan yang lebih konservatif dengan sekitar 120 slide per ronde, dan menetapkan batas atas untuk menghindari bolak-balik tak berujung
- Model ini menunjukkan hasil terkuat pada grid 15×15 dan 30×30
-
Grok Expert 4.2 dan GLM 5.1
- Grok tidak melakukan slide, tetapi tetap mencetak skor yang lumayan pada board besar
- GLM adalah model yang paling agresif melakukan slide di seluruh turnamen, dengan total slide melebihi 800 ribu kali
- GLM mengalami macet parah setiap kali langkah positif habis
-
DeepSeek V4
- DeepSeek mengirim data dengan format yang salah di setiap ronde
- Tidak ada output yang berguna, tetapi setidaknya model ini tidak memperburuk skor dengan bermain
-
Muse Spark
- Muse mengirim semua kata yang bisa ditemukan tanpa memedulikan panjangnya
- Aturan skor dirancang untuk mencegah strategi spam kata pendek seperti “the”, “and”, dan “it”, sehingga model yang kompetitif semuanya memfilter kamus ke kata 7 huruf atau lebih
- Muse menemukan ratusan kata pendek valid yang terlihat kapan pun pada grid 30×30 dan mengirim semuanya
- Skor totalnya adalah −15.309 poin, kalah di 8 pertandingan, dan tidak memenangkan satu ronde pun
- Jika ada versi Muse yang hanya terhubung ke server dan tidak melakukan apa-apa, model itu akan mendapat 0 poin, sehingga secara hitungan nilainya 15.309 poin lebih tinggi daripada Muse yang sebenarnya
- Jarak antara Muse dan peringkat kedelapan lebih besar daripada jarak antara peringkat kedelapan dan peringkat pertama
Perbedaan yang dibuat grid 30×30
- Grid 30×30 paling jelas membedakan kemampuan model peserta
- Pada board kecil, perbedaan antara pemindai statis dan slider aktif tidak terlalu besar, tetapi pada ukuran terbesar, model yang hanya mencari kata yang sudah ada tidak lagi mampu menemukan kata untuk dikirim
- Loop rakus Kimi memang memiliki cacat, tetapi tetap terus menghasilkan output bahkan ketika pemindai statis kehilangan kata untuk dikirim
- MiMo dan Kimi menggunakan strategi yang hampir berlawanan, tetapi selisih skor akhir mereka hanya 2 poin
- Selisih antara peringkat pertama dan kedua tidak hanya dipengaruhi perbedaan kemampuan, tetapi juga sebagian oleh variabilitas seed
Risiko yang terlihat dalam tugas terstruktur
- Output DeepSeek yang salah format menjadi sinyal tentang cara model menangani spesifikasi protokol yang tidak familiar di bawah tekanan waktu
- Muse memang menemukan dan mengirim kata valid, tetapi gagal menerapkan makna “valid” yang juga mempertimbangkan aturan skor
- Kegagalan Muse tampak sebagai bentuk membaca tugas secara parsial lalu mengeksekusi interpretasi parsial itu sampai akhir
- Saat model dipakai untuk tugas terstruktur dengan penalti, eksekusi yang gagal mencerminkan keseluruhan aturan bisa berujung pada kerugian besar
Keterbatasan dan makna hasil
- Sistem skor ini memberi imbalan pada pengiriman kata yang agresif, dan model yang disetel kuat untuk keamanan mungkin lebih konservatif terhadap pola submission yang tak pandang bulu seperti itu
- Dalam kasus seperti itu, hasilnya bisa lebih mencerminkan ketidakselarasan antara desain tugas dan perilaku model yang selaras, alih-alih perbedaan kemampuan murni
- Satu tantangan tidak membalikkan benchmark umum
- Puzzle ini menguji pengambilan keputusan real-time, kemampuan menulis kode perilaku yang terhubung ke server TCP, dan memainkan game baru dengan benar
- Ini bukan tugas yang menguji penalaran konteks panjang atau pembuatan kode berbasis spesifikasi secara umum
- Kimi K2.6 mencatat 54 poin di Artificial Analysis Intelligence Index, GPT-5.5 60 poin, dan Claude 57 poin
- Skor ini bukan benar-benar imbang, tetapi cukup dekat, dan fakta bahwa Kimi K2.6 adalah model yang bisa diunduh siapa saja mengubah peta persaingan
- Ketika model yang hanya terpaut beberapa poin dari frontier bisa dijalankan secara lokal dengan bebas, situasi kompetitifnya berbeda dibanding setahun lalu
- Tantangan kali ini menjadi satu data point yang menunjukkan bahwa jarak kini cukup kecil sehingga hasil seperti ini bisa muncul
1 komentar
Opini Hacker News
Sepertinya selama setahun ke depan kita akan terus melihat tulisan seperti ini. Soalnya tidak ada cara objektif untuk membandingkan model. Kalau mengabaikan angka-angka level rendah seperti kecepatan generasi token, rata-rata jumlah token penalaran, jumlah parameter, dan jumlah expert aktif, tiap model punya kegunaan berbeda, pengguna berbeda, dan juga tidak deterministik.
Jadi benchmark dan deklarasi seperti “model ini mengalahkan model itu” akan terus bermunculan, tetapi tidak ada model terbaik. Yang ada hanya model yang cocok dengan kriteria masing-masing, dan pada akhirnya besar kemungkinan dunia ini akan menjadi seperti Windows vs MacOS vs Linux, dengan tiap orang bertahan di kubunya sendiri
Keduanya open source dan biaya per tokennya jauh lebih murah daripada model AS. Saat ini saya memakainya dengan paket cloud Ollama seharga $20, dan benar-benar bisa dipakai untuk proyek sampingan yang di paket Claude Pro $20 biasanya sudah mentok hanya dalam satu-dua prompt. Saya memilih Ollama cuma karena CLI-nya nyaman, dan ada banyak penyedia yang menawarkan model-model ini, jadi saya juga tidak terikat pada syarat buruk atau aturan penggunaan tertentu. Menurut saya ini sinyal yang cukup buruk bagi ekonomi AS
Jika tiap model di-tuning agar mencapai performa maksimum untuk tugas yang diperkirakan, peringkat pada benchmark yang berbeda ternyata cukup konsisten satu sama lain: https://arxiv.org/abs/2507.05195
Tetapi penulis tulisan ini tidak melakukan prosedur semacam itu. Ia hanya menjalankan tiap model sekali untuk 13 soal sejauh ini, lalu menyorot hasil pada soal ke-12. Ini bahkan sulit disebut p-hacking karena p-value saja tampaknya tidak pernah dipikirkan. Kualitas model bahasa besar sangat berfluktuasi di tiap run, jadi menjalankan tiap model sekali saja mirip seperti melempar dua koin satu kali, lalu karena satu keluar kepala dan satu keluar ekor, kita menyimpulkan koin mana yang lebih bias
Memang belum diadopsi luas, dan untuk sementara mungkin justru lebih menguntungkan bagi tiap pihak berkepentingan kalau tetap seperti sekarang. Secara praktis ini mirip p-hacking
Blog dan tulisan pada dasarnya adalah bisnis, atau bisnis di sekitar teknologi yang memasok traffic, dan banyak tulisan evaluasi dibuat untuk menarik perhatian. Itu sendiri tidak salah, tapi menghasilkan banyak noise
Industri ini hampir tidak bisa menentukan apakah satu software engineer secara objektif lebih baik daripada engineer lain di hampir dimensi mana pun. Jadi saya tidak paham kenapa orang berpikir kita bisa memberi peringkat objektif pada model
Saya senang melihat pergeseran ke arah tes yang dinilai secara objektif.
Kami telah melakukannya dalam skala besar di https://gertlabs.com/rankings, dan meskipun penulisnya tampak hanya menjalankan sampel sekali, performa Kimi K2.6 yang bagus bukan hal yang mengejutkan. Berdasarkan tes kami, terutama untuk coding, Kimi berada dalam rentang ketidakpastian statistik dari MiMo V2.5 Pro, model open-weight terbaik, dan untuk penggunaan tool hasilnya jauh lebih baik daripada DeepSeek V4 Pro. GPT 5.5 masih unggul cukup jauh, tetapi Kimi setara atau lebih baik daripada Opus 4.6. Hanya saja masalah Kimi 2.6 adalah ia termasuk lambat dibanding model yang kami uji
Kalau ingin mewakili coding, harus diuji pada 100+ puzzle seperti ini di seluruh spektrum puzzle, supaya kita bisa melihat siapa yang lebih baik menemukan strategi yang memanfaatkan kamus bahasa Inggris
Ini juga cocok dengan komentar di sini kemarin bahwa model Flash lebih baik dalam tool calling. Kombinasi membuat rencana dengan GPT 5.5 lalu implementasi dengan model Flash mungkin bisa menjadi jalur yang hemat biaya
Performa dipengaruhi bukan hanya oleh bahasa dan tugas, tetapi juga prompt yang dipakai dan output yang diharapkan. Dalam pengujian internal, sangat sulit menentukan apakah GPT 5.5 atau Opus 4.7 yang lebih baik. Gayanya berbeda, dan pada akhirnya lebih dekat ke preferensi. Kadang saya memberi kemenangan pada satu model lalu memikirkannya lagi dan berubah pikiran. Pada akhirnya saya sedikit lebih suka Opus 4.7
Menurut riset yang saya baca beberapa hari lalu, kalau kecepatannya seperti sekarang maka model open source diperkirakan akan melampaui model cloud dalam beberapa tahun.
Kalau melihat ChatGPT dan Claude beberapa tahun lalu, bahkan model Qwen kecil sekarang sudah hampir setara dengan kemampuan coding model cloud saat itu. Kalau mempertimbangkan scaling law, naik dari 9B ke 18B itu kira-kira peningkatan 40%, tetapi dari 18B ke 35B sekitar 20%, jadi model cloud setidaknya tampaknya akan mengalami perubahan harga. Adobe juga dulu $600 per bulan, lalu jadi $20 saat skala distribusinya membesar
Kebenaran sederhananya adalah model cloud akan selalu bisa lebih unggul secara ketat daripada model terbuka. Penyedia model cloud juga bisa menjalankan model terbuka yang sama. Selain itu mereka tetap punya skala ekonomi dan efisiensi dari menjalankan data center besar penuh hardware khusus. Minimal mereka bisa menyediakan model terbuka dengan harga per token yang lebih rendah daripada tagihan listrik siapa pun. Di atas itu mereka juga punya orang-orang yang meneliti model dan sistem pendukungnya, serta sumber daya untuk menempatkan engineer terbaik agar lingkungan eksekusinya selalu lebih maju daripada tool yang sedang tren di GitHub
Sekalipun ada model yang cukup bagus, bagaimana jika penyedia model cloud lebih unggul dalam pengadaan hardware inferensi?
Kimi memang sangat bagus.
Saya sudah memakai Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen, dan lainnya pada proyek compiler/VM, dan paket Claude Pro hampir tidak bisa dipakai untuk pekerjaan coding yang serius. Karena itu saya menggunakannya dalam mode chat browser agar tidak membaca seluruh proyek tanpa perlu, sedangkan Kimi saya pakai dengan pi di paket OpenCode Go. Pada proyek C+Python, Kimi secara konsisten mengungguli Sonnet, dan saya tidak pernah khawatir ia akan melakukan hal-hal di luar yang diminta. GLM sempat rusak parah satu-dua kali, tapi Kimi tidak begitu
Ini hasil pada satu tugas tunggal, diukur hanya dari performa solusi.
Kimi K2.6 jelas merupakan model berukuran frontier, jadi tidak terlalu mengejutkan kalau ia sejajar dengan model frontier tertutup. Fakta bahwa ia terbuka memang bagus, tetapi bagi saya yang cuma punya satu GPU konsumen, itu tidak terlalu berarti
Walaupun saya tidak mampu membeli hardware untuk menjalankan model open source besar, akan selalu ada orang yang bisa, dan mereka bisa tetap untung walau mematok harga setengah dari biaya model tertutup. Satu-satunya alasan itu belum tampak sekarang adalah karena penyedia token papan atas saat ini sedang mensubsidi biaya inferensi. Begitu mereka mulai menurunkan kualitas dan menekan monetisasi, pasar alternatif jadi mungkin muncul. Tanpa model open source, tidak ada alternatif yang sungguh nyata. Bahkan jika Anda ingin hanya menagih 80% dari biaya developer mereka, keberadaan model open source yang tidak terlalu tertinggal sudah menjadi kekuatan pemaksa. Mereka tidak punya moat
Untuk penggunaan pribadi saya memakai paket coding GLM 5.1, Kimi K2.6, MiniMax M2.7, Xiaomi MiMo V2.5 Pro, dan value for money-nya sangat bagus
Penurunan kualitas mungkin awalnya tidak terlalu terlihat, tetapi saya sudah melihat model frontier yang dulu saya sukai melemah parah dan melakukan hal-hal bodoh yang dulu tidak mereka lakukan. Karena kita makin bergantung pada mereka, kita butuh model open-weight yang bisa berfungsi sebagai platform yang stabil
Untuk RTX kecil di rumah, kita selalu bisa melakukan distillation nanti. Tetapi model yang dirancang untuk hardware konsumen sulit untuk diadopsi luas atau tetap kompetitif melawan lab frontier. Bentuk inilah yang bisa bersaing, dan ini akan membutuhkan sekaligus mendorong generasi baru infrastruktur cloud terbuka untuk menjalankan inferensi. Mula-mula akan muncul produk seperti “deploy dengan satu tombol”, “fine-tune dengan satu tombol”, lalu nanti bisa ada produk yang jauh lebih canggih yang hanya mungkin dengan open weight yang tidak terkunci di balik API. Sekarang kita hanya butuh model yang setara dengan open-weight Nano Banana Pro / GPT Image 2, Seedance 2.0. Pertarungan dan fokusnya harus diarahkan ke open weight untuk data center
Saya sempat kaget melihat peringkatnya, tetapi setelah membaca isi tesnya jadi masuk akal. Ini tampaknya tidak terlalu berkaitan dengan coding.
Peringkat keseluruhan tes saat ini lebih masuk akal. Kecuali betapa bagusnya Gemini: https://aicc.rayonnant.ai
DNP berarti tidak ikut. Dari sudut pandang ini, Kimi mendapat medali lebih banyak dan lebih bagus daripada Claude
Ini memang anekdotal, tetapi setelah beberapa bulan hanya memakai Claude Code, saya terkejut secara menyenangkan oleh kemampuan Pi + Kimi K2.6. Kalau dipakai lewat OpenRouter, jauh lebih cepat dan jauh lebih murah
Sayangnya Kimi sama sekali tidak mendekati GPT atau Opus. Saya benar-benar berharap begitu, tapi tidak.
Saya menjalankan evaluasi di mana model harus membuat kode untuk menghasilkan model 3D, dan jelas ia kurang pemahaman spasial serta jauh lebih sering membuat error kode sebelum berhasil. Di beberapa kasus khusus di sana-sini mungkin ia lebih baik, dan saya rasa tulisan blog ini adalah contoh seperti itu
Ini bukan soal visual juga. DeepSeek bukan multimodal, tetapi entah kenapa Opus jauh lebih memahami API Blender. Sepertinya memang selalu ada area kecil tertentu di mana model frontier tertutup sedikit lebih baik
Ini tampaknya bukan berarti Kimi lebih jago coding daripada Claude, melainkan lebih dekat pada fakta bahwa Kimi menemukan strategi yang benar untuk game tertentu itu.
Tetap menarik sih. Mungkin inti sebenarnya adalah bahwa model open-weight sudah mendekat cukup jauh sampai selisih itu terasa bermakna
Saya tidak terlalu paham bidang AI, tetapi melatih model apa pun agar bisa menjadi segalanya untuk semua orang terdengar seperti ide yang benar-benar bodoh.
Itu butuh sumber daya raksasa dan menimbulkan kelangkaan serta distorsi pasar yang parah pada semua resource yang dipakai perusahaan AI, seperti RAM, SSD, data center, dan lain-lain. Dalam dunia nyata, kalau kita mempekerjakan tukang ledeng, kita tidak sekaligus berharap ia bisa lanskap, memperbaiki mobil, dan menjahit baju. Misalnya, rasanya akan jauh lebih baik dari sisi efisiensi sumber daya jika kita bisa mengunduh aplikasi yang khusus untuk coding shell, Python, dan C, atau bahkan tiga aplikasi seperti itu yang saling berkomunikasi. Mungkin itu bahkan bisa berjalan di mesin biasa dengan RAM 16GB. Kita tidak harus punya satu model raksasa yang bisa coding Fortran, COBOL, sampai Lisp. Manusia sudah cukup berhasil lewat spesialisasi, dan saya berharap model AI yang lebih kecil dan fokus lebih banyak dieksplorasi daripada jalur sekarang berupa “satu model menguasai segalanya dan hanya bisa berjalan di data center skala negara”
Sejak GPT-3, orang-orang telah bilang bahwa tidak mungkin satu model bisa seumum itu, jadi fine-tuning adalah jalan yang tepat, tetapi di tiap generasi berikutnya pernyataan itu makin tidak akurat