Kimi K2.6 mengalahkan Claude, GPT-5.5, dan Gemini dalam tantangan coding

(thinkpol.ca)

5 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp

Model open-weights Kimi K2.6 dari Moonshot AI menjuarai AI Coding Contest Day 12 pada Word Gem Puzzle dengan 22 match point dan rekor 7-1-0
MiMo V2-Pro dari Xiaomi finis di posisi kedua dengan 20 poin, ChatGPT GPT-5.5 di posisi ketiga dengan 16 poin, GLM 5.1 di posisi keempat dengan 15 poin, dan Claude Opus 4.7 di posisi kelima dengan 12 poin; model dari Anthropic, OpenAI, Google, dan xAI semuanya berada di bawah dua model teratas
Word Gem Puzzle adalah puzzle huruf sliding tile dari 10×10 hingga 30×30; kata di bawah 7 huruf mendapat penalti, kata 7 huruf atau lebih dihitung panjang - 6 poin, dan tiap pasangan model memainkan 5 ronde per ukuran grid dengan batas waktu 10 detik
Kimi K2.6 mencetak total 77 poin dengan sliding rakus yang berulang kali memilih langkah yang membuka kata bernilai positif, sementara MiMo V2-Pro tidak benar-benar melakukan slide dan hanya mengirim semua kata 7 huruf atau lebih dari grid awal sekaligus untuk finis kedua dengan total 43 poin
Hasil ini bukan berarti satu puzzle membalikkan benchmark umum, tetapi model yang bisa diunduh seperti Kimi K2.6 kini mempersempit persaingan karena mencatat 54 poin di Artificial Analysis Intelligence Index, mendekati GPT-5.5 dengan 60 poin dan Claude dengan 57 poin

Susunan kompetisi dan model peserta

GLM 5.1 dari Zhipu AI finis di posisi keempat, sementara DeepSeek V4 hanya di posisi kedelapan
Kode yang dibuat Nemotron Super 3 dari Nvidia mengandung error sintaks dan gagal terhubung ke server game, sehingga kompetisi sebenarnya berlangsung dengan 9 model
Kimi K2.6 adalah model open-weights yang tersedia untuk penggunaan publik dari startup Tiongkok Moonshot AI yang didirikan pada 2023, sementara MiMo V2-Pro saat ini hanya tersedia lewat API
Xiaomi mengonfirmasi bahwa bobot model V2.5 Pro yang lebih baru akan segera dirilis
Hasil kali ini tidak sekadar bisa diringkas sebagai “Tiongkok mengalahkan Barat”, melainkan sebagai kemenangan dua model spesifik: Kimi K2.6 dan MiMo V2-Pro

Aturan Word Gem Puzzle

Word Gem Puzzle adalah puzzle huruf sliding tile yang dimainkan di grid persegi panjang berisi tile huruf dan satu ruang kosong
Ukuran grid bisa berupa 10×10, 15×15, 20×20, 25×25, atau 30×30, dan bot dapat mendorong tile yang bersebelahan ke ruang kosong
Bot dapat mengirim kata bahasa Inggris yang valid kapan saja jika terbentuk dalam garis lurus horizontal atau vertikal
Kata diagonal dan kata terbalik tidak dihitung
Sistem skor dirancang untuk memberi imbalan pada kata panjang dan penalti pada kata pendek
- Kata di bawah 7 huruf kehilangan poin
- Kata 5 huruf mengurangi 1 poin, kata 3 huruf mengurangi 3 poin
- Kata 7 huruf atau lebih dihitung panjang - 6 poin, sehingga kata 8 huruf bernilai 2 poin
Kata yang sama hanya bisa dikirim sekali, dan kata yang lebih dulu dikirim bot lain tidak menghasilkan poin
Setiap pasangan model memainkan total 5 ronde, masing-masing satu ronde untuk tiap ukuran grid, dengan batas waktu 10 detik per ronde berdasarkan wall-clock
Grid dibuat dengan menempatkan kata kamus sungguhan seperti teka-teki silang, lalu mengisi sisa kotak dengan huruf sesuai frekuensi tile Scrabble, dan terakhir mengacak ruang kosong
Board yang lebih besar diacak lebih kuat, sehingga pada 10×10 banyak seed word masih tersisa apa adanya, tetapi pada 30×30 hampir tidak ada yang tersisa

Perilaku tiap model dan faktor keberhasilan atau kegagalan

Kimi K2.6
- Kimi K2.6 menang dengan aktif mendorong tile dan mencatat skor tertinggi turnamen, yaitu 77 poin total
- Strateginya bersifat rakus: setiap langkah yang mungkin diberi skor berdasarkan kata bernilai positif baru yang dibuka, lalu langkah terbaik dijalankan dan diulang
- Jika tidak ada langkah yang membuka kata positif, model memilih arah legal pertama berdasarkan urutan alfabet
- Pendekatan ini kadang memunculkan bolak-balik tepi yang tidak efisien dalam bentuk 2-cycle, ketika ruang kosong memantul maju-mundur tanpa progres
- Pada grid kecil, banyak seed word masih tersisa sehingga inefisiensi ini merugikan, tetapi pada 30×30 hampir semua kata sudah pecah dan perlu dibentuk ulang, sehingga banyak slide justru berbuah poin
MiMo V2-Pro
- Kode sliding MiMo ada di repositori, tetapi kondisi “nilai tertinggi > 0” tidak pernah aktif sehingga dalam praktiknya model tidak pernah melakukan slide sama sekali
- Model memindai kata 7 huruf atau lebih dari grid awal, lalu mengirim semua submission dalam satu paket TCP
- Strategi ini rapuh karena sepenuhnya bergantung pada seed word yang tetap utuh setelah pengacakan
- Pada grid yang masih menyisakan kata, strategi ini cepat menghasilkan poin, tetapi pada grid yang tidak menyisakannya, strategi ini tidak mendapat poin sama sekali
- Skor akhirnya adalah 43 poin total dan menempatkannya di peringkat kedua
Claude Opus 4.7
- Claude juga tidak melakukan slide
- Dari log langkah, pada board 25×25 tingkat pengacakan masih cukup bisa ditangani, tetapi pada 30×30, saat perpindahan tile nyata menjadi perlu, model runtuh
- Tidak melakukan slide dalam sliding puzzle menjadi batasan yang jelas
GPT-5.5
- GPT-5.5 menggunakan pendekatan yang lebih konservatif dengan sekitar 120 slide per ronde, dan menetapkan batas atas untuk menghindari bolak-balik tak berujung
- Model ini menunjukkan hasil terkuat pada grid 15×15 dan 30×30
Grok Expert 4.2 dan GLM 5.1
- Grok tidak melakukan slide, tetapi tetap mencetak skor yang lumayan pada board besar
- GLM adalah model yang paling agresif melakukan slide di seluruh turnamen, dengan total slide melebihi 800 ribu kali
- GLM mengalami macet parah setiap kali langkah positif habis
DeepSeek V4
- DeepSeek mengirim data dengan format yang salah di setiap ronde
- Tidak ada output yang berguna, tetapi setidaknya model ini tidak memperburuk skor dengan bermain
Muse Spark
- Muse mengirim semua kata yang bisa ditemukan tanpa memedulikan panjangnya
- Aturan skor dirancang untuk mencegah strategi spam kata pendek seperti “the”, “and”, dan “it”, sehingga model yang kompetitif semuanya memfilter kamus ke kata 7 huruf atau lebih
- Muse menemukan ratusan kata pendek valid yang terlihat kapan pun pada grid 30×30 dan mengirim semuanya
- Skor totalnya adalah −15.309 poin, kalah di 8 pertandingan, dan tidak memenangkan satu ronde pun
- Jika ada versi Muse yang hanya terhubung ke server dan tidak melakukan apa-apa, model itu akan mendapat 0 poin, sehingga secara hitungan nilainya 15.309 poin lebih tinggi daripada Muse yang sebenarnya
- Jarak antara Muse dan peringkat kedelapan lebih besar daripada jarak antara peringkat kedelapan dan peringkat pertama

Perbedaan yang dibuat grid 30×30

Grid 30×30 paling jelas membedakan kemampuan model peserta
Pada board kecil, perbedaan antara pemindai statis dan slider aktif tidak terlalu besar, tetapi pada ukuran terbesar, model yang hanya mencari kata yang sudah ada tidak lagi mampu menemukan kata untuk dikirim
Loop rakus Kimi memang memiliki cacat, tetapi tetap terus menghasilkan output bahkan ketika pemindai statis kehilangan kata untuk dikirim
MiMo dan Kimi menggunakan strategi yang hampir berlawanan, tetapi selisih skor akhir mereka hanya 2 poin
Selisih antara peringkat pertama dan kedua tidak hanya dipengaruhi perbedaan kemampuan, tetapi juga sebagian oleh variabilitas seed

Risiko yang terlihat dalam tugas terstruktur

Output DeepSeek yang salah format menjadi sinyal tentang cara model menangani spesifikasi protokol yang tidak familiar di bawah tekanan waktu
Muse memang menemukan dan mengirim kata valid, tetapi gagal menerapkan makna “valid” yang juga mempertimbangkan aturan skor
Kegagalan Muse tampak sebagai bentuk membaca tugas secara parsial lalu mengeksekusi interpretasi parsial itu sampai akhir
Saat model dipakai untuk tugas terstruktur dengan penalti, eksekusi yang gagal mencerminkan keseluruhan aturan bisa berujung pada kerugian besar

Keterbatasan dan makna hasil

Sistem skor ini memberi imbalan pada pengiriman kata yang agresif, dan model yang disetel kuat untuk keamanan mungkin lebih konservatif terhadap pola submission yang tak pandang bulu seperti itu
Dalam kasus seperti itu, hasilnya bisa lebih mencerminkan ketidakselarasan antara desain tugas dan perilaku model yang selaras, alih-alih perbedaan kemampuan murni
Satu tantangan tidak membalikkan benchmark umum
Puzzle ini menguji pengambilan keputusan real-time, kemampuan menulis kode perilaku yang terhubung ke server TCP, dan memainkan game baru dengan benar
Ini bukan tugas yang menguji penalaran konteks panjang atau pembuatan kode berbasis spesifikasi secara umum
Kimi K2.6 mencatat 54 poin di Artificial Analysis Intelligence Index, GPT-5.5 60 poin, dan Claude 57 poin
Skor ini bukan benar-benar imbang, tetapi cukup dekat, dan fakta bahwa Kimi K2.6 adalah model yang bisa diunduh siapa saja mengubah peta persaingan
Ketika model yang hanya terpaut beberapa poin dari frontier bisa dijalankan secara lokal dengan bebas, situasi kompetitifnya berbeda dibanding setahun lalu
Tantangan kali ini menjadi satu data point yang menunjukkan bahwa jarak kini cukup kecil sehingga hasil seperti ini bisa muncul

1 komentar

GN⁺ 2 jam lalu

Opini Hacker News

Sepertinya selama setahun ke depan kita akan terus melihat tulisan seperti ini. Soalnya tidak ada cara objektif untuk membandingkan model. Kalau mengabaikan angka-angka level rendah seperti kecepatan generasi token, rata-rata jumlah token penalaran, jumlah parameter, dan jumlah expert aktif, tiap model punya kegunaan berbeda, pengguna berbeda, dan juga tidak deterministik.
Jadi benchmark dan deklarasi seperti “model ini mengalahkan model itu” akan terus bermunculan, tetapi tidak ada model terbaik. Yang ada hanya model yang cocok dengan kriteria masing-masing, dan pada akhirnya besar kemungkinan dunia ini akan menjadi seperti Windows vs MacOS vs Linux, dengan tiap orang bertahan di kubunya sendiri
- Intinya bukan cara membandingkan model, melainkan fakta bahwa Kimi K2.6 dan DeepSeek v4 Pro hampir setara dengan Opus, dan itu sendiri adalah hal yang cukup besar.
  Keduanya open source dan biaya per tokennya jauh lebih murah daripada model AS. Saat ini saya memakainya dengan paket cloud Ollama seharga $20, dan benar-benar bisa dipakai untuk proyek sampingan yang di paket Claude Pro $20 biasanya sudah mentok hanya dalam satu-dua prompt. Saya memilih Ollama cuma karena CLI-nya nyaman, dan ada banyak penyedia yang menawarkan model-model ini, jadi saya juga tidak terikat pada syarat buruk atau aturan penggunaan tertentu. Menurut saya ini sinyal yang cukup buruk bagi ekonomi AS
- Ada cara objektif untuk membandingkan model. Kita harus memakai repeated sampling dan analisis statistik untuk menilai apakah hasil itu akan tetap bertahan ke depan atau cuma kebetulan belaka.
  Jika tiap model di-tuning agar mencapai performa maksimum untuk tugas yang diperkirakan, peringkat pada benchmark yang berbeda ternyata cukup konsisten satu sama lain: https://arxiv.org/abs/2507.05195
  Tetapi penulis tulisan ini tidak melakukan prosedur semacam itu. Ia hanya menjalankan tiap model sekali untuk 13 soal sejauh ini, lalu menyorot hasil pada soal ke-12. Ini bahkan sulit disebut p-hacking karena p-value saja tampaknya tidak pernah dipikirkan. Kualitas model bahasa besar sangat berfluktuasi di tiap run, jadi menjalankan tiap model sekali saja mirip seperti melempar dua koin satu kali, lalu karena satu keluar kepala dan satu keluar ekor, kita menyimpulkan koin mana yang lebih bias
- Saya agak setuju, tetapi upaya untuk membuat metrik bisa dibandingkan memang sedang berjalan. Misalnya: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
  Memang belum diadopsi luas, dan untuk sementara mungkin justru lebih menguntungkan bagi tiap pihak berkepentingan kalau tetap seperti sekarang. Secara praktis ini mirip p-hacking
- Use case model bahasa besar dan lingkungan eksekusi agentic saya cukup terbatas, jadi setiap ada model atau alat eksekusi baru, saya hanya mencoba satu-dua use case saya sendiri, membuat penilaian subjektif, lalu mengabaikan sebagian besar benchmark.
  Blog dan tulisan pada dasarnya adalah bisnis, atau bisnis di sekitar teknologi yang memasok traffic, dan banyak tulisan evaluasi dibuat untuk menarik perhatian. Itu sendiri tidak salah, tapi menghasilkan banyak noise
- Pada akhirnya ini mungkin akan sampai ke posisi yang mirip dengan merekrut orang. Kita bisa melihat CV, yaitu benchmark, tetapi tidak akan benar-benar yakin sebelum bekerja bersama selama 6 bulan.
  Industri ini hampir tidak bisa menentukan apakah satu software engineer secara objektif lebih baik daripada engineer lain di hampir dimensi mana pun. Jadi saya tidak paham kenapa orang berpikir kita bisa memberi peringkat objektif pada model
Saya senang melihat pergeseran ke arah tes yang dinilai secara objektif.
Kami telah melakukannya dalam skala besar di https://gertlabs.com/rankings, dan meskipun penulisnya tampak hanya menjalankan sampel sekali, performa Kimi K2.6 yang bagus bukan hal yang mengejutkan. Berdasarkan tes kami, terutama untuk coding, Kimi berada dalam rentang ketidakpastian statistik dari MiMo V2.5 Pro, model open-weight terbaik, dan untuk penggunaan tool hasilnya jauh lebih baik daripada DeepSeek V4 Pro. GPT 5.5 masih unggul cukup jauh, tetapi Kimi setara atau lebih baik daripada Opus 4.6. Hanya saja masalah Kimi 2.6 adalah ia termasuk lambat dibanding model yang kami uji
- Tes ini memang bisa dinilai secara objektif, tetapi itu tidak berarti tes ini menunjukkan kemampuan coding seseorang. Tes ini lebih dekat ke pengukuran model mana yang hampir secara kebetulan menemukan strategi terbaik melawan bot-bot lain.
  Kalau ingin mewakili coding, harus diuji pada 100+ puzzle seperti ini di seluruh spektrum puzzle, supaya kita bisa melihat siapa yang lebih baik menemukan strategi yang memanfaatkan kamus bahasa Inggris
- Untuk alur kerja agentic, Qwen Flash dan model DeepSeek Flash tampaknya cukup bagus.
  Ini juga cocok dengan komentar di sini kemarin bahwa model Flash lebih baik dalam tool calling. Kombinasi membuat rencana dengan GPT 5.5 lalu implementasi dengan model Flash mungkin bisa menjadi jalur yang hemat biaya
- Dalam pengalaman saya, benchmark cukup tidak bermakna.
  Performa dipengaruhi bukan hanya oleh bahasa dan tugas, tetapi juga prompt yang dipakai dan output yang diharapkan. Dalam pengujian internal, sangat sulit menentukan apakah GPT 5.5 atau Opus 4.7 yang lebih baik. Gayanya berbeda, dan pada akhirnya lebih dekat ke preferensi. Kadang saya memberi kemenangan pada satu model lalu memikirkannya lagi dan berubah pikiran. Pada akhirnya saya sedikit lebih suka Opus 4.7
- Apakah tes dan hasilnya open source?
- Saya penasaran kenapa tidak bisa disediakan ukuran context window untuk manusia. Rasanya sainsnya seharusnya sudah cukup untuk membuat pendekatan yang lumayan bagus
Menurut riset yang saya baca beberapa hari lalu, kalau kecepatannya seperti sekarang maka model open source diperkirakan akan melampaui model cloud dalam beberapa tahun.
Kalau melihat ChatGPT dan Claude beberapa tahun lalu, bahkan model Qwen kecil sekarang sudah hampir setara dengan kemampuan coding model cloud saat itu. Kalau mempertimbangkan scaling law, naik dari 9B ke 18B itu kira-kira peningkatan 40%, tetapi dari 18B ke 35B sekitar 20%, jadi model cloud setidaknya tampaknya akan mengalami perubahan harga. Adobe juga dulu $600 per bulan, lalu jadi $20 saat skala distribusinya membesar
- Itu tidak masuk akal, dan terdengar seperti ekstrapolasi tren jauh melampaui kondisi yang valid.
  Kebenaran sederhananya adalah model cloud akan selalu bisa lebih unggul secara ketat daripada model terbuka. Penyedia model cloud juga bisa menjalankan model terbuka yang sama. Selain itu mereka tetap punya skala ekonomi dan efisiensi dari menjalankan data center besar penuh hardware khusus. Minimal mereka bisa menyediakan model terbuka dengan harga per token yang lebih rendah daripada tagihan listrik siapa pun. Di atas itu mereka juga punya orang-orang yang meneliti model dan sistem pendukungnya, serta sumber daya untuk menempatkan engineer terbaik agar lingkungan eksekusinya selalu lebih maju daripada tool yang sedang tren di GitHub
- Mungkin saja, tetapi yang saya khawatirkan adalah hardware.
  Sekalipun ada model yang cukup bagus, bagaimana jika penyedia model cloud lebih unggul dalam pengadaan hardware inferensi?
- Saya tidak paham produk apa yang dimaksud dengan “Adobe dulu $600 per bulan lalu jadi $20 karena distribusinya meluas”. Saya belum pernah dengar ada produk Adobe semahal itu
- $600 per bulan? Maksudnya lisensi seumur hidup satu kali beli $600? Saya belum pernah dengar paket Adobe semahal itu
- Saya ingin melihat tautan riset yang Anda baca itu kalau ada
Kimi memang sangat bagus.
Saya sudah memakai Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen, dan lainnya pada proyek compiler/VM, dan paket Claude Pro hampir tidak bisa dipakai untuk pekerjaan coding yang serius. Karena itu saya menggunakannya dalam mode chat browser agar tidak membaca seluruh proyek tanpa perlu, sedangkan Kimi saya pakai dengan pi di paket OpenCode Go. Pada proyek C+Python, Kimi secara konsisten mengungguli Sonnet, dan saya tidak pernah khawatir ia akan melakukan hal-hal di luar yang diminta. GLM sempat rusak parah satu-dua kali, tapi Kimi tidak begitu
- Saya penasaran kenapa Anda bilang “paket Claude Pro hampir tidak bisa dipakai untuk pekerjaan coding serius”. Itu tampak berlawanan dengan penilaian umum bahwa Claude Pro justru sangat sering dipakai untuk coding serius
Ini hasil pada satu tugas tunggal, diukur hanya dari performa solusi.
Kimi K2.6 jelas merupakan model berukuran frontier, jadi tidak terlalu mengejutkan kalau ia sejajar dengan model frontier tertutup. Fakta bahwa ia terbuka memang bagus, tetapi bagi saya yang cuma punya satu GPU konsumen, itu tidak terlalu berarti
- Nilai open source bukan terletak pada apakah saya bisa menjalankannya secara lokal, melainkan pada fakta bahwa seseorang bisa menjalankannya.
  Walaupun saya tidak mampu membeli hardware untuk menjalankan model open source besar, akan selalu ada orang yang bisa, dan mereka bisa tetap untung walau mematok harga setengah dari biaya model tertutup. Satu-satunya alasan itu belum tampak sekarang adalah karena penyedia token papan atas saat ini sedang mensubsidi biaya inferensi. Begitu mereka mulai menurunkan kualitas dan menekan monetisasi, pasar alternatif jadi mungkin muncul. Tanpa model open source, tidak ada alternatif yang sungguh nyata. Bahkan jika Anda ingin hanya menagih 80% dari biaya developer mereka, keberadaan model open source yang tidak terlalu tertinggal sudah menjadi kekuatan pemaksa. Mereka tidak punya moat
- Tentu saja itu berarti. Karena itu jadi mungkin ada paket yang jauh lebih murah daripada paket coding Anthropic dan OpenAI.
  Untuk penggunaan pribadi saya memakai paket coding GLM 5.1, Kimi K2.6, MiniMax M2.7, Xiaomi MiMo V2.5 Pro, dan value for money-nya sangat bagus
- Ini sangat penting.
  Penurunan kualitas mungkin awalnya tidak terlalu terlihat, tetapi saya sudah melihat model frontier yang dulu saya sukai melemah parah dan melakukan hal-hal bodoh yang dulu tidak mereka lakukan. Karena kita makin bergantung pada mereka, kita butuh model open-weight yang bisa berfungsi sebagai platform yang stabil
- Masa depannya ada di sini. Model open-weight yang berjalan di H200 memberi jauh lebih banyak peluang untuk membangun produk dan infrastruktur nyata.
  Untuk RTX kecil di rumah, kita selalu bisa melakukan distillation nanti. Tetapi model yang dirancang untuk hardware konsumen sulit untuk diadopsi luas atau tetap kompetitif melawan lab frontier. Bentuk inilah yang bisa bersaing, dan ini akan membutuhkan sekaligus mendorong generasi baru infrastruktur cloud terbuka untuk menjalankan inferensi. Mula-mula akan muncul produk seperti “deploy dengan satu tombol”, “fine-tune dengan satu tombol”, lalu nanti bisa ada produk yang jauh lebih canggih yang hanya mungkin dengan open weight yang tidak terkunci di balik API. Sekarang kita hanya butuh model yang setara dengan open-weight Nano Banana Pro / GPT Image 2, Seedance 2.0. Pertarungan dan fokusnya harus diarahkan ke open weight untuk data center
Saya sempat kaget melihat peringkatnya, tetapi setelah membaca isi tesnya jadi masuk akal. Ini tampaknya tidak terlalu berkaitan dengan coding.
Peringkat keseluruhan tes saat ini lebih masuk akal. Kecuali betapa bagusnya Gemini: https://aicc.rayonnant.ai
- Kalau melihat rincian peringkat, Kimi K2.6 hanya ikut dalam 5 challenge terakhir. Sebelumnya Claude mendominasi, dan kalau hanya menghitung 5 terakhir, Kimi memang nomor satu
- Peringkat medali emas hanya bermakna jika semua model ikut semua tes.
  DNP berarti tidak ikut. Dari sudut pandang ini, Kimi mendapat medali lebih banyak dan lebih bagus daripada Claude
- Ironis sekali situs yang memuat sebanyak itu model ternyata tidak responsif di mobile
- Tautan yang Anda berikan justru pada dasarnya mengonfirmasi keunggulan Kimi
Ini memang anekdotal, tetapi setelah beberapa bulan hanya memakai Claude Code, saya terkejut secara menyenangkan oleh kemampuan Pi + Kimi K2.6. Kalau dipakai lewat OpenRouter, jauh lebih cepat dan jauh lebih murah
Sayangnya Kimi sama sekali tidak mendekati GPT atau Opus. Saya benar-benar berharap begitu, tapi tidak.
Saya menjalankan evaluasi di mana model harus membuat kode untuk menghasilkan model 3D, dan jelas ia kurang pemahaman spasial serta jauh lebih sering membuat error kode sebelum berhasil. Di beberapa kasus khusus di sana-sini mungkin ia lebih baik, dan saya rasa tulisan blog ini adalah contoh seperti itu
- Sedikit di luar topik, tetapi setelah beberapa minggu memakai DeepSeek V4 Pro, menurut saya secara umum ia setara dengan Opus. Kecuali saat menangani Blender.
  Ini bukan soal visual juga. DeepSeek bukan multimodal, tetapi entah kenapa Opus jauh lebih memahami API Blender. Sepertinya memang selalu ada area kecil tertentu di mana model frontier tertutup sedikit lebih baik
- Kalau mau adil, tidak semua orang membutuhkan model 3D
Ini tampaknya bukan berarti Kimi lebih jago coding daripada Claude, melainkan lebih dekat pada fakta bahwa Kimi menemukan strategi yang benar untuk game tertentu itu.
Tetap menarik sih. Mungkin inti sebenarnya adalah bahwa model open-weight sudah mendekat cukup jauh sampai selisih itu terasa bermakna
Saya tidak terlalu paham bidang AI, tetapi melatih model apa pun agar bisa menjadi segalanya untuk semua orang terdengar seperti ide yang benar-benar bodoh.
Itu butuh sumber daya raksasa dan menimbulkan kelangkaan serta distorsi pasar yang parah pada semua resource yang dipakai perusahaan AI, seperti RAM, SSD, data center, dan lain-lain. Dalam dunia nyata, kalau kita mempekerjakan tukang ledeng, kita tidak sekaligus berharap ia bisa lanskap, memperbaiki mobil, dan menjahit baju. Misalnya, rasanya akan jauh lebih baik dari sisi efisiensi sumber daya jika kita bisa mengunduh aplikasi yang khusus untuk coding shell, Python, dan C, atau bahkan tiga aplikasi seperti itu yang saling berkomunikasi. Mungkin itu bahkan bisa berjalan di mesin biasa dengan RAM 16GB. Kita tidak harus punya satu model raksasa yang bisa coding Fortran, COBOL, sampai Lisp. Manusia sudah cukup berhasil lewat spesialisasi, dan saya berharap model AI yang lebih kecil dan fokus lebih banyak dieksplorasi daripada jalur sekarang berupa “satu model menguasai segalanya dan hanya bisa berjalan di data center skala negara”
- Secara dasar itu benar, tetapi tidak selalu begitu.
  Sejak GPT-3, orang-orang telah bilang bahwa tidak mungkin satu model bisa seumum itu, jadi fine-tuning adalah jalan yang tepat, tetapi di tiap generasi berikutnya pernyataan itu makin tidak akurat

Kimi K2.6 mengalahkan Claude, GPT-5.5, dan Gemini dalam tantangan coding

Susunan kompetisi dan model peserta

Aturan Word Gem Puzzle

Perilaku tiap model dan faktor keberhasilan atau kegagalan

Kimi K2.6

MiMo V2-Pro

Claude Opus 4.7

GPT-5.5

Grok Expert 4.2 dan GLM 5.1

DeepSeek V4

Muse Spark

Perbedaan yang dibuat grid 30×30

Risiko yang terlihat dalam tugas terstruktur

Keterbatasan dan makna hasil

Bacaan terkait

1 komentar

Opini Hacker News