- Model yang meningkatkan performa untuk coding rentang panjang dan tugas bertipe agen, dengan penguatan kemampuan generalisasi di berbagai bahasa serta di frontend, devops, dan optimisasi performa secara luas
- Menangani tugas engineering kompleks dengan coding yang berjalan terus-menerus, mencatat peningkatan throughput besar pada optimisasi inferensi Zig dan perombakan total exchange-core setelah ribuan pemanggilan tool dan eksekusi kontinu lebih dari 12 jam
- Mengubah prompt sederhana menjadi antarmuka frontend lengkap dan juga memanfaatkan tool pembuatan gambar dan video, sekaligus mendukung workflow full-stack sederhana yang mencakup autentikasi dan pekerjaan basis data
- Memperluas arsitektur Agent Swarm hingga skala 300 subagen dan 4.000 langkah koordinasi untuk menjalankan pencarian, riset, penulisan dokumen, dan pembuatan file secara paralel, serta mengubah format dan gaya PDF, slide, spreadsheet, dan dokumen Word menjadi skills yang dapat digunakan kembali
- Memperluas cakupan ke agen proaktif dan Claw Groups untuk operasi otonom jangka panjang, kolaborasi multiagen, dan realokasi tugas, dengan benchmark dan beta test perusahaan yang mengonfirmasi peningkatan pada coding, pemanggilan tool, dan keandalan eksekusi jangka panjang
Coding rentang panjang
- Dikonfirmasi adanya peningkatan performa pada tugas coding rentang panjang, dengan penguatan kemampuan generalisasi di berbagai bahasa seperti Rust, Go, dan Python, serta pada berbagai pekerjaan seperti frontend, devops, dan optimisasi performa
- Pada benchmark coding internal Kimi Code Bench, tercatat peningkatan besar dibanding Kimi K2.5 untuk berbagai tugas end-to-end yang kompleks
- Menjalankan coding berkelanjutan pada tugas engineering yang kompleks
- Berhasil mengunduh dan menerapkan model Qwen3.5-0.8B di lingkungan lokal Mac
- Mengimplementasikan dan mengoptimalkan inferensi model dalam bahasa yang relatif khusus, yaitu Zig, membuktikan kemampuan generalisasi di luar distribusi
- Melalui lebih dari 4.000 pemanggilan tool, eksekusi kontinu lebih dari 12 jam, dan 14 iterasi, throughput ditingkatkan dari sekitar 15 tokens/sec menjadi sekitar 193 tokens/sec
- Kecepatan akhir sekitar 20% lebih cepat dibanding LM Studio
- Melakukan perombakan total pada mesin pencocokan finansial open source berusia 8 tahun, exchange-core
- Selama 13 jam eksekusi, mengulang 12 strategi optimisasi dan melakukan penyesuaian presisi pada lebih dari 4.000 baris kode melalui lebih dari 1.000 pemanggilan tool
- Mengidentifikasi bottleneck tersembunyi melalui analisis flame graph untuk alokasi CPU dan memori
- Mengonfigurasi ulang topologi core thread dari 4ME+2RE menjadi 2ME+1RE
- Pada engine yang sudah mendekati batas performa, berhasil mencapai kenaikan throughput median 185% (0.43→1.24 MT/s) dan kenaikan throughput performa 133% (1.23→2.86 MT/s)
- Evaluasi perusahaan dalam beta test juga menunjukkan banyak penilaian positif terkait keandalan coding jangka panjang dan kualitas pemanggilan tool
- Baseten menyebut performa tugas coding setara dengan model tertutup terdepan, kualitas pemanggilan tool yang kuat berbasis pemahaman framework pihak ketiga, serta kecocokan untuk tugas engineering yang kompleks dan jangka panjang
- Blackbox menyebut standar baru untuk model open source dalam workflow coding jangka panjang dan bertipe agen, kemampuan menangani tugas kompleks multilangkah, kualitas kode tinggi, stabilitas sesi panjang, dan kemampuan mendeteksi bug yang tidak kentara
- CodeBuddy mencatat kenaikan akurasi generasi kode 12%, peningkatan stabilitas konteks panjang 18%, dan tingkat keberhasilan pemanggilan tool 96.60% dibanding K2.5
- Factory melaporkan peningkatan 15% dalam evaluasi berdampingan dengan benchmark internalnya
- Fireworks menyebut keandalan rentang panjang dan kemampuan mengikuti instruksi sebagai titik peningkatan terbesar
- Hermes Agent menyoroti eratnya keterkaitan pemanggilan tool dan agent loop, peningkatan coding, serta perluasan cakupan kreativitas
- Kilo menyoroti performa kelas SOTA dengan biaya rendah dan keunggulan pada pekerjaan konteks panjang di seluruh codebase
- Ollama menyebut kecocokan untuk coding dan tool agen, stabilitas pada sesi panjang multilangkah, serta integrasi langsung dengan integrasi yang sudah ada
- OpenCode menyebut stabilitas pada dekomposisi tugas dan pemanggilan tool, penurunan overhead iterasi, serta keandalan pengalaman end-to-end
- Qoder menyebut peningkatan frekuensi pemanggilan tool dan model, peningkatan proaktivitas selama eksekusi tugas, serta berkurangnya interupsi pengguna dan latensi
- Vercel menyebut peningkatan benchmark Next.js lebih dari 50%, performa papan atas di platform, serta kecocokan untuk coding bertipe agen dan pembuatan frontend berbasis efisiensi biaya
Desain berpusat pada coding
- Berdasarkan kemampuan coding yang kuat, prompt sederhana dapat diubah menjadi antarmuka frontend lengkap
- Dapat membuat layout terstruktur dengan hero section yang estetik, elemen interaktif, dan animasi kaya termasuk efek pemicu scroll
- Berdasarkan kemampuan memanfaatkan tool pembuatan gambar dan video, mendukung pembuatan aset yang konsisten secara visual
- Berkontribusi pada kualitas yang lebih tinggi dan pembuatan hero section yang lebih menonjol
- Melampaui frontend statis hingga workflow full-stack sederhana
- Mencakup autentikasi, interaksi pengguna, dan pekerjaan basis data
- Mendukung use case ringan seperti riwayat transaksi atau manajemen sesi
- Membangun benchmark internal Kimi Design Bench
- Terdiri dari empat kategori: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
- Dibandingkan dengan Google AI Studio, mencatat hasil yang menjanjikan dan performa yang baik di berbagai kategori
- Menyediakan contoh hasil keluaran K2.6 Agent
- Hasil dibuat menggunakan satu prompt serta harness dan tool yang telah dikonfigurasi sebelumnya
- Dari sisi estetika, mencakup desain frontend yang indah dengan interaksi kaya
- Dari sisi fungsi, mencakup basis data dan autentikasi bawaan
- Dari sisi pemanfaatan tool, mencakup pembuatan situs web yang matang dengan tool pembuatan gambar dan video
Agent Swarm yang ditingkatkan
- Mengadopsi struktur yang berfokus pada skalasi horizontal, bukan hanya skalasi vertikal
- Agent Swarm secara dinamis memecah tugas menjadi subtugas yang heterogen, lalu agen khusus domain yang dibuatnya sendiri mengeksekusinya secara paralel
- Berdasarkan pratinjau riset K2.5 Agent Swarm, Kimi K2.6 Agent Swarm menghadirkan lompatan kualitas pengalaman
- Menggabungkan pencarian luas dan riset mendalam
- Menggabungkan analisis dokumen skala besar dan penulisan panjang
- Menjalankan pembuatan konten berbagai format secara paralel
- Menyediakan hasil end-to-end yang mencakup dokumen, situs web, slide, dan spreadsheet dalam satu eksekusi otonom
- Memperbesar skala skalasi horizontal arsitektur
- 300 subagen menjalankan 4.000 langkah koordinasi secara bersamaan
- Merupakan perluasan besar dibanding 100 subagen dan 1.500 langkah pada K2.5
- Paralelisasi skala besar mengurangi latensi end-to-end, meningkatkan kualitas output, dan memperluas batas operasional Agent Swarm
- File berkualitas tinggi seperti PDF, spreadsheet, slide, dan dokumen Word dapat diubah menjadi Skills
- Menangkap dan mempertahankan karakteristik struktur serta gaya dokumen
- Memungkinkan reproduksi kualitas dan format yang sama pada pekerjaan berikutnya
- Disajikan berbagai contoh tugas
- Merancang dan mengeksekusi 5 strategi kuant untuk 100 aset semikonduktor global, menurunkan PPT bergaya McKinsey menjadi skill yang dapat digunakan kembali, serta menyediakan spreadsheet pemodelan terperinci dan materi presentasi eksekutif lengkap
- Mengubah makalah astrofisika berkualitas tinggi dengan data visual kaya menjadi skill akademik yang dapat digunakan kembali, menurunkan alur penalaran dan cara visualisasi, lalu menghasilkan makalah riset 40 halaman dan 7.000 kata, dataset terstruktur dengan lebih dari 20.000 item, dan 14 chart tingkat astronomi
- Berdasarkan resume yang diunggah, membuat 100 subagen untuk mencocokkan 100 posisi kerja relevan di California, lalu menyediakan dataset peluang terstruktur dan 100 resume yang disesuaikan
- Mengidentifikasi 30 toko retail di Los Angeles yang tidak memiliki situs web resmi di Google Maps, lalu membuat landing page berfokus konversi untuk masing-masing toko
Agen proaktif
- Mencatat performa kuat pada agen otonom dan proaktif seperti OpenClaw dan Hermes
- Mendukung tipe operasi yang berjalan 24 jam sehari, 7 hari seminggu di berbagai aplikasi
- Mendukung workflow yang berbeda dari interaksi berbasis chat sederhana
- Perlu melakukan manajemen jadwal, eksekusi kode, dan orkestrasi tugas lintas platform sebagai agen latar belakang yang persisten
- Tim infrastruktur RL menjalankan operasi otonom selama 5 hari menggunakan agen berbasis K2.6
- Bertanggung jawab atas monitoring, respons insiden, dan operasi sistem
- Membuktikan pemeliharaan konteks persisten, penanganan tugas multithread, dan eksekusi siklus penuh dari munculnya alarm hingga penyelesaian
- Disebutkan adanya log tugas yang telah melalui penghapusan informasi sensitif
- Mengukur peningkatan keandalan di lingkungan nyata
- Interpretasi API yang lebih akurat
- Performa eksekusi jangka panjang yang lebih stabil
- Peningkatan kesadaran keamanan selama tugas riset jangka panjang
- Mengkuantifikasi peningkatan performa dengan suite evaluasi internal Claw Bench
- Mencakup lima area: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
- Di seluruh metrik, tingkat penyelesaian tugas dan akurasi pemanggilan tool meningkat besar dibanding Kimi K2.5
- Peningkatan sangat kuat terutama pada workflow yang membutuhkan operasi otonom berkelanjutan tanpa supervisi manusia
Bring Your Own Agents
- Berdasarkan kemampuan orkestrasi yang kuat, memperluas agen proaktif menjadi Claw Groups
- Pratinjau riset disediakan sebagai bentuk implementasi baru dari arsitektur Agent Swarm
- Mengakomodasi ekosistem yang terbuka dan heterogen
- Berbagai agen dan manusia bekerja bersama sebagai kolaborator nyata
- Pengguna dapat meng-onboard agen dari perangkat apa pun dan model apa pun yang menjalankannya
- Setiap agen memiliki kumpulan tool, skill, dan konteks memori persisten yang unik
- Agen dari berbagai lingkungan seperti laptop lokal, perangkat mobile, dan instance cloud terintegrasi secara alami ke ruang operasi bersama
- Di pusatnya, Kimi K2.6 berperan sebagai koordinator adaptif
- Mendistribusikan tugas secara dinamis berdasarkan profil skill tiap agen dan tool yang tersedia
- Mengoptimalkan tugas sesuai kapabilitas yang paling tepat
- Saat mendeteksi kegagalan atau kebuntuan agen, melakukan realokasi tugas atau membuat ulang subtugas
- Secara aktif mengelola seluruh siklus hidup output dari awal, verifikasi, hingga penyelesaian
- Mencakup contoh pemanfaatan internal Claw Groups
- Menggunakan tim pemasaran agen secara internal untuk benar-benar menyempurnakan workflow manusia-agen
- Agen khusus seperti Demo Makers, Benchmark Makers, Social Media Agents, dan Video Makers bekerja bersama
- Menjalankan produksi konten end-to-end dan kampanye peluncuran
- K2.6 mengoordinasikan pembagian hasil perantara dan mengubah ide menjadi output akhir yang konsisten
- Memperluas hubungan manusia dan AI melampaui tanya jawab atau penugasan sederhana menjadi kemitraan kolaboratif yang nyata
- Mengusulkan visi masa depan di mana batas antara “my agent”, “your agent”, dan “our team” menghilang secara alami dalam sistem kolaboratif
Tabel benchmark
- Angka utama di kategori Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 masing-masing 74.9 dan 78.4
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
- Angka utama di kategori Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
- Angka utama di kategori Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
- Angka utama di kategori Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
- Untuk reproduksi resmi hasil benchmark Kimi-K2.6, disarankan menggunakan API resmi
- Termasuk panduan untuk merujuk ke Kimi Vendor Verifier (KVV) saat memilih penyedia pihak ketiga
Catatan kaki
-
Detail pengujian umum
- Kimi K2.6 dan Kimi K2.5 dilaporkan dengan thinking mode enabled, Claude Opus 4.6 dengan max effort, GPT-5.4 dengan xhigh reasoning effort, dan Gemini 3.1 Pro dengan high thinking level
- Kecuali dinyatakan lain, eksperimen Kimi K2.6 dijalankan dengan temperature 1.0, top-p 1.0, dan panjang konteks 262.144 tokens
- Benchmark tanpa skor publik dievaluasi ulang dalam kondisi yang sama seperti Kimi K2.6 dan ditandai dengan tanda bintang (*)
- Hasil tanpa tanda bintang mengutip laporan resmi
-
Benchmark penalaran
- Skor IMO-AnswerBench untuk GPT-5.4 dan Claude 4.6 diperoleh dari blog z.ai
- Humanity's Last Exam (HLE) dan tugas penalaran lainnya dievaluasi dengan panjang generasi maksimum 98.304 tokens
- Nilai laporan dasar adalah HLE full set
- Pada subset hanya teks, Kimi K2.6 mencatat 36.4% accuracy tanpa tool dan 55.5% accuracy dengan tool
-
Pekerjaan agentic dan dengan penguatan tool
- Pada HLE with tools, BrowseComp, DeepSearchQA, dan WideSearch dilengkapi tool search, code-interpreter, dan web-browsing
- HLE-Full with tools menggunakan panjang generasi maksimum 262.144 tokens dan batas per langkah 49.152 tokens
- Saat jendela konteks melewati ambang batas, digunakan strategi manajemen konteks sederhana yang hanya mempertahankan putaran pesan terkait tool paling baru
- Skor BrowseComp diperoleh dengan manajemen konteks strategi discard-all yang sama seperti pada Kimi K2.5 dan DeepSeek-V3.2
- Pada DeepSearchQA, pengujian Kimi K2.6 tidak menerapkan manajemen konteks, dan tugas yang melebihi panjang konteks yang didukung langsung dihitung sebagai gagal
- Skor DeepSearchQA untuk Claude Opus 4.6, GPT-5.4, dan Gemini 3.1 Pro mengutip Claude Opus 4.7 System Card
- WideSearch melaporkan hasil dengan pengaturan manajemen konteks hide tool result
- System prompt pengujian sama dengan Kimi K2.5 technical report
- Claw Eval dijalankan dengan version 1.1 dan max-tokens-per-step 16384
- APEX-Agents mengevaluasi 452 tugas dari total 480 tugas publik
- Sama seperti Artificial Analysis, Investment Banking Worlds 244, 246 dikecualikan
- Alasan pengecualian adalah dependensi runtime eksternal
-
Tugas coding
- Skor Terminal-Bench 2.0 diperoleh dengan framework agen default Terminus-2 dan JSON parser yang disediakan, menggunakan preserve thinking mode
- Evaluasi seri SWE-Bench (termasuk Verified, Multilingual, dan Pro) menggunakan framework evaluasi internal yang dimodifikasi berbasis SWE-agent
- Konfigurasi tool pada framework tersebut adalah set minimum dari bash tool, createfile tool, insert tool, view tool, strreplace tool, dan submit tool
- Semua skor yang dilaporkan untuk tugas coding adalah rata-rata dari 10 eksekusi independen
-
Benchmark vision
- Diterapkan max-tokens 98.304 dan rata-rata 3 kali eksekusi (avg@3)
- Pengaturan penggunaan tool Python menjalankan penalaran multilangkah dengan max-tokens-per-step 65.536 dan max-steps 50
- MMMU-Pro mengikuti protokol resmi, mempertahankan urutan input dan menempatkan gambar di depan
1 komentar
Komentar Hacker News
Saya mencobanya lewat OpenRouter, dan yang mengesankan adalah model ini bukan cuma menggambar SVG pelikan begitu saja, tetapi juga membungkusnya dalam HTML dengan pengaturan kecepatan animasi sebelum mengekspornya. Riwayat percakapan dan HTML ada di gist ini, dan contoh jalannya bisa dilihat di tautan ini
Dari benchmark awal, Kimi K2.6 meningkat jauh dibanding Kimi K2 Thinking. Model sebelumnya performanya kurang bagus di benchmark kami, dan kuantisasi juga sudah memakai pengaturan terbaik. Sekarang Kimi K2.6 termasuk jajaran teratas model open-weight dalam penalaran coding one-shot, sedikit lebih baik daripada GLM 5.1, dan kira-kira bisa bersaing dengan model SOTA dari sekitar 3 bulan lalu, jadi terlihat setara dengan Gemini 3.1 Pro Preview. Pengujian agen masih berlangsung, dan model open-weight cenderung lemah pada workflow agen konteks panjang, tetapi GLM 5.1 bertahan cukup baik, jadi saya penasaran dengan hasil Kimi. Namun, baik versi lama maupun baru sama-sama cenderung lambat, jadi kegunaan praktisnya untuk agentic coding bisa terbatas. Kimi K2 sebelumnya sangat dioptimalkan untuk benchmark dan tampak lebih tertarik pada variasi dan temperatur daripada memecahkan masalah sulit, tetapi model kali ini terlihat jauh lebih kuat sebagai model serbaguna. Secara keseluruhan, kubu open-weight tampak sangat menjanjikan, rasanya hampir tiap minggu muncul satu model baru level frontier. Benchmark lengkap bisa dilihat di gertlabs
Ada humor yang ironis dalam melihat Tiongkok mendorong teknologi yang mungkin paling penting di dunia lewat pendekatan open source, sementara AS justru bergerak ke arah sebaliknya
Saya selalu heran Kimi tidak mendapat perhatian sebesar yang seharusnya. Dari sisi kreativitas dan kualitas, model ini terus menonjol, dan cukup lama menjadi model favorit saya. Tentu saya bukan otoritas di bidang ini
Saya penasaran apakah ada orang di sini yang benar-benar memakai Kimi untuk pekerjaan nyata. Saya pernah mencobanya sekali, dan meskipun benchmark-nya tampak mencolok, kesan pemakaian nyatanya biasa saja. Sebaliknya, Qwen 3.6 cukup bagus, dan walau belum selevel Opus, menurut saya sudah cukup bisa menandingi Sonnet
Kalau rasa benchmark dan pengalaman nyata memang sejalan, rasanya ini bisa jadi momen ala DeepSeek ketika AI Tiongkok hampir berdiri sejajar dengan model dari lab riset papan atas AS
Berdasarkan pengujian saya dan perbandingan aibenchy, Kimi K2.6 hanya sedikit lebih baik daripada Kimi K2.5. Khususnya pada teka-teki, masalah spesifik domain, dan tugas akurasi penuh jebakan, saya sering melihat gagal mengikuti instruksi dan jawaban yang salah. Sebagai model coding mungkin ini hebat, tetapi secara keseluruhan kesan kecerdasannya masih sedikit di bawah SOTA teratas
Kadang saya bertanya-tanya apakah di masa depan, seperti komputer lama yang dulu memenuhi satu ruangan lalu sekarang muat di saku, suatu hari jumlah komputasi setara data center bisa muat dalam satu perangkat seperti ponsel. Kecepatan perkembangan teknologi tampak makin cepat dari tahun ke tahun, jadi perubahan seperti itu mungkin juga datang lebih cepat
Saya mengujinya sepanjang pagi ini sambil menghubungkannya ke aplikasi, dan kesan saya hasilnya mirip Sonnet 4.6. Ini murni penilaian berdasarkan vibe tanpa verifikasi resmi, tetapi menyenangkan melihat akhirnya ada persaingan nyata untuk model frontier
Saya penasaran apakah ada paket langganan tetap untuk coding pada model ini. Maksud saya, apakah ada model seperti batas jumlah panggilan API alih-alih batas token. Belakangan penagihan GLM di z.ai gagal sehingga langganan saya terputus, dan harganya juga naik terlalu banyak dalam beberapa bulan terakhir