- Model yang meningkatkan performa pada coding jangka panjang dan pekerjaan bergaya agen, dengan penguatan performa generalisasi di berbagai bahasa serta front-end, devops, dan optimasi performa secara menyeluruh
- Menangani pekerjaan engineering yang kompleks melalui coding berkelanjutan, dengan peningkatan throughput besar pada optimasi inferensi Zig dan perombakan total exchange-core setelah ribuan pemanggilan alat dan eksekusi terus-menerus selama lebih dari 12 jam
- Mengubah prompt sederhana menjadi antarmuka front-end lengkap dan memanfaatkan alat pembuatan gambar·video, sekaligus mendukung workflow full-stack sederhana yang mencakup autentikasi dan pekerjaan database
- Memperluas arsitektur Agent Swarm ke skala 300 subagen dan 4.000 tahap koordinasi untuk menjalankan pencarian, riset, penulisan dokumen, dan pembuatan file secara paralel, serta mengubah format dan gaya PDF, slide, spreadsheet, dan dokumen Word menjadi skills yang dapat digunakan ulang
- Memperluas cakupan hingga agen proaktif dan Claw Groups untuk operasi otonom jangka panjang, kolaborasi multiagen, dan realokasi tugas, dengan peningkatan coding, pemanggilan alat, dan keandalan eksekusi jangka panjang yang terverifikasi dalam benchmark dan beta test perusahaan
Coding jangka panjang
- Peningkatan performa terkonfirmasi pada tugas coding jangka panjang, dengan penguatan performa generalisasi di berbagai bahasa seperti Rust, Go, dan Python serta di berbagai tugas seperti front-end, devops, dan optimasi performa
- Pada benchmark coding internal Kimi Code Bench, tercatat peningkatan besar dibanding Kimi K2.5 di berbagai tugas end-to-end yang kompleks
- Menjalankan coding berkelanjutan pada pekerjaan engineering yang kompleks
- Berhasil mengunduh dan menerapkan model Qwen3.5-0.8B di lingkungan lokal Mac
- Mengimplementasikan dan mengoptimalkan inferensi model menggunakan bahasa yang relatif khusus, Zig, membuktikan performa generalisasi di luar distribusi
- Setelah lebih dari 4.000 pemanggilan alat, lebih dari 12 jam eksekusi beruntun, dan 14 iterasi, throughput ditingkatkan dari sekitar 15 tokens/sec menjadi sekitar 193 tokens/sec
- Kecepatan akhir sekitar 20% lebih cepat dibanding LM Studio
- Melakukan perombakan total pada mesin matching finansial open source berusia 8 tahun, exchange-core
- Selama 13 jam eksekusi, mengulang 12 strategi optimasi dan melakukan modifikasi presisi pada lebih dari 4.000 baris kode melalui lebih dari 1.000 pemanggilan alat
- Mengidentifikasi bottleneck tersembunyi melalui analisis flame graph untuk alokasi CPU dan memori
- Menyusun ulang topologi core thread dari 4ME+2RE menjadi 2ME+1RE
- Pada engine yang sudah mendekati batas performa, berhasil mencapai kenaikan throughput median 185% (0.43→1.24 MT/s) dan kenaikan throughput performa 133% (1.23→2.86 MT/s)
- Dalam evaluasi perusahaan pada beta test juga terkonfirmasi banyak penilaian positif terkait keandalan coding jangka panjang dan kualitas pemanggilan alat
- Baseten menyebut performa tugas coding yang setara dengan model privat terdepan, kualitas pemanggilan alat yang kuat berdasarkan pemahaman framework pihak ketiga, serta kecocokan untuk tugas engineering yang kompleks dan jangka panjang
- Blackbox menyebut standar baru untuk model open source pada workflow coding jangka panjang dan bergaya agen, kemampuan menangani tugas multi-tahap yang kompleks, kualitas kode tinggi, stabilitas sesi jangka panjang, dan kemampuan mendeteksi bug yang tidak kasatmata
- CodeBuddy mencatat peningkatan akurasi generasi kode 12%, peningkatan stabilitas konteks panjang 18%, dan tingkat keberhasilan pemanggilan alat 96.60% dibanding K2.5
- Factory melaporkan peningkatan 15% dalam evaluasi yang disejajarkan dengan benchmark internalnya sendiri
- Fireworks menyebut keandalan jangka panjang dan kemampuan mengikuti instruksi sebagai area peningkatan terbesar
- Hermes Agent menyebut keterpaduan pemanggilan alat dan loop agen, peningkatan coding, serta perluasan cakupan kreativitas
- Kilo menyebut performa kelas SOTA dengan biaya rendah dan kekuatan dalam tugas konteks panjang di seluruh codebase
- Ollama menyebut kecocokan untuk coding dan alat agen, stabilitas dalam sesi panjang multi-tahap, serta integrasi langsung dengan integrasi yang sudah ada
- OpenCode menyebut stabilitas dalam dekomposisi tugas dan pemanggilan alat, pengurangan overhead iterasi, serta keandalan pengalaman end-to-end
- Qoder menyebut peningkatan frekuensi pemanggilan alat dan model, peningkatan proaktivitas saat eksekusi tugas, serta penurunan interupsi pengguna dan latensi
- Vercel menyebut peningkatan benchmark Next.js lebih dari 50%, performa papan atas di platform, serta kecocokan untuk coding bergaya agen dan pembuatan front-end berdasarkan efisiensi biaya
Desain berpusat pada coding
- Berdasarkan kemampuan coding yang kuat, dapat mengubah prompt sederhana menjadi antarmuka front-end lengkap
- Menghasilkan layout terstruktur seperti hero section yang estetis, elemen interaktif, dan animasi kaya termasuk efek trigger saat scroll
- Mendukung pembuatan aset yang konsisten secara visual berdasarkan kemampuan memanfaatkan alat pembuat gambar·video
- Berkontribusi pada pembuatan hero section dengan kualitas lebih tinggi dan lebih menonjol
- Meluas dari front-end statis ke workflow full-stack sederhana
- Mencakup autentikasi, interaksi pengguna, dan pekerjaan database
- Mendukung use case ringan seperti catatan transaksi atau manajemen sesi
- Membangun benchmark internal Kimi Design Bench
- Terdiri dari empat kategori: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
- Mencatat hasil yang menjanjikan dan performa yang baik di berbagai kategori dibanding Google AI Studio
- Menyediakan contoh hasil buatan K2.6 Agent
- Menghasilkan output menggunakan satu prompt serta harness dan alat yang telah dikonfigurasi sebelumnya
- Dari sisi estetika, mencakup desain front-end yang indah dengan interaksi yang kaya
- Dari sisi fungsi, mencakup database bawaan dan autentikasi
- Dari sisi pemanfaatan alat, mencakup pembuatan website yang rapi menggunakan alat generasi gambar·video
Agent Swarm yang ditingkatkan
- Mengadopsi struktur yang berfokus pada skalabilitas horizontal, bukan hanya vertikal
- Agent Swarm secara dinamis memecah pekerjaan menjadi subtugas heterogen, lalu agen spesifik domain yang dibuatnya sendiri menjalankannya secara paralel
- Berdasarkan research preview K2.5 Agent Swarm, Kimi K2.6 Agent Swarm menghadirkan lompatan kualitas pengalaman
- Menggabungkan pencarian luas dan riset mendalam
- Menggabungkan analisis dokumen skala besar dan penulisan panjang
- Menjalankan pembuatan konten berbagai format secara paralel
- Menyediakan output end-to-end yang mencakup dokumen, website, slide, dan spreadsheet dalam satu eksekusi otonom
- Memperluas skala skalabilitas horizontal arsitektur
- 300 subagen menjalankan 4.000 tahap koordinasi secara bersamaan
- Ekspansi besar dibanding 100 subagen dan 1.500 tahap pada K2.5
- Paralelisasi skala besar menurunkan latensi end-to-end, meningkatkan kualitas output, dan memperluas batas operasional Agent Swarm
- File berkualitas tinggi seperti PDF, spreadsheet, slide, dan dokumen Word dapat diubah menjadi Skills
- Menangkap dan mempertahankan karakteristik struktur serta gaya dokumen
- Dapat mereproduksi kualitas dan format yang sama pada pekerjaan berikutnya
- Menyajikan banyak contoh tugas
- Mendesain dan menjalankan 5 strategi kuant untuk 100 aset semikonduktor global, menurunkan PPT bergaya McKinsey menjadi skill yang dapat digunakan ulang, serta menyediakan spreadsheet pemodelan detail dan materi presentasi eksekutif lengkap
- Mengubah makalah astrofisika berkualitas tinggi dengan data visual kaya menjadi skill akademik yang dapat digunakan ulang, menurunkan alur penalaran dan metode visualisasi, lalu menghasilkan makalah riset 40 halaman·7.000 kata, dataset terstruktur dengan lebih dari 20.000 item, dan 14 chart setingkat astronomi
- Berdasarkan resume yang diunggah, membuat 100 subagen untuk mencocokkan 100 lowongan relevan di California, lalu menyediakan dataset peluang terstruktur dan 100 resume yang disesuaikan
- Mengidentifikasi 30 toko retail di Los Angeles yang tidak memiliki website resmi di Google Maps, lalu membuat landing page berfokus konversi untuk tiap toko
Agen proaktif
- Mencatat performa kuat pada agen otonom dan proaktif seperti OpenClaw dan Hermes
- Mendukung tipe operasi yang berjalan 24 jam sehari, 7 hari seminggu lintas berbagai aplikasi
- Menangani workflow yang berbeda dari interaksi sederhana berbasis chat
- Diperlukan agen latar belakang berkelanjutan untuk menjalankan pengelolaan jadwal, eksekusi kode, dan orkestrasi tugas lintas platform
- Tim infrastruktur RL menjalankan operasi otonom selama 5 hari menggunakan agen berbasis K2.6
- Bertugas untuk monitoring, respons insiden, dan operasi sistem
- Membuktikan pemeliharaan konteks berkelanjutan, penanganan tugas multithread, dan eksekusi siklus penuh dari munculnya alert hingga penyelesaian
- Disebutkan adanya log tugas yang telah melalui penghapusan informasi sensitif
- Mengukur peningkatan keandalan di lingkungan nyata
- Interpretasi API yang lebih akurat
- Performa eksekusi jangka panjang yang lebih stabil
- Peningkatan kesadaran keamanan selama tugas riset jangka panjang
- Mengkuantifikasi peningkatan performa dengan suite evaluasi internal Claw Bench
- Mencakup lima area: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
- Dibanding Kimi K2.5, tingkat penyelesaian tugas dan akurasi pemanggilan alat meningkat besar di semua metrik
- Khususnya tercatat peningkatan kuat pada workflow yang membutuhkan operasi otonom berkelanjutan tanpa pengawasan manusia
Bring Your Own Agents
- Berdasarkan kemampuan orkestrasi yang kuat, memperluas agen proaktif menjadi Claw Groups
- Disajikan sebagai implementasi baru dari arsitektur Agent Swarm dalam bentuk research preview
- Mengakomodasi ekosistem terbuka dan heterogen
- Berbagai agen dan manusia bekerja bersama sebagai kolaborator nyata
- Pengguna dapat melakukan onboarding agen dari perangkat apa pun dan model apa pun yang digunakan untuk menjalankannya
- Tiap agen memiliki kumpulan alat, skill, dan konteks memori persisten yang unik
- Agen dari berbagai lingkungan seperti laptop lokal, perangkat mobile, dan instance cloud terintegrasi secara alami ke ruang operasi bersama
- Secara terpusat Kimi K2.6 berperan sebagai koordinator adaptif
- Membagi tugas secara dinamis berdasarkan profil skill dan alat yang tersedia pada tiap agen
- Mengoptimalkan tugas sesuai kemampuan yang paling tepat
- Saat agen gagal atau macet, sistem mendeteksinya dan melakukan realokasi tugas atau regenerasi subtugas
- Secara aktif mengelola seluruh siklus hidup output dari awal, verifikasi, hingga penyelesaian
- Mencakup use case internal untuk Claw Groups
- Menggunakan tim marketing agen secara internal untuk benar-benar menyempurnakan workflow manusia-agen
- Agen khusus seperti Demo Makers, Benchmark Makers, Social Media Agents, dan Video Makers bekerja bersama
- Menjalankan produksi konten end-to-end dan kampanye peluncuran
- K2.6 mengoordinasikan pembagian hasil antara dan transformasi ide menjadi output akhir yang konsisten
- Memperluas hubungan manusia dan AI melampaui tanya-jawab atau penugasan sederhana menjadi kemitraan kolaboratif yang nyata
- Menghadirkan visi masa depan di mana batas antara "my agent", "your agent", dan "our team" lenyap secara alami dalam sistem kolaboratif
Tabel benchmark
- Angka utama pada kategori Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 masing-masing 74.9 dan 78.4
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
- Angka utama pada kategori Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
- Angka utama pada kategori Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
- Angka utama pada kategori Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
- Untuk mereproduksi hasil benchmark resmi Kimi-K2.6, disarankan menggunakan API resmi
- Termasuk panduan untuk merujuk ke Kimi Vendor Verifier (KVV) saat memilih penyedia pihak ketiga
Catatan kaki
-
Detail umum pengujian
- Hasil untuk Kimi K2.6 dan Kimi K2.5 dilaporkan dengan thinking mode enabled, Claude Opus 4.6 dengan max effort, GPT-5.4 dengan xhigh reasoning effort, dan Gemini 3.1 Pro dengan high thinking level
- Kecuali dinyatakan lain, eksperimen Kimi K2.6 dilakukan dengan temperature 1.0, top-p 1.0, dan panjang konteks 262,144 tokens
- Benchmark tanpa skor publik dievaluasi ulang dengan kondisi yang sama seperti Kimi K2.6 dan ditandai dengan tanda bintang(*)
- Hasil tanpa tanda bintang mengutip laporan resmi
-
Benchmark penalaran
- Skor IMO-AnswerBench untuk GPT-5.4 dan Claude 4.6 diperoleh dari blog z.ai
- Humanity's Last Exam (HLE) dan tugas penalaran lainnya dievaluasi dengan panjang generasi maksimum 98,304 tokens
- Nilai laporan default adalah HLE full set
- Pada subset teks-saja, Kimi K2.6 mencatat 36.4% accuracy tanpa alat dan 55.5% accuracy dengan alat
-
Tugas yang diperkuat alat dan bergaya agen
- Pada HLE with tools, BrowseComp, DeepSearchQA, dan WideSearch, dipasangi alat search, code-interpreter, web-browsing
- HLE-Full with tools menggunakan panjang generasi maksimum 262,144 tokens dan batas per langkah 49,152 tokens
- Saat jendela konteks melewati ambang batas, digunakan strategi manajemen konteks sederhana yang hanya mempertahankan ronde pesan terkait alat terbaru
- Skor BrowseComp diperoleh dengan manajemen konteks menggunakan strategi discard-all yang sama seperti pada Kimi K2.5 dan DeepSeek-V3.2
- Pada DeepSearchQA, pengujian Kimi K2.6 tidak menerapkan manajemen konteks, dan tugas yang melebihi panjang konteks yang didukung langsung dihitung sebagai gagal
- Skor DeepSearchQA untuk Claude Opus 4.6, GPT-5.4, dan Gemini 3.1 Pro mengutip Claude Opus 4.7 System Card
- WideSearch melaporkan hasil dengan pengaturan manajemen konteks hide tool result
- Prompt sistem pengujian sama dengan Kimi K2.5 technical report
- Claw Eval dijalankan dengan version 1.1 dan max-tokens-per-step 16384
- APEX-Agents mengevaluasi 452 tugas dari total 480 tugas publik
- Sama seperti Artificial Analysis, Investment Banking Worlds 244, 246 dikecualikan
- Alasan pengecualian adalah dependensi runtime eksternal
-
Tugas coding
- Skor Terminal-Bench 2.0 diperoleh menggunakan framework agen default Terminus-2 dan JSON parser yang disediakan, dengan preserve thinking mode
- Evaluasi seri SWE-Bench (termasuk Verified, Multilingual, dan Pro) menggunakan framework evaluasi internal yang dimodifikasi berdasarkan SWE-agent
- Konfigurasi alat pada framework tersebut adalah himpunan minimum dari bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool
- Semua skor yang dilaporkan untuk tugas coding adalah rata-rata dari 10 kali eksekusi independen
-
Benchmark vision
- Diterapkan max-tokens 98,304 dan rata-rata 3 kali eksekusi (avg@3)
- Pengaturan penggunaan alat Python menjalankan penalaran multi-langkah dengan max-tokens-per-step 65,536 dan max-steps 50
- MMMU-Pro mengikuti protokol resmi dengan mempertahankan urutan input dan menempatkan gambar di depan
3 komentar
Komentar Hacker News
Saya mencobanya lewat OpenRouter, dan yang mengesankan adalah model ini bukan cuma menggambar SVG pelikan begitu saja, tetapi juga membungkusnya dalam HTML dengan pengaturan kecepatan animasi sebelum mengekspornya. Riwayat percakapan dan HTML ada di gist ini, dan contoh jalannya bisa dilihat di tautan ini
Dari benchmark awal, Kimi K2.6 meningkat jauh dibanding Kimi K2 Thinking. Model sebelumnya performanya kurang bagus di benchmark kami, dan kuantisasi juga sudah memakai pengaturan terbaik. Sekarang Kimi K2.6 termasuk jajaran teratas model open-weight dalam penalaran coding one-shot, sedikit lebih baik daripada GLM 5.1, dan kira-kira bisa bersaing dengan model SOTA dari sekitar 3 bulan lalu, jadi terlihat setara dengan Gemini 3.1 Pro Preview. Pengujian agen masih berlangsung, dan model open-weight cenderung lemah pada workflow agen konteks panjang, tetapi GLM 5.1 bertahan cukup baik, jadi saya penasaran dengan hasil Kimi. Namun, baik versi lama maupun baru sama-sama cenderung lambat, jadi kegunaan praktisnya untuk agentic coding bisa terbatas. Kimi K2 sebelumnya sangat dioptimalkan untuk benchmark dan tampak lebih tertarik pada variasi dan temperatur daripada memecahkan masalah sulit, tetapi model kali ini terlihat jauh lebih kuat sebagai model serbaguna. Secara keseluruhan, kubu open-weight tampak sangat menjanjikan, rasanya hampir tiap minggu muncul satu model baru level frontier. Benchmark lengkap bisa dilihat di gertlabs
Ada humor yang ironis dalam melihat Tiongkok mendorong teknologi yang mungkin paling penting di dunia lewat pendekatan open source, sementara AS justru bergerak ke arah sebaliknya
Saya selalu heran Kimi tidak mendapat perhatian sebesar yang seharusnya. Dari sisi kreativitas dan kualitas, model ini terus menonjol, dan cukup lama menjadi model favorit saya. Tentu saya bukan otoritas di bidang ini
Saya penasaran apakah ada orang di sini yang benar-benar memakai Kimi untuk pekerjaan nyata. Saya pernah mencobanya sekali, dan meskipun benchmark-nya tampak mencolok, kesan pemakaian nyatanya biasa saja. Sebaliknya, Qwen 3.6 cukup bagus, dan walau belum selevel Opus, menurut saya sudah cukup bisa menandingi Sonnet
Kalau rasa benchmark dan pengalaman nyata memang sejalan, rasanya ini bisa jadi momen ala DeepSeek ketika AI Tiongkok hampir berdiri sejajar dengan model dari lab riset papan atas AS
Berdasarkan pengujian saya dan perbandingan aibenchy, Kimi K2.6 hanya sedikit lebih baik daripada Kimi K2.5. Khususnya pada teka-teki, masalah spesifik domain, dan tugas akurasi penuh jebakan, saya sering melihat gagal mengikuti instruksi dan jawaban yang salah. Sebagai model coding mungkin ini hebat, tetapi secara keseluruhan kesan kecerdasannya masih sedikit di bawah SOTA teratas
Kadang saya bertanya-tanya apakah di masa depan, seperti komputer lama yang dulu memenuhi satu ruangan lalu sekarang muat di saku, suatu hari jumlah komputasi setara data center bisa muat dalam satu perangkat seperti ponsel. Kecepatan perkembangan teknologi tampak makin cepat dari tahun ke tahun, jadi perubahan seperti itu mungkin juga datang lebih cepat
Saya mengujinya sepanjang pagi ini sambil menghubungkannya ke aplikasi, dan kesan saya hasilnya mirip Sonnet 4.6. Ini murni penilaian berdasarkan vibe tanpa verifikasi resmi, tetapi menyenangkan melihat akhirnya ada persaingan nyata untuk model frontier
Saya penasaran apakah ada paket langganan tetap untuk coding pada model ini. Maksud saya, apakah ada model seperti batas jumlah panggilan API alih-alih batas token. Belakangan penagihan GLM di z.ai gagal sehingga langganan saya terputus, dan harganya juga naik terlalu banyak dalam beberapa bulan terakhir
Secara pribadi saya menggunakan kimi2.5 tanpa batas dengan baik melalui firepass dari Fireworks.ai seharga $30 per bulan, jadi saya sangat menantikan peningkatan performa 2.6 ini yang akan segera diterapkan juga di firepass.
Setelah sempat mencobanya lewat API, saya merasa ada kemajuan yang sangat besar dibandingkan 2.5.
Wah, ini memblokir pendaftaran baru.