Kimi K2.6 dirilis - Kemajuan dalam coding open source

(kimi.com)

5 poin oleh GN⁺ 2026-04-21 | 3 komentar | Bagikan ke WhatsApp

Model yang meningkatkan performa pada coding jangka panjang dan pekerjaan bergaya agen, dengan penguatan performa generalisasi di berbagai bahasa serta front-end, devops, dan optimasi performa secara menyeluruh
Menangani pekerjaan engineering yang kompleks melalui coding berkelanjutan, dengan peningkatan throughput besar pada optimasi inferensi Zig dan perombakan total exchange-core setelah ribuan pemanggilan alat dan eksekusi terus-menerus selama lebih dari 12 jam
Mengubah prompt sederhana menjadi antarmuka front-end lengkap dan memanfaatkan alat pembuatan gambar·video, sekaligus mendukung workflow full-stack sederhana yang mencakup autentikasi dan pekerjaan database
Memperluas arsitektur Agent Swarm ke skala 300 subagen dan 4.000 tahap koordinasi untuk menjalankan pencarian, riset, penulisan dokumen, dan pembuatan file secara paralel, serta mengubah format dan gaya PDF, slide, spreadsheet, dan dokumen Word menjadi skills yang dapat digunakan ulang
Memperluas cakupan hingga agen proaktif dan Claw Groups untuk operasi otonom jangka panjang, kolaborasi multiagen, dan realokasi tugas, dengan peningkatan coding, pemanggilan alat, dan keandalan eksekusi jangka panjang yang terverifikasi dalam benchmark dan beta test perusahaan

Coding jangka panjang

Peningkatan performa terkonfirmasi pada tugas coding jangka panjang, dengan penguatan performa generalisasi di berbagai bahasa seperti Rust, Go, dan Python serta di berbagai tugas seperti front-end, devops, dan optimasi performa
- Pada benchmark coding internal Kimi Code Bench, tercatat peningkatan besar dibanding Kimi K2.5 di berbagai tugas end-to-end yang kompleks
Menjalankan coding berkelanjutan pada pekerjaan engineering yang kompleks
- Berhasil mengunduh dan menerapkan model Qwen3.5-0.8B di lingkungan lokal Mac
- Mengimplementasikan dan mengoptimalkan inferensi model menggunakan bahasa yang relatif khusus, Zig, membuktikan performa generalisasi di luar distribusi
- Setelah lebih dari 4.000 pemanggilan alat, lebih dari 12 jam eksekusi beruntun, dan 14 iterasi, throughput ditingkatkan dari sekitar 15 tokens/sec menjadi sekitar 193 tokens/sec
- Kecepatan akhir sekitar 20% lebih cepat dibanding LM Studio
Melakukan perombakan total pada mesin matching finansial open source berusia 8 tahun, exchange-core
- Selama 13 jam eksekusi, mengulang 12 strategi optimasi dan melakukan modifikasi presisi pada lebih dari 4.000 baris kode melalui lebih dari 1.000 pemanggilan alat
- Mengidentifikasi bottleneck tersembunyi melalui analisis flame graph untuk alokasi CPU dan memori
- Menyusun ulang topologi core thread dari 4ME+2RE menjadi 2ME+1RE
- Pada engine yang sudah mendekati batas performa, berhasil mencapai kenaikan throughput median 185% (0.43→1.24 MT/s) dan kenaikan throughput performa 133% (1.23→2.86 MT/s)
Dalam evaluasi perusahaan pada beta test juga terkonfirmasi banyak penilaian positif terkait keandalan coding jangka panjang dan kualitas pemanggilan alat
- Baseten menyebut performa tugas coding yang setara dengan model privat terdepan, kualitas pemanggilan alat yang kuat berdasarkan pemahaman framework pihak ketiga, serta kecocokan untuk tugas engineering yang kompleks dan jangka panjang
- Blackbox menyebut standar baru untuk model open source pada workflow coding jangka panjang dan bergaya agen, kemampuan menangani tugas multi-tahap yang kompleks, kualitas kode tinggi, stabilitas sesi jangka panjang, dan kemampuan mendeteksi bug yang tidak kasatmata
- CodeBuddy mencatat peningkatan akurasi generasi kode 12%, peningkatan stabilitas konteks panjang 18%, dan tingkat keberhasilan pemanggilan alat 96.60% dibanding K2.5
- Factory melaporkan peningkatan 15% dalam evaluasi yang disejajarkan dengan benchmark internalnya sendiri
- Fireworks menyebut keandalan jangka panjang dan kemampuan mengikuti instruksi sebagai area peningkatan terbesar
- Hermes Agent menyebut keterpaduan pemanggilan alat dan loop agen, peningkatan coding, serta perluasan cakupan kreativitas
- Kilo menyebut performa kelas SOTA dengan biaya rendah dan kekuatan dalam tugas konteks panjang di seluruh codebase
- Ollama menyebut kecocokan untuk coding dan alat agen, stabilitas dalam sesi panjang multi-tahap, serta integrasi langsung dengan integrasi yang sudah ada
- OpenCode menyebut stabilitas dalam dekomposisi tugas dan pemanggilan alat, pengurangan overhead iterasi, serta keandalan pengalaman end-to-end
- Qoder menyebut peningkatan frekuensi pemanggilan alat dan model, peningkatan proaktivitas saat eksekusi tugas, serta penurunan interupsi pengguna dan latensi
- Vercel menyebut peningkatan benchmark Next.js lebih dari 50%, performa papan atas di platform, serta kecocokan untuk coding bergaya agen dan pembuatan front-end berdasarkan efisiensi biaya

Desain berpusat pada coding

Berdasarkan kemampuan coding yang kuat, dapat mengubah prompt sederhana menjadi antarmuka front-end lengkap
- Menghasilkan layout terstruktur seperti hero section yang estetis, elemen interaktif, dan animasi kaya termasuk efek trigger saat scroll
Mendukung pembuatan aset yang konsisten secara visual berdasarkan kemampuan memanfaatkan alat pembuat gambar·video
- Berkontribusi pada pembuatan hero section dengan kualitas lebih tinggi dan lebih menonjol
Meluas dari front-end statis ke workflow full-stack sederhana
- Mencakup autentikasi, interaksi pengguna, dan pekerjaan database
- Mendukung use case ringan seperti catatan transaksi atau manajemen sesi
Membangun benchmark internal Kimi Design Bench
- Terdiri dari empat kategori: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
- Mencatat hasil yang menjanjikan dan performa yang baik di berbagai kategori dibanding Google AI Studio
Menyediakan contoh hasil buatan K2.6 Agent
- Menghasilkan output menggunakan satu prompt serta harness dan alat yang telah dikonfigurasi sebelumnya
- Dari sisi estetika, mencakup desain front-end yang indah dengan interaksi yang kaya
- Dari sisi fungsi, mencakup database bawaan dan autentikasi
- Dari sisi pemanfaatan alat, mencakup pembuatan website yang rapi menggunakan alat generasi gambar·video

Agent Swarm yang ditingkatkan

Mengadopsi struktur yang berfokus pada skalabilitas horizontal, bukan hanya vertikal
- Agent Swarm secara dinamis memecah pekerjaan menjadi subtugas heterogen, lalu agen spesifik domain yang dibuatnya sendiri menjalankannya secara paralel
Berdasarkan research preview K2.5 Agent Swarm, Kimi K2.6 Agent Swarm menghadirkan lompatan kualitas pengalaman
- Menggabungkan pencarian luas dan riset mendalam
- Menggabungkan analisis dokumen skala besar dan penulisan panjang
- Menjalankan pembuatan konten berbagai format secara paralel
- Menyediakan output end-to-end yang mencakup dokumen, website, slide, dan spreadsheet dalam satu eksekusi otonom
Memperluas skala skalabilitas horizontal arsitektur
- 300 subagen menjalankan 4.000 tahap koordinasi secara bersamaan
- Ekspansi besar dibanding 100 subagen dan 1.500 tahap pada K2.5
- Paralelisasi skala besar menurunkan latensi end-to-end, meningkatkan kualitas output, dan memperluas batas operasional Agent Swarm
File berkualitas tinggi seperti PDF, spreadsheet, slide, dan dokumen Word dapat diubah menjadi Skills
- Menangkap dan mempertahankan karakteristik struktur serta gaya dokumen
- Dapat mereproduksi kualitas dan format yang sama pada pekerjaan berikutnya
Menyajikan banyak contoh tugas
- Mendesain dan menjalankan 5 strategi kuant untuk 100 aset semikonduktor global, menurunkan PPT bergaya McKinsey menjadi skill yang dapat digunakan ulang, serta menyediakan spreadsheet pemodelan detail dan materi presentasi eksekutif lengkap
- Mengubah makalah astrofisika berkualitas tinggi dengan data visual kaya menjadi skill akademik yang dapat digunakan ulang, menurunkan alur penalaran dan metode visualisasi, lalu menghasilkan makalah riset 40 halaman·7.000 kata, dataset terstruktur dengan lebih dari 20.000 item, dan 14 chart setingkat astronomi
- Berdasarkan resume yang diunggah, membuat 100 subagen untuk mencocokkan 100 lowongan relevan di California, lalu menyediakan dataset peluang terstruktur dan 100 resume yang disesuaikan
- Mengidentifikasi 30 toko retail di Los Angeles yang tidak memiliki website resmi di Google Maps, lalu membuat landing page berfokus konversi untuk tiap toko

Agen proaktif

Mencatat performa kuat pada agen otonom dan proaktif seperti OpenClaw dan Hermes
- Mendukung tipe operasi yang berjalan 24 jam sehari, 7 hari seminggu lintas berbagai aplikasi
Menangani workflow yang berbeda dari interaksi sederhana berbasis chat
- Diperlukan agen latar belakang berkelanjutan untuk menjalankan pengelolaan jadwal, eksekusi kode, dan orkestrasi tugas lintas platform
Tim infrastruktur RL menjalankan operasi otonom selama 5 hari menggunakan agen berbasis K2.6
- Bertugas untuk monitoring, respons insiden, dan operasi sistem
- Membuktikan pemeliharaan konteks berkelanjutan, penanganan tugas multithread, dan eksekusi siklus penuh dari munculnya alert hingga penyelesaian
- Disebutkan adanya log tugas yang telah melalui penghapusan informasi sensitif
Mengukur peningkatan keandalan di lingkungan nyata
- Interpretasi API yang lebih akurat
- Performa eksekusi jangka panjang yang lebih stabil
- Peningkatan kesadaran keamanan selama tugas riset jangka panjang
Mengkuantifikasi peningkatan performa dengan suite evaluasi internal Claw Bench
- Mencakup lima area: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
- Dibanding Kimi K2.5, tingkat penyelesaian tugas dan akurasi pemanggilan alat meningkat besar di semua metrik
- Khususnya tercatat peningkatan kuat pada workflow yang membutuhkan operasi otonom berkelanjutan tanpa pengawasan manusia

Bring Your Own Agents

Berdasarkan kemampuan orkestrasi yang kuat, memperluas agen proaktif menjadi Claw Groups
- Disajikan sebagai implementasi baru dari arsitektur Agent Swarm dalam bentuk research preview
Mengakomodasi ekosistem terbuka dan heterogen
- Berbagai agen dan manusia bekerja bersama sebagai kolaborator nyata
- Pengguna dapat melakukan onboarding agen dari perangkat apa pun dan model apa pun yang digunakan untuk menjalankannya
- Tiap agen memiliki kumpulan alat, skill, dan konteks memori persisten yang unik
- Agen dari berbagai lingkungan seperti laptop lokal, perangkat mobile, dan instance cloud terintegrasi secara alami ke ruang operasi bersama
Secara terpusat Kimi K2.6 berperan sebagai koordinator adaptif
- Membagi tugas secara dinamis berdasarkan profil skill dan alat yang tersedia pada tiap agen
- Mengoptimalkan tugas sesuai kemampuan yang paling tepat
- Saat agen gagal atau macet, sistem mendeteksinya dan melakukan realokasi tugas atau regenerasi subtugas
- Secara aktif mengelola seluruh siklus hidup output dari awal, verifikasi, hingga penyelesaian
Mencakup use case internal untuk Claw Groups
- Menggunakan tim marketing agen secara internal untuk benar-benar menyempurnakan workflow manusia-agen
- Agen khusus seperti Demo Makers, Benchmark Makers, Social Media Agents, dan Video Makers bekerja bersama
- Menjalankan produksi konten end-to-end dan kampanye peluncuran
- K2.6 mengoordinasikan pembagian hasil antara dan transformasi ide menjadi output akhir yang konsisten
Memperluas hubungan manusia dan AI melampaui tanya-jawab atau penugasan sederhana menjadi kemitraan kolaboratif yang nyata
- Menghadirkan visi masa depan di mana batas antara "my agent", "your agent", dan "our team" lenyap secara alami dalam sistem kolaboratif

Tabel benchmark

Angka utama pada kategori Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 masing-masing 74.9 dan 78.4
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
Angka utama pada kategori Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
Angka utama pada kategori Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
Angka utama pada kategori Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
Untuk mereproduksi hasil benchmark resmi Kimi-K2.6, disarankan menggunakan API resmi
- Termasuk panduan untuk merujuk ke Kimi Vendor Verifier (KVV) saat memilih penyedia pihak ketiga

Catatan kaki

Detail umum pengujian
- Hasil untuk Kimi K2.6 dan Kimi K2.5 dilaporkan dengan thinking mode enabled, Claude Opus 4.6 dengan max effort, GPT-5.4 dengan xhigh reasoning effort, dan Gemini 3.1 Pro dengan high thinking level
- Kecuali dinyatakan lain, eksperimen Kimi K2.6 dilakukan dengan temperature 1.0, top-p 1.0, dan panjang konteks 262,144 tokens
- Benchmark tanpa skor publik dievaluasi ulang dengan kondisi yang sama seperti Kimi K2.6 dan ditandai dengan tanda bintang(*)
- Hasil tanpa tanda bintang mengutip laporan resmi
Benchmark penalaran
- Skor IMO-AnswerBench untuk GPT-5.4 dan Claude 4.6 diperoleh dari blog z.ai
- Humanity's Last Exam (HLE) dan tugas penalaran lainnya dievaluasi dengan panjang generasi maksimum 98,304 tokens
- Nilai laporan default adalah HLE full set
- Pada subset teks-saja, Kimi K2.6 mencatat 36.4% accuracy tanpa alat dan 55.5% accuracy dengan alat
Tugas yang diperkuat alat dan bergaya agen
- Pada HLE with tools, BrowseComp, DeepSearchQA, dan WideSearch, dipasangi alat search, code-interpreter, web-browsing
- HLE-Full with tools menggunakan panjang generasi maksimum 262,144 tokens dan batas per langkah 49,152 tokens
- Saat jendela konteks melewati ambang batas, digunakan strategi manajemen konteks sederhana yang hanya mempertahankan ronde pesan terkait alat terbaru
- Skor BrowseComp diperoleh dengan manajemen konteks menggunakan strategi discard-all yang sama seperti pada Kimi K2.5 dan DeepSeek-V3.2
- Pada DeepSearchQA, pengujian Kimi K2.6 tidak menerapkan manajemen konteks, dan tugas yang melebihi panjang konteks yang didukung langsung dihitung sebagai gagal
- Skor DeepSearchQA untuk Claude Opus 4.6, GPT-5.4, dan Gemini 3.1 Pro mengutip Claude Opus 4.7 System Card
- WideSearch melaporkan hasil dengan pengaturan manajemen konteks hide tool result
- Prompt sistem pengujian sama dengan Kimi K2.5 technical report
- Claw Eval dijalankan dengan version 1.1 dan max-tokens-per-step 16384
- APEX-Agents mengevaluasi 452 tugas dari total 480 tugas publik
  - Sama seperti Artificial Analysis, Investment Banking Worlds 244, 246 dikecualikan
  - Alasan pengecualian adalah dependensi runtime eksternal
Tugas coding
- Skor Terminal-Bench 2.0 diperoleh menggunakan framework agen default Terminus-2 dan JSON parser yang disediakan, dengan preserve thinking mode
- Evaluasi seri SWE-Bench (termasuk Verified, Multilingual, dan Pro) menggunakan framework evaluasi internal yang dimodifikasi berdasarkan SWE-agent
- Konfigurasi alat pada framework tersebut adalah himpunan minimum dari bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool
- Semua skor yang dilaporkan untuk tugas coding adalah rata-rata dari 10 kali eksekusi independen
Benchmark vision
- Diterapkan max-tokens 98,304 dan rata-rata 3 kali eksekusi (avg@3)
- Pengaturan penggunaan alat Python menjalankan penalaran multi-langkah dengan max-tokens-per-step 65,536 dan max-steps 50
- MMMU-Pro mengikuti protokol resmi dengan mempertahankan urutan input dan menempatkan gambar di depan

3 komentar

GN⁺ 2026-04-21

Komentar Hacker News

Saya mencobanya lewat OpenRouter, dan yang mengesankan adalah model ini bukan cuma menggambar SVG pelikan begitu saja, tetapi juga membungkusnya dalam HTML dengan pengaturan kecepatan animasi sebelum mengekspornya. Riwayat percakapan dan HTML ada di gist ini, dan contoh jalannya bisa dilihat di tautan ini
- Sekarang jadi terasa mungkin saja SVG pelikan seperti ini sudah masuk ke dataset pelatihan
- Ini terasa benar-benar seperti tipe yang terlalu rajin, dan nama Kimi juga entah kenapa terdengar seperti murid teladan
- Sayangnya, tampaknya kaki dan telapak kaki pelikan tidak mendapat perhatian yang sama. Kaki kiri tidak bergerak seperti lumpuh, dan pergelangan kaki kanan berputar liar sampai terasa mengkhawatirkan
- Saya memakainya saat beta, dan itu model yang lumayan bagus; pada momen tertentu saya sampai lupa bahwa saya sedang memakai model selain Opus atau GPT. Meski begitu, Opus tetap lebih baik, dan menurut saya GPT terlihat lebih berat dipakai. Untuk pekerjaan backend memang ada sedikit celah yang bisa dimanfaatkan, tetapi kalau sudah mahir, hal serupa masih bisa diselesaikan dengan Opus, dan secara keseluruhan kekurangannya terasa lebih banyak
- Saya sungguh penasaran, apa tujuan memposting ini di hampir setiap thread model baru. Mungkin saya cuma sudah tua dan pemarah, tetapi ini sudah membosankan sejak lama dan terasa seperti komentar Reddit yang minim usaha
Dari benchmark awal, Kimi K2.6 meningkat jauh dibanding Kimi K2 Thinking. Model sebelumnya performanya kurang bagus di benchmark kami, dan kuantisasi juga sudah memakai pengaturan terbaik. Sekarang Kimi K2.6 termasuk jajaran teratas model open-weight dalam penalaran coding one-shot, sedikit lebih baik daripada GLM 5.1, dan kira-kira bisa bersaing dengan model SOTA dari sekitar 3 bulan lalu, jadi terlihat setara dengan Gemini 3.1 Pro Preview. Pengujian agen masih berlangsung, dan model open-weight cenderung lemah pada workflow agen konteks panjang, tetapi GLM 5.1 bertahan cukup baik, jadi saya penasaran dengan hasil Kimi. Namun, baik versi lama maupun baru sama-sama cenderung lambat, jadi kegunaan praktisnya untuk agentic coding bisa terbatas. Kimi K2 sebelumnya sangat dioptimalkan untuk benchmark dan tampak lebih tertarik pada variasi dan temperatur daripada memecahkan masalah sulit, tetapi model kali ini terlihat jauh lebih kuat sebagai model serbaguna. Secara keseluruhan, kubu open-weight tampak sangat menjanjikan, rasanya hampir tiap minggu muncul satu model baru level frontier. Benchmark lengkap bisa dilihat di gertlabs
- Saya penasaran bagaimana harga dan performa K2.6 dibanding Sonnet 4.6
- Cukup mengejutkan melihat variasi performa antarbahasa sebesar ini
Ada humor yang ironis dalam melihat Tiongkok mendorong teknologi yang mungkin paling penting di dunia lewat pendekatan open source, sementara AS justru bergerak ke arah sebaliknya
- Menurut saya, salah satu motivasinya adalah membendung perusahaan AS. OpenAI dan Anthropic adalah pemain terbesar dan keduanya perusahaan AS, jadi makin banyak model open-weight, makin lemah dominasi industri mereka berdua. Jika perusahaan Tiongkok memilih strategi model tertutup ala AS, kebanyakan orang tetap kemungkinan akan memakai ChatGPT atau Claude, jadi kalau memang sulit menghasilkan laba besar, lebih realistis merilis open-weight untuk mengurangi laba berlebih perusahaan AS
- Saya rasa kemajuan teknologi besar pada akhirnya dipercepat lewat keterbukaan. Lihat saja iPhone: banyak teknologi intinya seperti GPS, internet, asisten suara, layar sentuh, mikroprosesor, dan baterai lithium-ion lahir dari riset pemerintah atau riset yang terbuka bagi publik. Perusahaan swasta tidak akan begitu saja membuka terobosan bagi pesaingnya, jadi kalau ingin mendorong seluruh bidang maju, pada akhirnya teknologinya harus dibuka
- Dengan pembaruan ini, menurut saya Kimi K2.6 menjadi model AI multimodal terbuka terkuat saat ini. Tentu saja saya bukan orang dalam. Kalau melihat kumpulan benchmark AI publik, dibanding Opus 4.6 max effort hasilnya adalah agen 5 banding 5, coding Kimi 5 banding Opus 1, penalaran dan pengetahuan Kimi 1 banding Opus 4, dan visi Kimi 9 banding Opus 0. Tentu benchmark bisa bias karena dipilih oleh pembuat model, tetapi banyak benchmark coding dan penalarannya tetap cukup standar
- Tidak harus dilihat sesederhana itu. Google juga baru-baru ini merilis Gemma 4, dan Allen AI juga merilis lini open Olmo. Meski begitu, memang benar model terbuka dari Tiongkok terlihat lebih kuat, terutama seri Qwen 3 yang terasa naik kelas jauh di atas bobotnya
- Ada berbagai spekulasi soal kenapa lab Tiongkok merilis model secara open source, tetapi menurut saya alasannya sederhana dan jelas. Bagi mereka, itu praktis satu-satunya strategi komersialisasi yang memungkinkan. Saya merangkum hal ini di tulisan saya
Saya selalu heran Kimi tidak mendapat perhatian sebesar yang seharusnya. Dari sisi kreativitas dan kualitas, model ini terus menonjol, dan cukup lama menjadi model favorit saya. Tentu saya bukan otoritas di bidang ini
- Bagus sih, tetapi masih belum terasa sekelas Claude. Selain itu, API-nya sering mengalami masalah kapasitas. Meski begitu, rasio harga terhadap kualitasnya benar-benar luar biasa; saya isi saldo 40 dolar beberapa minggu atau bulan lalu, dan sampai sekarang bahkan belum habis separuh
- Menarik juga bahwa ini salah satu dari sedikit model yang bisa menggambar jam SVG. Contohnya bisa dilihat di situs ini
- Lebih bagus lagi karena di OpenRouter harganya sangat murah untuk performa seperti ini. Semoga 2.6 meneruskan tradisi itu
- Saya pernah memakainya sebagai opsi di Kagi Assistant, dan saya suka hasilnya di lingkungan yang banyak pencarian dan peringkasan. Terutama saat saya meminta prosa yang natural, bukan gaya LLM khas yang penuh daftar atau Markdown. Saya tidak bisa membandingkan dengan yakin, tetapi model ini cenderung berani menyusun ulang teks asli demi alur keluaran yang lebih baik, dan kadang penyuntingan seperti itu justru perlu untuk menghubungkan ide terkait yang semula terpisah atau agar jawaban benar-benar menjawab permintaan
- Saya masih ingat ketika K2 pertama keluar; untuk sementara waktu, dalam penulisan kreatif ia jelas lebih unggul daripada model lain
Saya penasaran apakah ada orang di sini yang benar-benar memakai Kimi untuk pekerjaan nyata. Saya pernah mencobanya sekali, dan meskipun benchmark-nya tampak mencolok, kesan pemakaian nyatanya biasa saja. Sebaliknya, Qwen 3.6 cukup bagus, dan walau belum selevel Opus, menurut saya sudah cukup bisa menandingi Sonnet
- Saat kuota Codex habis, saya memakai Kimi K2.5 sebagai pengganti, dan untuk pekerjaan kecil sampai menengah hasilnya lumayan. Tetapi kalau dipakai untuk pekerjaan kompleks, saya akhirnya harus membereskannya lagi selama dua hari dengan Codex, jadi semoga 2.6 sedikit lebih baik
- Sebelum GLM-5.1, saya bolak-balik memakai Opus 4.5 dan Kimi 4.5, dan hasil dari Kimi juga cukup bagus
- Kemungkinan besar Anda sebenarnya sudah memakainya untuk kerja. Jika Anda memakai model composer-2 di Cursor, itu karena model tersebut berasal dari keluarga Kimi. Untuk penyusunan rencana dia termasuk papan atas, dan untuk eksekusi pun terasa berjalan baik di composer-2
Kalau rasa benchmark dan pengalaman nyata memang sejalan, rasanya ini bisa jadi momen ala DeepSeek ketika AI Tiongkok hampir berdiri sejajar dengan model dari lab riset papan atas AS
- Dibanding generasi model sebelumnya, mungkin iya, tetapi dibanding apa yang disebut model mitologis kelas 10T, menurut saya masih belum dekat sama sekali
Berdasarkan pengujian saya dan perbandingan aibenchy, Kimi K2.6 hanya sedikit lebih baik daripada Kimi K2.5. Khususnya pada teka-teki, masalah spesifik domain, dan tugas akurasi penuh jebakan, saya sering melihat gagal mengikuti instruksi dan jawaban yang salah. Sebagai model coding mungkin ini hebat, tetapi secara keseluruhan kesan kecerdasannya masih sedikit di bawah SOTA teratas
- Saya mencobanya di OpenRouter dengan max tokens 8192, tetapi bahkan dalam mode non-thinking semua respons keluar dalam keadaan terpotong. Mungkin ini masalah deployment, tetapi dari tautan Anda juga terlihat model itu menghasilkan token output dalam jumlah sangat besar
Kadang saya bertanya-tanya apakah di masa depan, seperti komputer lama yang dulu memenuhi satu ruangan lalu sekarang muat di saku, suatu hari jumlah komputasi setara data center bisa muat dalam satu perangkat seperti ponsel. Kecepatan perkembangan teknologi tampak makin cepat dari tahun ke tahun, jadi perubahan seperti itu mungkin juga datang lebih cepat
- Sudah ada pekerjaan awal ke arah itu. Misalnya perusahaan seperti Taalas sedang membuat LLM ASIC, dan HC1 disebut bisa menghasilkan 17k token per detik pada llama 8b. Memang masih di kisaran 2,5kW, jadi lebih dekat ke satu server daripada ponsel, tetapi sebagai chip pertama itu tetap berarti. Alternatif seperti komputasi fotonik juga berpotensi memangkas konsumsi daya besar-besaran, tetapi tampaknya masih di tahap riset. Karena begitu banyak uang mengalir ke AI dan inferensi GPU saat ini sangat boros daya, saya memperkirakan perbaikan di area ini akan terjadi cukup cepat
- Saya tidak melihatnya akan secepat itu. Secara historis, yang terjadi umumnya adalah penyusutan eksponensial, dan kalau tren itu berlanjut, waktu yang dibutuhkan untuk mengecilkan komputasi sebesar ruangan menjadi seukuran saku seharusnya kurang lebih sama. Apalagi belakangan ini kita bahkan tertinggal dari tren eksponensial itu, dan pertumbuhan eksponensial sendiri memang sulit bertahan lama. Saya setuju kemajuan teknologi akan terus terjadi dan perangkat komputasi akan terus mengecil, tetapi saya rasa itu saja tidak cukup untuk menyimpulkan tahap penyusutan berikutnya akan datang dalam waktu yang lebih singkat
Saya mengujinya sepanjang pagi ini sambil menghubungkannya ke aplikasi, dan kesan saya hasilnya mirip Sonnet 4.6. Ini murni penilaian berdasarkan vibe tanpa verifikasi resmi, tetapi menyenangkan melihat akhirnya ada persaingan nyata untuk model frontier
- Berkat K2.6 dan GLM 5.1, sekarang rasanya kita bisa mendapat kecerdasan setingkat Sonnet dengan harga setingkat Haiku. Ini benar-benar bagus. Saya harap Anthropic segera merilis Haiku baru, dan untuk bersaing dengan model-model yang lebih murah, mereka tampaknya butuh produk di kisaran sepertiga sampai seperlima harga Haiku saat ini. Gemma-4 tampil cukup baik di rentang harga itu
Saya penasaran apakah ada paket langganan tetap untuk coding pada model ini. Maksud saya, apakah ada model seperti batas jumlah panggilan API alih-alih batas token. Belakangan penagihan GLM di z.ai gagal sehingga langganan saya terputus, dan harganya juga naik terlalu banyak dalam beberapa bulan terakhir
- Kimi juga punya langganannya sendiri dengan pola yang hampir sama seperti layanan lain, dan bisa dilihat di Kimi Code

ingwannu 2026-04-21

Secara pribadi saya menggunakan kimi2.5 tanpa batas dengan baik melalui firepass dari Fireworks.ai seharga $30 per bulan, jadi saya sangat menantikan peningkatan performa 2.6 ini yang akan segera diterapkan juga di firepass.

Setelah sempat mencobanya lewat API, saya merasa ada kemajuan yang sangat besar dibandingkan 2.5.

chlrhdmltkfkd 2026-04-22

Wah, ini memblokir pendaftaran baru.

Kimi K2.6 dirilis - Kemajuan dalam coding open source

Coding jangka panjang

Desain berpusat pada coding

Agent Swarm yang ditingkatkan

Agen proaktif

Bring Your Own Agents

Tabel benchmark

Catatan kaki

Detail umum pengujian

Benchmark penalaran

Tugas yang diperkuat alat dan bergaya agen

Tugas coding

Benchmark vision

Bacaan terkait

3 komentar

Komentar Hacker News