Kimi K2 Thinking, model inferensi open-source triliun parameter SOTA
(moonshotai.github.io)- Kimi K2 Thinking adalah model inferensi open-source yang memanfaatkan tool dan berpikir langkah demi langkah, menghadirkan proses penalaran setara manusia untuk menyelesaikan masalah kompleks
- Mencapai state-of-the-art (SOTA) pada benchmark utama seperti Humanity’s Last Exam(HLE), BrowseComp, dan SWE-Bench Verified
- Mampu melakukan hingga 200~300 pemanggilan tool beruntun, serta memperluas token berpikir dan tahapan pemanggilan tool secara bersamaan melalui test-time scaling
- Menunjukkan performa menonjol di area penalaran agentic, pencarian, dan coding, dengan menyelesaikan masalah matematika, coding, dan penelusuran web yang kompleks lewat perencanaan jangka panjang
- Dengan efisiensi inferensi berbasis kuantisasi INT4, mencapai peningkatan kecepatan 2x dan penghematan memori GPU, sehingga meraih efisiensi kelas atas di antara model open-source berskala besar
Pengenalan Kimi K2 Thinking
- Kimi K2 Thinking adalah model berpikir open-source berperforma tertinggi yang dirilis oleh Moonshot AI
- Mengusung arsitektur "thinking agent" yang melakukan penalaran bertahap bahkan saat menggunakan tool
- Mencatat state-of-the-art terbaru di HLE, BrowseComp, dan lainnya
- Melalui test-time scaling, jumlah token berpikir dan tahapan pemanggilan tool dapat diperluas secara bersamaan
- Saat ini tersedia di mode chat kimi.com, dan mode agentic penuh akan segera dirilis
- Dapat diintegrasikan ke layanan eksternal melalui API
Hasil evaluasi
- Mencapai HLE(penggunaan tool) 44.9%, BrowseComp 60.2%, dan SWE-Bench Verified 71.3%
- Membuktikan kemampuan generalisasi yang konsisten dalam menyelesaikan masalah tingkat profesional lintas domain
- Menunjukkan peningkatan performa dibanding model sebelumnya di seluruh area penalaran agentic, pencarian, dan coding
Penalaran Agentic (Agentic Reasoning)
- Mencapai rekor tertinggi 44.9% pada Humanity’s Last Exam(HLE)
- Benchmark tertutup yang mencakup soal tingkat pakar dari lebih dari 100 bidang ilmu
- Menggunakan tool pencarian, Python, dan web browsing secara bersamaan
- Ditunjukkan contoh penyelesaian masalah matematika tingkat doktoral dengan melakukan 23 langkah penalaran dan pemanggilan tool secara bergantian
- Dapat menyelesaikan masalah akademik kompleks melalui ratusan langkah perencanaan, penalaran, eksekusi, dan adaptasi
Coding Agentic (Agentic Coding)
- Mencatat SWE-Multilingual 61.1%, SWE-Bench Verified 71.3%, dan Terminal-Bench 47.1%
- Menunjukkan tingkat penyelesaian tinggi pada pekerjaan yang berfokus pada komponen frontend seperti HTML dan React
- Mendukung pembuatan kode yang akurat dan fleksibel melalui workflow pengembangan multi-tahap berbasis pemanggilan tool
- Menampilkan contoh pembuatan aplikasi kompleks seperti website dan editor dokumen hanya dengan satu prompt
Pencarian dan Browsing Agentic (Agentic Search and Browsing)
- Dengan BrowseComp 60.2%, jauh melampaui tolok ukur manusia (29.2%)
- Membuktikan kemampuan mengumpulkan dan menalar informasi web secara real-time
- Melakukan 200~300 pemanggilan tool beruntun untuk mewujudkan perencanaan jangka panjang dan penalaran adaptif
- Melalui loop berulang “berpikir → mencari → menggunakan browser → berpikir → coding”,
memecah masalah open-ended yang kompleks menjadi sub-tugas terstruktur
Kemampuan umum (General Capabilities)
- Penulisan kreatif: menghasilkan narasi dengan ekspresi kaya dan kedalaman emosional
- Penulisan praktis: struktur logis dan akurasi instruksi meningkat, cocok untuk konten akademik dan riset
- Respons emosional: memberikan saran yang empatik dan konkret, memperkuat keseimbangan yang terasa manusiawi
Efisiensi inferensi (Inference Efficiency)
- Dengan penerapan kuantisasi bobot saja INT4 (QAT), mencapai peningkatan kecepatan 2x dan penghematan memori
- Tetap mempertahankan proses berpikir yang presisi tanpa penurunan performa bahkan pada inferensi skala besar
- Semua hasil benchmark dilaporkan berdasarkan presisi INT4
Perbandingan performa keseluruhan
- Pada benchmark utama, menunjukkan performa setara atau lebih baik dibanding GPT‑5, Claude Sonnet 4.5, dan DeepSeek‑V3.2
- Mencapai level tertinggi open-source di seluruh area Reasoning, Coding, dan Agentic Search
Ringkasan:
Kimi K2 Thinking adalah model inferensi open-source kelas triliun parameter yang melakukan pemikiran bertahap berbasis tool,
serta merupakan sistem AI terbaru yang sekaligus meraih performa dan efisiensi tingkat SOTA dalam penyelesaian masalah kompleks dan pelaksanaan perencanaan jangka panjang.
1 komentar
Opini Hacker News
Menginstal model Moonshot Kimi-K2-Thinking dengan
uv tool install llm, lalu menghasilkan SVG dengan perintahllm -m moonshot/kimi-k2-thinking 'Generate an SVG of a pelican riding a bicycle'Hasilnya bisa dilihat di tautan ini
Hasil saat dijalankan lewat
moonshotai/kimi-k2-thinkingdi OpenRouter keluar jauh lebih rapi seperti versi iniDibandingkan panggilan API langsung ke Moonshot, bedanya hampir seperti siang dan malam
Karena OpenRouter membatasi kuantisasi per API, bukan per akun, pengalaman pengguna jadi agak membingungkan
Performa seri GPT-5 masih sulit dipercaya, tetapi menyenangkan melihat model open source membuat upaya yang makin ambisius
Persaingan yang makin banyak dan makin banyak open source itu bagus, tetapi saya lebih tertarik pada seberapa baik kombinasi LLM kecil + agen bisa menangani coding dan penalaran dibanding model raksasa
Idealnya bisa dijalankan secara lokal atau di klaster murah
Tujuan awal OpenAI adalah manfaat bagi seluruh umat manusia, tetapi sekarang berubah menjadi struktur yang berpusat pada layanan berbayar, sehingga terasa disayangkan jika arahnya hanya menguntungkan orang kaya
Tetapi hasilnya masih kurang memadai, dan jika model kecil yang efisien benar-benar bisa dibuat, tak akan ada alasan model besar perlu ada
Tentu saja, jika muncul ide baru, dinamika ini bisa berubah
Jadi sekarang tujuan saya adalah mencari “model terkecil yang bisa menyelesaikan pekerjaan saya”
Skor benchmark tinggi justru terlihat sebagai indikator spesifikasi berlebihan dan pemborosan
Menyebutnya open source hanya karena mendistribusikan biner inferensi jelas penggunaan istilah yang keliru
Misalnya, bagi orang yang hanya memakai Go, yang dibutuhkan cukup model Go
Jika memakai arsitektur yang menukar beberapa model spesialis di memori, seharusnya jauh lebih efisien
Namun kebanyakan masih mengejar model umum yang sangat besar
Saya sendiri baru mencoba langganan CoPilot dan Ollama, tetapi ke depan sepertinya kombinasi banyak model skala 1~2B akan jadi arus utama
Tetapi teknik seperti ini pada akhirnya ikut meningkatkan performa model kecil
DeepSeek adalah contoh bagus; inovasi di model besar juga menguntungkan model kecil
Sebagai catatan, model kali ini memakai arsitektur MoE, sehingga hanya 32 miliar parameter yang aktif pada satu waktu
Dalam beberapa bulan terakhir, empat perusahaan Tiongkok (DeepSeek, Qwen/Alibaba, Kimi/Moonshot, GLM/Z.ai) merilis model open source yang hebat
Tidak terlihat gerakan serupa dari perusahaan AS atau Eropa, bahkan Meta. Kenapa begitu?
Saya juga suka Qwen 235, tetapi definisi “open source” itu apakah sekadar open weight atau benar-benar terbuka penuh masih belum jelas
Sebaliknya, perusahaan AS enggan membuka karena mereka harus mengembalikan investasi GPU yang sangat besar
Pada akhirnya tidak ada banyak pilihan selain merilis gratis
Contohnya memang terasa agak dipilih-pilih (cherry-picked), tetapi tetap mengejutkan
Sebagai orang yang pernah memasukkan model OSS ke dalam workflow, saya paham betul keterbatasannya, tetapi hasil seperti ini berada di level yang bahkan sulit bagi model frontier
Menarik menunggu perkembangannya ke depan
Mungkin karena tidak terlalu dituning demi mengejar skor seperti laboratorium AS
Melihat daftar harga OpenRouter, biayanya $0.60 per 1 juta token input dan $2.50 untuk output
Dengan performa seperti ini, harganya 4 kali lebih murah dibanding model sekelas, jadi penasaran apakah mereka hosting sambil rugi, atau justru model lain marginnya sangat besar
Untuk detailnya lihat artikel ini
Sebagiannya berjalan di infrastruktur yang disubsidi, jadi bisa saja tetap menghasilkan keuntungan
Model ini satu-satunya yang belakangan benar-benar menyelesaikan ‘masalah stacking’ seperti manusia
Inti dari tulisan terkait adalah bahwa model memahami konsep membagi beban dengan 9 butir telur
Pada akhirnya model memberi jawaban yang realistis dengan urutan “buku → botol → laptop → paku”
Penasaran apa yang dimaksud dengan “reasoning model”
Apakah itu hanya model yang dalam system prompt memakai token scratchpad secara dinamis, atau model yang memang di-fine-tune dengan cara seperti itu
Ini jauh lebih efektif daripada sekadar menirunya lewat prompt
<think></think>lalu memberi jawabanFormat seperti ini dilatih lewat RL atau pembelajaran berbasis reward atas format
Versi non-thinking justru punya kualitas tulisan terbaik
Terasa seperti pendekatan baru yang berbeda dari laboratorium frontier lain, jadi menarik untuk diikuti
Tidak jauh berbeda dari versi sebelumnya, jadi agak mengecewakan
Akan bagus jika bisa dipakai di AWS Bedrock atau Google Vertex dengan jaminan data residency
Tautan Hugging Face
Model ini menekankan penggunaan alat secara berurutan dan performa needle-in-a-haystack RAG, yang justru paling dibutuhkan di pekerjaan nyata
Sebagai catatan, Thoughtworks baru-baru ini memindahkan text-to-sql ke status Hold
Sudah bisa dipakai juga di OpenRouter