Kimi K2 Thinking, model inferensi open-source triliun parameter SOTA

(moonshotai.github.io)

2 poin oleh GN⁺ 2025-11-07 | 1 komentar | Bagikan ke WhatsApp

Kimi K2 Thinking adalah model inferensi open-source yang memanfaatkan tool dan berpikir langkah demi langkah, menghadirkan proses penalaran setara manusia untuk menyelesaikan masalah kompleks
Mencapai state-of-the-art (SOTA) pada benchmark utama seperti Humanity’s Last Exam(HLE), BrowseComp, dan SWE-Bench Verified
Mampu melakukan hingga 200~300 pemanggilan tool beruntun, serta memperluas token berpikir dan tahapan pemanggilan tool secara bersamaan melalui test-time scaling
Menunjukkan performa menonjol di area penalaran agentic, pencarian, dan coding, dengan menyelesaikan masalah matematika, coding, dan penelusuran web yang kompleks lewat perencanaan jangka panjang
Dengan efisiensi inferensi berbasis kuantisasi INT4, mencapai peningkatan kecepatan 2x dan penghematan memori GPU, sehingga meraih efisiensi kelas atas di antara model open-source berskala besar

Pengenalan Kimi K2 Thinking

Kimi K2 Thinking adalah model berpikir open-source berperforma tertinggi yang dirilis oleh Moonshot AI
- Mengusung arsitektur "thinking agent" yang melakukan penalaran bertahap bahkan saat menggunakan tool
- Mencatat state-of-the-art terbaru di HLE, BrowseComp, dan lainnya
Melalui test-time scaling, jumlah token berpikir dan tahapan pemanggilan tool dapat diperluas secara bersamaan
Saat ini tersedia di mode chat kimi.com, dan mode agentic penuh akan segera dirilis
Dapat diintegrasikan ke layanan eksternal melalui API

Hasil evaluasi

Mencapai HLE(penggunaan tool) 44.9%, BrowseComp 60.2%, dan SWE-Bench Verified 71.3%
Membuktikan kemampuan generalisasi yang konsisten dalam menyelesaikan masalah tingkat profesional lintas domain
Menunjukkan peningkatan performa dibanding model sebelumnya di seluruh area penalaran agentic, pencarian, dan coding

Penalaran Agentic (Agentic Reasoning)

Mencapai rekor tertinggi 44.9% pada Humanity’s Last Exam(HLE)
- Benchmark tertutup yang mencakup soal tingkat pakar dari lebih dari 100 bidang ilmu
- Menggunakan tool pencarian, Python, dan web browsing secara bersamaan
Ditunjukkan contoh penyelesaian masalah matematika tingkat doktoral dengan melakukan 23 langkah penalaran dan pemanggilan tool secara bergantian
Dapat menyelesaikan masalah akademik kompleks melalui ratusan langkah perencanaan, penalaran, eksekusi, dan adaptasi

Coding Agentic (Agentic Coding)

Mencatat SWE-Multilingual 61.1%, SWE-Bench Verified 71.3%, dan Terminal-Bench 47.1%
Menunjukkan tingkat penyelesaian tinggi pada pekerjaan yang berfokus pada komponen frontend seperti HTML dan React
Mendukung pembuatan kode yang akurat dan fleksibel melalui workflow pengembangan multi-tahap berbasis pemanggilan tool
Menampilkan contoh pembuatan aplikasi kompleks seperti website dan editor dokumen hanya dengan satu prompt

Pencarian dan Browsing Agentic (Agentic Search and Browsing)

Dengan BrowseComp 60.2%, jauh melampaui tolok ukur manusia (29.2%)
- Membuktikan kemampuan mengumpulkan dan menalar informasi web secara real-time
Melakukan 200~300 pemanggilan tool beruntun untuk mewujudkan perencanaan jangka panjang dan penalaran adaptif
Melalui loop berulang “berpikir → mencari → menggunakan browser → berpikir → coding”,
memecah masalah open-ended yang kompleks menjadi sub-tugas terstruktur

Kemampuan umum (General Capabilities)

Penulisan kreatif: menghasilkan narasi dengan ekspresi kaya dan kedalaman emosional
Penulisan praktis: struktur logis dan akurasi instruksi meningkat, cocok untuk konten akademik dan riset
Respons emosional: memberikan saran yang empatik dan konkret, memperkuat keseimbangan yang terasa manusiawi

Efisiensi inferensi (Inference Efficiency)

Dengan penerapan kuantisasi bobot saja INT4 (QAT), mencapai peningkatan kecepatan 2x dan penghematan memori
Tetap mempertahankan proses berpikir yang presisi tanpa penurunan performa bahkan pada inferensi skala besar
Semua hasil benchmark dilaporkan berdasarkan presisi INT4

Perbandingan performa keseluruhan

Pada benchmark utama, menunjukkan performa setara atau lebih baik dibanding GPT‑5, Claude Sonnet 4.5, dan DeepSeek‑V3.2
Mencapai level tertinggi open-source di seluruh area Reasoning, Coding, dan Agentic Search

Ringkasan:
Kimi K2 Thinking adalah model inferensi open-source kelas triliun parameter yang melakukan pemikiran bertahap berbasis tool,
serta merupakan sistem AI terbaru yang sekaligus meraih performa dan efisiensi tingkat SOTA dalam penyelesaian masalah kompleks dan pelaksanaan perencanaan jangka panjang.

1 komentar

GN⁺ 2025-11-07

Opini Hacker News

Menginstal model Moonshot Kimi-K2-Thinking dengan uv tool install llm, lalu menghasilkan SVG dengan perintah llm -m moonshot/kimi-k2-thinking 'Generate an SVG of a pelican riding a bicycle'
Hasilnya bisa dilihat di tautan ini
Hasil saat dijalankan lewat moonshotai/kimi-k2-thinking di OpenRouter keluar jauh lebih rapi seperti versi ini
- Hasil OpenRouter tampaknya berasal dari penyedia hosting terkuantisasi (quantized)
  Dibandingkan panggilan API langsung ke Moonshot, bedanya hampir seperti siang dan malam
  Karena OpenRouter membatasi kuantisasi per API, bukan per akun, pengalaman pengguna jadi agak membingungkan
- Menarik melihat benchmark ini makin terasa simbolis setiap kali model baru keluar
  Performa seri GPT-5 masih sulit dipercaya, tetapi menyenangkan melihat model open source membuat upaya yang makin ambisius
- Penasaran apakah saat menjalankan, temperature dikunci ke 0 agar konsisten
- Penasaran sebenarnya model 1 triliun parameter dijalankan di mana
Persaingan yang makin banyak dan makin banyak open source itu bagus, tetapi saya lebih tertarik pada seberapa baik kombinasi LLM kecil + agen bisa menangani coding dan penalaran dibanding model raksasa
Idealnya bisa dijalankan secara lokal atau di klaster murah
Tujuan awal OpenAI adalah manfaat bagi seluruh umat manusia, tetapi sekarang berubah menjadi struktur yang berpusat pada layanan berbayar, sehingga terasa disayangkan jika arahnya hanya menguntungkan orang kaya
- Eksperimen model kecil semacam itu sebenarnya sudah banyak dilakukan
  Tetapi hasilnya masih kurang memadai, dan jika model kecil yang efisien benar-benar bisa dibuat, tak akan ada alasan model besar perlu ada
  Tentu saja, jika muncul ide baru, dinamika ini bisa berubah
- Dulu saya juga terobsesi dengan “model paling pintar”, tetapi setelah benar-benar dipakai, model kecil menyelesaikan pekerjaan yang sama jauh lebih cepat
  Jadi sekarang tujuan saya adalah mencari “model terkecil yang bisa menyelesaikan pekerjaan saya”
  Skor benchmark tinggi justru terlihat sebagai indikator spesifikasi berlebihan dan pemborosan
- Kalau disebut “open source”, seharusnya data pelatihan bisa diunduh dan ada skrip yang memungkinkan pelatihan ulang end-to-end
  Menyebutnya open source hanya karena mendistribusikan biner inferensi jelas penggunaan istilah yang keliru
- Saya tidak paham kenapa model superkecil per keahlian tidak muncul
  Misalnya, bagi orang yang hanya memakai Go, yang dibutuhkan cukup model Go
  Jika memakai arsitektur yang menukar beberapa model spesialis di memori, seharusnya jauh lebih efisien
  Namun kebanyakan masih mengejar model umum yang sangat besar
  Saya sendiri baru mencoba langganan CoPilot dan Ollama, tetapi ke depan sepertinya kombinasi banyak model skala 1~2B akan jadi arus utama
- Sebenarnya kemajuan model besar sebagian besar datang dari optimisasi dan scaling
  Tetapi teknik seperti ini pada akhirnya ikut meningkatkan performa model kecil
  DeepSeek adalah contoh bagus; inovasi di model besar juga menguntungkan model kecil
  Sebagai catatan, model kali ini memakai arsitektur MoE, sehingga hanya 32 miliar parameter yang aktif pada satu waktu
Dalam beberapa bulan terakhir, empat perusahaan Tiongkok (DeepSeek, Qwen/Alibaba, Kimi/Moonshot, GLM/Z.ai) merilis model open source yang hebat
Tidak terlihat gerakan serupa dari perusahaan AS atau Eropa, bahkan Meta. Kenapa begitu?
- Tentu saja OpenAI juga merilis GPT-OSS pada bulan Agustus
  Saya juga suka Qwen 235, tetapi definisi “open source” itu apakah sekadar open weight atau benar-benar terbuka penuh masih belum jelas
- Perusahaan Tiongkok memiliki akses terbatas ke GPU terbaru, jadi mereka memilih strategi merilis sebagai open source
  Sebaliknya, perusahaan AS enggan membuka karena mereka harus mengembalikan investasi GPU yang sangat besar
- Alasan lain adalah sedikitnya pelanggan berbayar karena kekhawatiran privasi
  Pada akhirnya tidak ada banyak pilihan selain merilis gratis
- Meta tampaknya meninggalkan strategi open weight setelah DeepSeek
Contohnya memang terasa agak dipilih-pilih (cherry-picked), tetapi tetap mengejutkan
Sebagai orang yang pernah memasukkan model OSS ke dalam workflow, saya paham betul keterbatasannya, tetapi hasil seperti ini berada di level yang bahkan sulit bagi model frontier
Menarik menunggu perkembangannya ke depan
- Secara pribadi, Kimi terasa sebagai model yang jauh lebih “cerdas” daripada yang ditunjukkan benchmark
  Mungkin karena tidak terlalu dituning demi mengejar skor seperti laboratorium AS
Melihat daftar harga OpenRouter, biayanya $0.60 per 1 juta token input dan $2.50 untuk output
Dengan performa seperti ini, harganya 4 kali lebih murah dibanding model sekelas, jadi penasaran apakah mereka hosting sambil rugi, atau justru model lain marginnya sangat besar
- Jika biaya pelatihan dikesampingkan, model-model lain memang mengambil margin besar
  Untuk detailnya lihat artikel ini
- Model open source di OpenRouter dikenai biaya di kisaran biaya pokok perangkat keras
  Sebagiannya berjalan di infrastruktur yang disubsidi, jadi bisa saja tetap menghasilkan keuntungan
Model ini satu-satunya yang belakangan benar-benar menyelesaikan ‘masalah stacking’ seperti manusia
Inti dari tulisan terkait adalah bahwa model memahami konsep membagi beban dengan 9 butir telur
- Namun ada yang menunjukkan bahwa “masalah itu sendiri mungkin sudah termasuk dalam data pelatihan”
- Pengguna lain juga membagikan contoh percakapan nyata, menunjukkan bagaimana model menemukan susunan tumpukan yang mungkin secara fisik setelah beberapa kali umpan balik
  Pada akhirnya model memberi jawaban yang realistis dengan urutan “buku → botol → laptop → paku”
Penasaran apa yang dimaksud dengan “reasoning model”
Apakah itu hanya model yang dalam system prompt memakai token scratchpad secara dinamis, atau model yang memang di-fine-tune dengan cara seperti itu
- Yang benar adalah yang kedua. Artinya, model yang di-fine-tune agar mempelajari proses berpikir perantara
  Ini jauh lebih efektif daripada sekadar menirunya lewat prompt
- Biasanya maksudnya model yang melakukan pemikiran internal di dalam token seperti <think></think> lalu memberi jawaban
  Format seperti ini dilatih lewat RL atau pembelajaran berbasis reward atas format
Versi non-thinking justru punya kualitas tulisan terbaik
Terasa seperti pendekatan baru yang berbeda dari laboratorium frontier lain, jadi menarik untuk diikuti
- Saya justru merasakan kebalikannya. Saya suka karena ini model terbesar yang bisa dijalankan di rumah, tetapi output yang terlalu terstruktur justru terasa artifisial
  Tidak jauh berbeda dari versi sebelumnya, jadi agak mengecewakan
- Meski begitu, Kimi K2 tetap terasa matang dan halus dari sisi rasa model
Akan bagus jika bisa dipakai di AWS Bedrock atau Google Vertex dengan jaminan data residency
- Seperti model sebelumnya, bobotnya sudah dibuka, jadi kemungkinan segera tersedia juga di hosting pihak ketiga
  Tautan Hugging Face
- Versi non-thinking sudah terdaftar di Vertex AI
  Model ini menekankan penggunaan alat secara berurutan dan performa needle-in-a-haystack RAG, yang justru paling dibutuhkan di pekerjaan nyata
  Sebagai catatan, Thoughtworks baru-baru ini memindahkan text-to-sql ke status Hold
Sudah bisa dipakai juga di OpenRouter
- Hanya saja saat ini latensinya cukup parah