2 poin oleh GN⁺ 2025-11-07 | 1 komentar | Bagikan ke WhatsApp
  • Kimi K2 Thinking adalah model inferensi open-source yang memanfaatkan tool dan berpikir langkah demi langkah, menghadirkan proses penalaran setara manusia untuk menyelesaikan masalah kompleks
  • Mencapai state-of-the-art (SOTA) pada benchmark utama seperti Humanity’s Last Exam(HLE), BrowseComp, dan SWE-Bench Verified
  • Mampu melakukan hingga 200~300 pemanggilan tool beruntun, serta memperluas token berpikir dan tahapan pemanggilan tool secara bersamaan melalui test-time scaling
  • Menunjukkan performa menonjol di area penalaran agentic, pencarian, dan coding, dengan menyelesaikan masalah matematika, coding, dan penelusuran web yang kompleks lewat perencanaan jangka panjang
  • Dengan efisiensi inferensi berbasis kuantisasi INT4, mencapai peningkatan kecepatan 2x dan penghematan memori GPU, sehingga meraih efisiensi kelas atas di antara model open-source berskala besar

Pengenalan Kimi K2 Thinking

  • Kimi K2 Thinking adalah model berpikir open-source berperforma tertinggi yang dirilis oleh Moonshot AI
    • Mengusung arsitektur "thinking agent" yang melakukan penalaran bertahap bahkan saat menggunakan tool
    • Mencatat state-of-the-art terbaru di HLE, BrowseComp, dan lainnya
  • Melalui test-time scaling, jumlah token berpikir dan tahapan pemanggilan tool dapat diperluas secara bersamaan
  • Saat ini tersedia di mode chat kimi.com, dan mode agentic penuh akan segera dirilis
  • Dapat diintegrasikan ke layanan eksternal melalui API

Hasil evaluasi

  • Mencapai HLE(penggunaan tool) 44.9%, BrowseComp 60.2%, dan SWE-Bench Verified 71.3%
  • Membuktikan kemampuan generalisasi yang konsisten dalam menyelesaikan masalah tingkat profesional lintas domain
  • Menunjukkan peningkatan performa dibanding model sebelumnya di seluruh area penalaran agentic, pencarian, dan coding
Iklan

Penalaran Agentic (Agentic Reasoning)

  • Mencapai rekor tertinggi 44.9% pada Humanity’s Last Exam(HLE)
    • Benchmark tertutup yang mencakup soal tingkat pakar dari lebih dari 100 bidang ilmu
    • Menggunakan tool pencarian, Python, dan web browsing secara bersamaan
  • Ditunjukkan contoh penyelesaian masalah matematika tingkat doktoral dengan melakukan 23 langkah penalaran dan pemanggilan tool secara bergantian
  • Dapat menyelesaikan masalah akademik kompleks melalui ratusan langkah perencanaan, penalaran, eksekusi, dan adaptasi

Coding Agentic (Agentic Coding)

  • Mencatat SWE-Multilingual 61.1%, SWE-Bench Verified 71.3%, dan Terminal-Bench 47.1%
  • Menunjukkan tingkat penyelesaian tinggi pada pekerjaan yang berfokus pada komponen frontend seperti HTML dan React
  • Mendukung pembuatan kode yang akurat dan fleksibel melalui workflow pengembangan multi-tahap berbasis pemanggilan tool
  • Menampilkan contoh pembuatan aplikasi kompleks seperti website dan editor dokumen hanya dengan satu prompt

Pencarian dan Browsing Agentic (Agentic Search and Browsing)

  • Dengan BrowseComp 60.2%, jauh melampaui tolok ukur manusia (29.2%)
    • Membuktikan kemampuan mengumpulkan dan menalar informasi web secara real-time
  • Melakukan 200~300 pemanggilan tool beruntun untuk mewujudkan perencanaan jangka panjang dan penalaran adaptif
  • Melalui loop berulang “berpikir → mencari → menggunakan browser → berpikir → coding”,
    memecah masalah open-ended yang kompleks menjadi sub-tugas terstruktur
Iklan

Kemampuan umum (General Capabilities)

  • Penulisan kreatif: menghasilkan narasi dengan ekspresi kaya dan kedalaman emosional
  • Penulisan praktis: struktur logis dan akurasi instruksi meningkat, cocok untuk konten akademik dan riset
  • Respons emosional: memberikan saran yang empatik dan konkret, memperkuat keseimbangan yang terasa manusiawi

Efisiensi inferensi (Inference Efficiency)

  • Dengan penerapan kuantisasi bobot saja INT4 (QAT), mencapai peningkatan kecepatan 2x dan penghematan memori
  • Tetap mempertahankan proses berpikir yang presisi tanpa penurunan performa bahkan pada inferensi skala besar
  • Semua hasil benchmark dilaporkan berdasarkan presisi INT4

Perbandingan performa keseluruhan

  • Pada benchmark utama, menunjukkan performa setara atau lebih baik dibanding GPT‑5, Claude Sonnet 4.5, dan DeepSeek‑V3.2
  • Mencapai level tertinggi open-source di seluruh area Reasoning, Coding, dan Agentic Search

Ringkasan:
Kimi K2 Thinking adalah model inferensi open-source kelas triliun parameter yang melakukan pemikiran bertahap berbasis tool,
serta merupakan sistem AI terbaru yang sekaligus meraih performa dan efisiensi tingkat SOTA dalam penyelesaian masalah kompleks dan pelaksanaan perencanaan jangka panjang.

1 komentar

 
GN⁺ 2025-11-07
Opini Hacker News
  • Menginstal model Moonshot Kimi-K2-Thinking dengan uv tool install llm, lalu menghasilkan SVG dengan perintah llm -m moonshot/kimi-k2-thinking 'Generate an SVG of a pelican riding a bicycle'
    Hasilnya bisa dilihat di tautan ini
    Hasil saat dijalankan lewat moonshotai/kimi-k2-thinking di OpenRouter keluar jauh lebih rapi seperti versi ini

    • Hasil OpenRouter tampaknya berasal dari penyedia hosting terkuantisasi (quantized)
      Dibandingkan panggilan API langsung ke Moonshot, bedanya hampir seperti siang dan malam
      Karena OpenRouter membatasi kuantisasi per API, bukan per akun, pengalaman pengguna jadi agak membingungkan
    • Menarik melihat benchmark ini makin terasa simbolis setiap kali model baru keluar
      Performa seri GPT-5 masih sulit dipercaya, tetapi menyenangkan melihat model open source membuat upaya yang makin ambisius
    • Penasaran apakah saat menjalankan, temperature dikunci ke 0 agar konsisten
    • Penasaran sebenarnya model 1 triliun parameter dijalankan di mana
  • Persaingan yang makin banyak dan makin banyak open source itu bagus, tetapi saya lebih tertarik pada seberapa baik kombinasi LLM kecil + agen bisa menangani coding dan penalaran dibanding model raksasa
    Idealnya bisa dijalankan secara lokal atau di klaster murah
    Tujuan awal OpenAI adalah manfaat bagi seluruh umat manusia, tetapi sekarang berubah menjadi struktur yang berpusat pada layanan berbayar, sehingga terasa disayangkan jika arahnya hanya menguntungkan orang kaya

    • Eksperimen model kecil semacam itu sebenarnya sudah banyak dilakukan
      Tetapi hasilnya masih kurang memadai, dan jika model kecil yang efisien benar-benar bisa dibuat, tak akan ada alasan model besar perlu ada
      Tentu saja, jika muncul ide baru, dinamika ini bisa berubah
    • Dulu saya juga terobsesi dengan “model paling pintar”, tetapi setelah benar-benar dipakai, model kecil menyelesaikan pekerjaan yang sama jauh lebih cepat
      Jadi sekarang tujuan saya adalah mencari “model terkecil yang bisa menyelesaikan pekerjaan saya”
      Skor benchmark tinggi justru terlihat sebagai indikator spesifikasi berlebihan dan pemborosan
    • Kalau disebut “open source”, seharusnya data pelatihan bisa diunduh dan ada skrip yang memungkinkan pelatihan ulang end-to-end
      Menyebutnya open source hanya karena mendistribusikan biner inferensi jelas penggunaan istilah yang keliru
    • Saya tidak paham kenapa model superkecil per keahlian tidak muncul
      Misalnya, bagi orang yang hanya memakai Go, yang dibutuhkan cukup model Go
      Jika memakai arsitektur yang menukar beberapa model spesialis di memori, seharusnya jauh lebih efisien
      Namun kebanyakan masih mengejar model umum yang sangat besar
      Saya sendiri baru mencoba langganan CoPilot dan Ollama, tetapi ke depan sepertinya kombinasi banyak model skala 1~2B akan jadi arus utama
    • Sebenarnya kemajuan model besar sebagian besar datang dari optimisasi dan scaling
      Tetapi teknik seperti ini pada akhirnya ikut meningkatkan performa model kecil
      DeepSeek adalah contoh bagus; inovasi di model besar juga menguntungkan model kecil
      Sebagai catatan, model kali ini memakai arsitektur MoE, sehingga hanya 32 miliar parameter yang aktif pada satu waktu
  • Dalam beberapa bulan terakhir, empat perusahaan Tiongkok (DeepSeek, Qwen/Alibaba, Kimi/Moonshot, GLM/Z.ai) merilis model open source yang hebat
    Tidak terlihat gerakan serupa dari perusahaan AS atau Eropa, bahkan Meta. Kenapa begitu?

    • Tentu saja OpenAI juga merilis GPT-OSS pada bulan Agustus
      Saya juga suka Qwen 235, tetapi definisi “open source” itu apakah sekadar open weight atau benar-benar terbuka penuh masih belum jelas
    • Perusahaan Tiongkok memiliki akses terbatas ke GPU terbaru, jadi mereka memilih strategi merilis sebagai open source
      Sebaliknya, perusahaan AS enggan membuka karena mereka harus mengembalikan investasi GPU yang sangat besar
    • Alasan lain adalah sedikitnya pelanggan berbayar karena kekhawatiran privasi
      Pada akhirnya tidak ada banyak pilihan selain merilis gratis
    • Meta tampaknya meninggalkan strategi open weight setelah DeepSeek
  • Contohnya memang terasa agak dipilih-pilih (cherry-picked), tetapi tetap mengejutkan
    Sebagai orang yang pernah memasukkan model OSS ke dalam workflow, saya paham betul keterbatasannya, tetapi hasil seperti ini berada di level yang bahkan sulit bagi model frontier
    Menarik menunggu perkembangannya ke depan

    • Secara pribadi, Kimi terasa sebagai model yang jauh lebih “cerdas” daripada yang ditunjukkan benchmark
      Mungkin karena tidak terlalu dituning demi mengejar skor seperti laboratorium AS
  • Melihat daftar harga OpenRouter, biayanya $0.60 per 1 juta token input dan $2.50 untuk output
    Dengan performa seperti ini, harganya 4 kali lebih murah dibanding model sekelas, jadi penasaran apakah mereka hosting sambil rugi, atau justru model lain marginnya sangat besar

    • Jika biaya pelatihan dikesampingkan, model-model lain memang mengambil margin besar
      Untuk detailnya lihat artikel ini
    • Model open source di OpenRouter dikenai biaya di kisaran biaya pokok perangkat keras
      Sebagiannya berjalan di infrastruktur yang disubsidi, jadi bisa saja tetap menghasilkan keuntungan
  • Model ini satu-satunya yang belakangan benar-benar menyelesaikan ‘masalah stacking’ seperti manusia
    Inti dari tulisan terkait adalah bahwa model memahami konsep membagi beban dengan 9 butir telur

    • Namun ada yang menunjukkan bahwa “masalah itu sendiri mungkin sudah termasuk dalam data pelatihan
    • Pengguna lain juga membagikan contoh percakapan nyata, menunjukkan bagaimana model menemukan susunan tumpukan yang mungkin secara fisik setelah beberapa kali umpan balik
      Pada akhirnya model memberi jawaban yang realistis dengan urutan “buku → botol → laptop → paku”
  • Penasaran apa yang dimaksud dengan “reasoning model
    Apakah itu hanya model yang dalam system prompt memakai token scratchpad secara dinamis, atau model yang memang di-fine-tune dengan cara seperti itu

    • Yang benar adalah yang kedua. Artinya, model yang di-fine-tune agar mempelajari proses berpikir perantara
      Ini jauh lebih efektif daripada sekadar menirunya lewat prompt
    • Biasanya maksudnya model yang melakukan pemikiran internal di dalam token seperti <think></think> lalu memberi jawaban
      Format seperti ini dilatih lewat RL atau pembelajaran berbasis reward atas format
  • Versi non-thinking justru punya kualitas tulisan terbaik
    Terasa seperti pendekatan baru yang berbeda dari laboratorium frontier lain, jadi menarik untuk diikuti

    • Saya justru merasakan kebalikannya. Saya suka karena ini model terbesar yang bisa dijalankan di rumah, tetapi output yang terlalu terstruktur justru terasa artifisial
      Tidak jauh berbeda dari versi sebelumnya, jadi agak mengecewakan
    • Meski begitu, Kimi K2 tetap terasa matang dan halus dari sisi rasa model
  • Akan bagus jika bisa dipakai di AWS Bedrock atau Google Vertex dengan jaminan data residency

    • Seperti model sebelumnya, bobotnya sudah dibuka, jadi kemungkinan segera tersedia juga di hosting pihak ketiga
      Tautan Hugging Face
    • Versi non-thinking sudah terdaftar di Vertex AI
      Model ini menekankan penggunaan alat secara berurutan dan performa needle-in-a-haystack RAG, yang justru paling dibutuhkan di pekerjaan nyata
      Sebagai catatan, Thoughtworks baru-baru ini memindahkan text-to-sql ke status Hold
  • Sudah bisa dipakai juga di OpenRouter

    • Hanya saja saat ini latensinya cukup parah