2 poin oleh GN⁺ 2025-11-07 | Belum ada komentar. | Bagikan ke WhatsApp
  • Kimi K2 Thinking adalah model inferensi open-source yang memanfaatkan tool dan berpikir langkah demi langkah, menghadirkan proses penalaran setara manusia untuk menyelesaikan masalah kompleks
  • Mencapai state-of-the-art (SOTA) pada benchmark utama seperti Humanity’s Last Exam(HLE), BrowseComp, dan SWE-Bench Verified
  • Mampu melakukan hingga 200~300 pemanggilan tool beruntun, serta memperluas token berpikir dan tahapan pemanggilan tool secara bersamaan melalui test-time scaling
  • Menunjukkan performa menonjol di area penalaran agentic, pencarian, dan coding, dengan menyelesaikan masalah matematika, coding, dan penelusuran web yang kompleks lewat perencanaan jangka panjang
  • Dengan efisiensi inferensi berbasis kuantisasi INT4, mencapai peningkatan kecepatan 2x dan penghematan memori GPU, sehingga meraih efisiensi kelas atas di antara model open-source berskala besar

Pengenalan Kimi K2 Thinking

  • Kimi K2 Thinking adalah model berpikir open-source berperforma tertinggi yang dirilis oleh Moonshot AI
    • Mengusung arsitektur "thinking agent" yang melakukan penalaran bertahap bahkan saat menggunakan tool
    • Mencatat state-of-the-art terbaru di HLE, BrowseComp, dan lainnya
  • Melalui test-time scaling, jumlah token berpikir dan tahapan pemanggilan tool dapat diperluas secara bersamaan
  • Saat ini tersedia di mode chat kimi.com, dan mode agentic penuh akan segera dirilis
  • Dapat diintegrasikan ke layanan eksternal melalui API

Hasil evaluasi

  • Mencapai HLE(penggunaan tool) 44.9%, BrowseComp 60.2%, dan SWE-Bench Verified 71.3%
  • Membuktikan kemampuan generalisasi yang konsisten dalam menyelesaikan masalah tingkat profesional lintas domain
  • Menunjukkan peningkatan performa dibanding model sebelumnya di seluruh area penalaran agentic, pencarian, dan coding

Penalaran Agentic (Agentic Reasoning)

  • Mencapai rekor tertinggi 44.9% pada Humanity’s Last Exam(HLE)
    • Benchmark tertutup yang mencakup soal tingkat pakar dari lebih dari 100 bidang ilmu
    • Menggunakan tool pencarian, Python, dan web browsing secara bersamaan
  • Ditunjukkan contoh penyelesaian masalah matematika tingkat doktoral dengan melakukan 23 langkah penalaran dan pemanggilan tool secara bergantian
  • Dapat menyelesaikan masalah akademik kompleks melalui ratusan langkah perencanaan, penalaran, eksekusi, dan adaptasi

Coding Agentic (Agentic Coding)

  • Mencatat SWE-Multilingual 61.1%, SWE-Bench Verified 71.3%, dan Terminal-Bench 47.1%
  • Menunjukkan tingkat penyelesaian tinggi pada pekerjaan yang berfokus pada komponen frontend seperti HTML dan React
  • Mendukung pembuatan kode yang akurat dan fleksibel melalui workflow pengembangan multi-tahap berbasis pemanggilan tool
  • Menampilkan contoh pembuatan aplikasi kompleks seperti website dan editor dokumen hanya dengan satu prompt

Pencarian dan Browsing Agentic (Agentic Search and Browsing)

  • Dengan BrowseComp 60.2%, jauh melampaui tolok ukur manusia (29.2%)
    • Membuktikan kemampuan mengumpulkan dan menalar informasi web secara real-time
  • Melakukan 200~300 pemanggilan tool beruntun untuk mewujudkan perencanaan jangka panjang dan penalaran adaptif
  • Melalui loop berulang “berpikir → mencari → menggunakan browser → berpikir → coding”,
    memecah masalah open-ended yang kompleks menjadi sub-tugas terstruktur

Kemampuan umum (General Capabilities)

  • Penulisan kreatif: menghasilkan narasi dengan ekspresi kaya dan kedalaman emosional
  • Penulisan praktis: struktur logis dan akurasi instruksi meningkat, cocok untuk konten akademik dan riset
  • Respons emosional: memberikan saran yang empatik dan konkret, memperkuat keseimbangan yang terasa manusiawi

Efisiensi inferensi (Inference Efficiency)

  • Dengan penerapan kuantisasi bobot saja INT4 (QAT), mencapai peningkatan kecepatan 2x dan penghematan memori
  • Tetap mempertahankan proses berpikir yang presisi tanpa penurunan performa bahkan pada inferensi skala besar
  • Semua hasil benchmark dilaporkan berdasarkan presisi INT4

Perbandingan performa keseluruhan

  • Pada benchmark utama, menunjukkan performa setara atau lebih baik dibanding GPT‑5, Claude Sonnet 4.5, dan DeepSeek‑V3.2
  • Mencapai level tertinggi open-source di seluruh area Reasoning, Coding, dan Agentic Search

Ringkasan:
Kimi K2 Thinking adalah model inferensi open-source kelas triliun parameter yang melakukan pemikiran bertahap berbasis tool,
serta merupakan sistem AI terbaru yang sekaligus meraih performa dan efisiensi tingkat SOTA dalam penyelesaian masalah kompleks dan pelaksanaan perencanaan jangka panjang.

Belum ada komentar.

Belum ada komentar.