Kimi merilis Kimi K2.5, model visual SOTA-agentic open-source

(kimi.com)

3 poin oleh GN⁺ 2026-01-28 | 1 komentar | Bagikan ke WhatsApp

Kimi K2.5 adalah model open-source multimodal yang dilatih tambahan dengan sekitar 1,5 kuadriliun token visual dan teks, mengintegrasikan kemampuan penulisan kode dan pemrosesan visi
Melalui arsitektur Agent Swarm yang mengendalikan hingga 100 sub-agent secara paralel, model ini menyelesaikan tugas kompleks hingga 4,5 kali lebih cepat
Terintegrasi dengan Kimi Code dan Kimi App, mendukung berbagai fitur praktis untuk kerja nyata seperti coding berbasis gambar dan video, debugging visual, serta otomatisasi pekerjaan kantor
Dalam benchmark internal, model ini mencatat peningkatan performa yang signifikan dibanding K2 di seluruh area coding, vision, dan produktivitas kantor
Di komunitas open-source, model ini dinilai menunjukkan kemajuan nyata menuju AGI (kecerdasan umum buatan)

Gambaran umum Kimi K2.5

Kimi K2.5 adalah model multimodal native yang dibangun di atas model K2 dan mendapat pra-pelatihan tambahan dengan sekitar 1,5 kuadriliun token campuran visual-teks
- Mengintegrasikan kemampuan coding dan vision, serta mewujudkan paradigma agent swarm yang otonom
Hingga 100 sub-agent dapat melakukan maksimum 1.500 pemanggilan tool secara paralel, mencapai waktu eksekusi hingga 4,5 kali lebih cepat dibanding agent tunggal
Tersedia melalui Kimi.com, Kimi App, API, dan Kimi Code, dengan dukungan mode Instant, Thinking, Agent, dan Agent Swarm (beta)

Integrasi coding dan vision

K2.5 adalah model coding open-source dengan keunggulan pada pengembangan frontend, yang dapat secara otomatis membuat UI kompleks seperti antarmuka percakapan dan animasi scroll-trigger
Mendukung visual coding berbasis gambar dan video, sehingga pengguna dapat mengekspresikan niat secara visual lalu mengubahnya menjadi kode
- Contohnya, merekonstruksi situs web dari video atau menelusuri jalur terpendek (113.557 langkah) pada gambar labirin dengan algoritma BFS
Melalui pembelajaran bersama vision-text skala besar, kemampuan visual dan bahasa meningkat secara bersamaan
Dalam Kimi Code Bench internal, model ini menunjukkan peningkatan performa yang konsisten dibanding K2 di berbagai tugas coding multibahasa seperti build, debugging, refactoring, dan testing
Kimi Code terintegrasi dengan terminal serta IDE seperti VSCode, Cursor, dan Zed, serta mendukung input gambar dan video serta migrasi skill otomatis

Agent Swarm

K2.5 Agent Swarm bukan sekadar perluasan agent tunggal, melainkan struktur kolaboratif paralel yang dilatih dengan Parallel-Agent Reinforcement Learning (PARL)
- Agent orchestrator memecah pekerjaan menjadi sub-tugas yang bisa diparalelkan, lalu sub-agent tetap menjalankannya secara bersamaan
Fungsi reward mendorong eksplorasi paralelisme pada tahap awal dan secara bertahap beralih untuk berfokus pada kualitas tugas Q(τ)
Diperkenalkan metrik berbasis latensi bernama Critical Steps untuk mengevaluasi efisiensi eksekusi paralel
Dalam evaluasi internal, model ini mencatat pengurangan waktu eksekusi end-to-end sebesar 80% serta peningkatan kemampuan menangani tugas kompleks jangka panjang
- Contoh: pada tugas mencari kreator YouTube di 100 bidang spesifik, sistem membuat 100 sub-agent secara paralel lalu menggabungkan hasilnya

Produktivitas kantor

K2.5 Agent mendukung otomatisasi pekerjaan kantor skala besar, dan dapat menangani dokumen, spreadsheet, PDF, hingga pembuatan slide secara percakapan
Dalam AI Office Benchmark dan General Agent Benchmark internal, masing-masing mencatat peningkatan 59,3% dan 24,3%
Dapat melakukan tugas tingkat lanjut seperti menambahkan komentar di Word, pemodelan keuangan berbasis Pivot Table, dan penulisan rumus LaTeX di dalam PDF
Tugas panjang seperti membuat paper 10.000 kata atau dokumen 100 halaman dapat diselesaikan dalam hitungan menit

Kesimpulan

Kimi K2.5 menunjukkan kemajuan di tiga area: coding berbasis vision, agent swarm, dan otomatisasi kantor, serta membuktikan pendekatan menuju AGI di bawah batasan dunia nyata
Ke depan, model ini berencana memperluas agentic intelligence untuk mendefinisikan ulang batas kerja pengetahuan

Lampiran: hasil benchmark utama

Dibandingkan dengan GPT-5.2, Claude 4.5, Gemini 3 Pro, dan lainnya di 7 area seperti Reasoning, Vision, Coding, dan Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
Mencatat performa papan atas di sebagian besar benchmark vision, coding, dan agentic search
Semua eksperimen dijalankan dengan pengaturan konteks token 256k, temperature=1.0, dan top-p=0.95
Melalui Kimi Vendor Verifier (KVV), akurasi layanan pihak ketiga juga dapat diverifikasi

1 komentar

GN⁺ 2026-01-28

Opini Hacker News

Melihat halaman Kimi-K2.5 di Hugging Face, ini adalah model 1 triliun parameter
Berbasis lisensi MIT, tetapi ada syarat tambahan bahwa untuk layanan komersial dengan lebih dari 100 juta pengguna aktif bulanan atau pendapatan di atas 20 juta dolar, harus menampilkan “Kimi K2.5” di UI
- 1 triliun berarti bahkan dengan int4 pun sepertinya butuh sekitar setengah terabyte VRAM
  Secara teknis memang menakjubkan, tapi karena toh tidak bisa dijalankan di rumah, rasanya risiko dari merilisnya gratis juga berkurang setengah
- Para pengembang Cursor tampaknya berusaha menyembunyikan bahwa model Composer berbasis GLM, jadi ini mungkin kabar yang cukup tidak nyaman bagi mereka
- Saya penasaran apakah thinking, instruct, agent, dan agent swarm(beta) di Kimi K2.5 semuanya open source
  Di API mereka menyebut agent swarm, tapi saya ingin tahu apakah bobot modelnya juga dibuka
- Melihat klausul “jika pendapatan di atas 20 juta dolar, tampilkan Kimi K2.5 di UI”, rasanya lebih masuk akal kalau sekalian bilang “bayar 1 juta dolar”
“Deepseek moment” itu tepat setahun yang lalu
Dibanding saat itu, sekarang benar-benar jauh lebih banyak teknologi yang dibuka gratis, dan terasa ada kebebasan yang sangat berbeda dibanding pendekatan tertutup seperti OpenAI
- Bahkan setelah DeepSeekR1, kecepatan perkembangan model-model Tiongkok seperti v3-0324, v3.1, v3.1-terminus, dan v3.2-speciale sangat mengejutkan
  Kalau ditambah GLM 4.7 flash, Minimax-M2, dan seri Qwen, ragamnya benar-benar banyak
  Saya sudah berhenti berlangganan OpenAI dan Anthropic sejak 2 tahun lalu, dan sama sekali tidak merasa rugi
- Ini bukan kebetulan. Perusahaan Tiongkok sering melakukan rilis besar sebelum Imlek, jadi kemungkinan besar masih akan ada lagi sebelum 17 Februari
- Saya penasaran kenapa model sebesar ini dirilis gratis. Pertanyaannya, apa model bisnis mereka?
- Saya rasa Deepseek pada praktiknya adalah proyek yang berfokus pada pemasaran
  Bahkan di Reddit pun anehnya komentar yang ‘pro-deepseek’ terus bermunculan. Rasanya hampir seperti pemasaran ala Apple
- Tapi model-model seperti ini juga bisa disalahgunakan untuk serangan keamanan atau serangan biologis
  Rasanya perusahaan Tiongkok tidak merilis ini karena alasan kemanusiaan
Membagikan beberapa situs berguna untuk membandingkan berbagai model
- lmarena.ai/leaderboard — duel ELO antar model
- dashboard.safe.ai — dashboard CAIS
- clocks.brianmoore.com — perbandingan kemampuan model menggambar jam
- eqbench.com — benchmark kecerdasan emosional
- ocrarena.ai/battle — duel OCR
- mafia-arena.com — duel game Mafia
- openrouter.ai/rankings — pangsa penggunaan berbasis OpenRouter
Kimi K2.5 menjalankan hingga 100 sub-agent secara paralel, dan memproses hingga 1.500 tool call secara paralel
Yang menarik, bukan sekadar tool call biasa, tetapi orkestrasi agen itu sendiri dilatih dengan reinforcement learning (RL)
- Tapi 1.500 tool call adalah mimpi buruk struktur biaya. Dengan puluhan langkah saja margin sudah bisa hancur, jadi tanpa pendanaan VC rasanya tidak berkelanjutan
- Saya penasaran apakah “self-direct an agent swarm” adalah fungsi internal model, atau diimplementasikan di level IDE/layanan
  Biasanya model hanya mengeluarkan “call tool X”, lalu IDE menjalankannya dan mengirimkan hasilnya kembali
- Agen paralel adalah trik yang sederhana tetapi kuat
  Saya mendapatkan efek serupa dengan TeammateTool di Claude Code
Selain K2.5, Moonshot AI juga merilis Kimi Code
Ini adalah agen coding terminal yang berkembang dari Kimi CLI sebelumnya; saya sudah mencobanya sejak bulan lalu dan cukup stabil
GitHub: MoonshotAI/kimi-cli
- Bukan sekadar agen coding biasa, tapi juga berfungsi sebagai shell
  Ada zsh hook, jadi bisa beralih ke mode agen dari mana saja
- Saya penasaran apakah mendukung fitur swarm, dan apakah juga mendukung Opencode
- Saya juga ingin tahu bagaimana performanya dibanding CC
Yang menarik, K2.5 dilatih agar secara otomatis membuat sub-agent dan menyusun swarm
Mirip dengan sub-agent dinamis di Claude Code, tetapi bisa menangani jauh lebih banyak agen secara mandiri
Saya jadi penasaran apakah Claude juga sedang melatih hal serupa, dan apakah itu akan dirilis di versi berikutnya
Belakangan ini model-model Tiongkok menjadikan Claude Opus sebagai acuan benchmark
Qwen3 max thinking dan Kimi K2.5 sama-sama membandingkan diri dengan Opus, bukan Sonnet. Mereka sedang mengejarnya dengan kecepatan yang nyaris sama
- Di clocks.brianmoore.com, K2 adalah salah satu dari sedikit model yang lulus sempurna dalam tes jam
- Laboratorium riset Tiongkok punya pola mendistilasi model SOTA Barat lalu menyusulnya dalam beberapa bulan
- Di benchmark mungkin mirip, tetapi dalam kegunaan nyata, model Anthropic masih unggul
- Pada akhirnya skenario penggunaan nyata lebih penting. Sulit menilai hanya dari skor benchmark
Kimi K2 dulu sering dinilai punya kecerdasan emosional (emotional intelligence) yang tinggi
Saya penasaran apakah K2.5 akan mempertahankan karakteristik itu
- Saya juga punya kesan yang sama. Saya benar-benar penasaran bagaimana mereka mengimplementasikan respons emosional seperti itu
- Saya berencana mengujinya di mafia-arena.com
- Memang subjektif, tapi rasanya lebih manusiawi dibanding Gemini 3, GPT 5.2, dan Opus 4.5
Skor CCP-bench meningkat secara signifikan di K2.5
Lihat gambar terkait
Selamat atas pencapaian tim Kimi
Tapi saya masih penasaran kenapa Claude tetap nomor 1 di bidang coding. Apakah karena pelatihan yang memang khusus coding, atau karena kualitas pembelajaran secara keseluruhan?
Saya berharap ada yang bisa mengalahkan Opus 4.5 dalam coding
- Selisih benchmark hampir tidak berarti. Noise di lingkungan coding nyata jauh lebih besar
  Bahkan ada kasus model-model justru overfitting ke benchmark
  Saya sudah memakai GPT5.2 dan Opus 4.5, dan performa coding nyatanya hampir sama
  Selain itu, harga K2.5 hanya sekitar 1/5 dari model papan atas, jadi sangat menjanjikan
- Saya memakai Gemini Pro alih-alih Opus, karena lebih baik dalam mendesain ulang struktur kode agar sesuai kebutuhan
  Opus sering membuat abstraksi yang tidak perlu atau hardcoding
- Gemini 3 Pro jauh lebih unggul terutama pada codebase besar
- Opus 4.5 adalah model yang dirilis dua bulan lalu, dan merupakan hasil dari fokus khusus Anthropic pada performa coding

Kimi merilis Kimi K2.5, model visual SOTA-agentic open-source

Gambaran umum Kimi K2.5

Integrasi coding dan vision

Agent Swarm

Produktivitas kantor

Kesimpulan

Lampiran: hasil benchmark utama

Bacaan terkait

1 komentar

Opini Hacker News