- Kimi K2.5 adalah model open-source multimodal yang dilatih tambahan dengan sekitar 1,5 kuadriliun token visual dan teks, mengintegrasikan kemampuan penulisan kode dan pemrosesan visi
- Melalui arsitektur Agent Swarm yang mengendalikan hingga 100 sub-agent secara paralel, model ini menyelesaikan tugas kompleks hingga 4,5 kali lebih cepat
- Terintegrasi dengan Kimi Code dan Kimi App, mendukung berbagai fitur praktis untuk kerja nyata seperti coding berbasis gambar dan video, debugging visual, serta otomatisasi pekerjaan kantor
- Dalam benchmark internal, model ini mencatat peningkatan performa yang signifikan dibanding K2 di seluruh area coding, vision, dan produktivitas kantor
- Di komunitas open-source, model ini dinilai menunjukkan kemajuan nyata menuju AGI (kecerdasan umum buatan)
Gambaran umum Kimi K2.5
- Kimi K2.5 adalah model multimodal native yang dibangun di atas model K2 dan mendapat pra-pelatihan tambahan dengan sekitar 1,5 kuadriliun token campuran visual-teks
- Mengintegrasikan kemampuan coding dan vision, serta mewujudkan paradigma agent swarm yang otonom
- Hingga 100 sub-agent dapat melakukan maksimum 1.500 pemanggilan tool secara paralel, mencapai waktu eksekusi hingga 4,5 kali lebih cepat dibanding agent tunggal
- Tersedia melalui Kimi.com, Kimi App, API, dan Kimi Code, dengan dukungan mode Instant, Thinking, Agent, dan Agent Swarm (beta)
Integrasi coding dan vision
- K2.5 adalah model coding open-source dengan keunggulan pada pengembangan frontend, yang dapat secara otomatis membuat UI kompleks seperti antarmuka percakapan dan animasi scroll-trigger
- Mendukung visual coding berbasis gambar dan video, sehingga pengguna dapat mengekspresikan niat secara visual lalu mengubahnya menjadi kode
- Contohnya, merekonstruksi situs web dari video atau menelusuri jalur terpendek (113.557 langkah) pada gambar labirin dengan algoritma BFS
- Melalui pembelajaran bersama vision-text skala besar, kemampuan visual dan bahasa meningkat secara bersamaan
- Dalam Kimi Code Bench internal, model ini menunjukkan peningkatan performa yang konsisten dibanding K2 di berbagai tugas coding multibahasa seperti build, debugging, refactoring, dan testing
- Kimi Code terintegrasi dengan terminal serta IDE seperti VSCode, Cursor, dan Zed, serta mendukung input gambar dan video serta migrasi skill otomatis
Agent Swarm
- K2.5 Agent Swarm bukan sekadar perluasan agent tunggal, melainkan struktur kolaboratif paralel yang dilatih dengan Parallel-Agent Reinforcement Learning (PARL)
- Agent orchestrator memecah pekerjaan menjadi sub-tugas yang bisa diparalelkan, lalu sub-agent tetap menjalankannya secara bersamaan
- Fungsi reward mendorong eksplorasi paralelisme pada tahap awal dan secara bertahap beralih untuk berfokus pada kualitas tugas Q(τ)
- Diperkenalkan metrik berbasis latensi bernama Critical Steps untuk mengevaluasi efisiensi eksekusi paralel
- Dalam evaluasi internal, model ini mencatat pengurangan waktu eksekusi end-to-end sebesar 80% serta peningkatan kemampuan menangani tugas kompleks jangka panjang
- Contoh: pada tugas mencari kreator YouTube di 100 bidang spesifik, sistem membuat 100 sub-agent secara paralel lalu menggabungkan hasilnya
Produktivitas kantor
- K2.5 Agent mendukung otomatisasi pekerjaan kantor skala besar, dan dapat menangani dokumen, spreadsheet, PDF, hingga pembuatan slide secara percakapan
- Dalam AI Office Benchmark dan General Agent Benchmark internal, masing-masing mencatat peningkatan 59,3% dan 24,3%
- Dapat melakukan tugas tingkat lanjut seperti menambahkan komentar di Word, pemodelan keuangan berbasis Pivot Table, dan penulisan rumus LaTeX di dalam PDF
- Tugas panjang seperti membuat paper 10.000 kata atau dokumen 100 halaman dapat diselesaikan dalam hitungan menit
Kesimpulan
- Kimi K2.5 menunjukkan kemajuan di tiga area: coding berbasis vision, agent swarm, dan otomatisasi kantor, serta membuktikan pendekatan menuju AGI di bawah batasan dunia nyata
- Ke depan, model ini berencana memperluas agentic intelligence untuk mendefinisikan ulang batas kerja pengetahuan
Lampiran: hasil benchmark utama
- Dibandingkan dengan GPT-5.2, Claude 4.5, Gemini 3 Pro, dan lainnya di 7 area seperti Reasoning, Vision, Coding, dan Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- Mencatat performa papan atas di sebagian besar benchmark vision, coding, dan agentic search
- Semua eksperimen dijalankan dengan pengaturan konteks token 256k, temperature=1.0, dan top-p=0.95
- Melalui Kimi Vendor Verifier (KVV), akurasi layanan pihak ketiga juga dapat diverifikasi
1 komentar
Opini Hacker News
Melihat halaman Kimi-K2.5 di Hugging Face, ini adalah model 1 triliun parameter
Berbasis lisensi MIT, tetapi ada syarat tambahan bahwa untuk layanan komersial dengan lebih dari 100 juta pengguna aktif bulanan atau pendapatan di atas 20 juta dolar, harus menampilkan “Kimi K2.5” di UI
Secara teknis memang menakjubkan, tapi karena toh tidak bisa dijalankan di rumah, rasanya risiko dari merilisnya gratis juga berkurang setengah
Di API mereka menyebut agent swarm, tapi saya ingin tahu apakah bobot modelnya juga dibuka
“Deepseek moment” itu tepat setahun yang lalu
Dibanding saat itu, sekarang benar-benar jauh lebih banyak teknologi yang dibuka gratis, dan terasa ada kebebasan yang sangat berbeda dibanding pendekatan tertutup seperti OpenAI
Kalau ditambah GLM 4.7 flash, Minimax-M2, dan seri Qwen, ragamnya benar-benar banyak
Saya sudah berhenti berlangganan OpenAI dan Anthropic sejak 2 tahun lalu, dan sama sekali tidak merasa rugi
Bahkan di Reddit pun anehnya komentar yang ‘pro-deepseek’ terus bermunculan. Rasanya hampir seperti pemasaran ala Apple
Rasanya perusahaan Tiongkok tidak merilis ini karena alasan kemanusiaan
Membagikan beberapa situs berguna untuk membandingkan berbagai model
Kimi K2.5 menjalankan hingga 100 sub-agent secara paralel, dan memproses hingga 1.500 tool call secara paralel
Yang menarik, bukan sekadar tool call biasa, tetapi orkestrasi agen itu sendiri dilatih dengan reinforcement learning (RL)
Biasanya model hanya mengeluarkan “call tool X”, lalu IDE menjalankannya dan mengirimkan hasilnya kembali
Saya mendapatkan efek serupa dengan TeammateTool di Claude Code
Selain K2.5, Moonshot AI juga merilis Kimi Code
Ini adalah agen coding terminal yang berkembang dari Kimi CLI sebelumnya; saya sudah mencobanya sejak bulan lalu dan cukup stabil
GitHub: MoonshotAI/kimi-cli
Ada zsh hook, jadi bisa beralih ke mode agen dari mana saja
Yang menarik, K2.5 dilatih agar secara otomatis membuat sub-agent dan menyusun swarm
Mirip dengan sub-agent dinamis di Claude Code, tetapi bisa menangani jauh lebih banyak agen secara mandiri
Saya jadi penasaran apakah Claude juga sedang melatih hal serupa, dan apakah itu akan dirilis di versi berikutnya
Belakangan ini model-model Tiongkok menjadikan Claude Opus sebagai acuan benchmark
Qwen3 max thinking dan Kimi K2.5 sama-sama membandingkan diri dengan Opus, bukan Sonnet. Mereka sedang mengejarnya dengan kecepatan yang nyaris sama
Kimi K2 dulu sering dinilai punya kecerdasan emosional (emotional intelligence) yang tinggi
Saya penasaran apakah K2.5 akan mempertahankan karakteristik itu
Skor CCP-bench meningkat secara signifikan di K2.5
Lihat gambar terkait
Selamat atas pencapaian tim Kimi
Tapi saya masih penasaran kenapa Claude tetap nomor 1 di bidang coding. Apakah karena pelatihan yang memang khusus coding, atau karena kualitas pembelajaran secara keseluruhan?
Saya berharap ada yang bisa mengalahkan Opus 4.5 dalam coding
Bahkan ada kasus model-model justru overfitting ke benchmark
Saya sudah memakai GPT5.2 dan Opus 4.5, dan performa coding nyatanya hampir sama
Selain itu, harga K2.5 hanya sekitar 1/5 dari model papan atas, jadi sangat menjanjikan
Opus sering membuat abstraksi yang tidak perlu atau hardcoding