3 poin oleh GN⁺ 2026-01-28 | 1 komentar | Bagikan ke WhatsApp
  • Kimi K2.5 adalah model open-source multimodal yang dilatih tambahan dengan sekitar 1,5 kuadriliun token visual dan teks, mengintegrasikan kemampuan penulisan kode dan pemrosesan visi
  • Melalui arsitektur Agent Swarm yang mengendalikan hingga 100 sub-agent secara paralel, model ini menyelesaikan tugas kompleks hingga 4,5 kali lebih cepat
  • Terintegrasi dengan Kimi Code dan Kimi App, mendukung berbagai fitur praktis untuk kerja nyata seperti coding berbasis gambar dan video, debugging visual, serta otomatisasi pekerjaan kantor
  • Dalam benchmark internal, model ini mencatat peningkatan performa yang signifikan dibanding K2 di seluruh area coding, vision, dan produktivitas kantor
  • Di komunitas open-source, model ini dinilai menunjukkan kemajuan nyata menuju AGI (kecerdasan umum buatan)

Gambaran umum Kimi K2.5

  • Kimi K2.5 adalah model multimodal native yang dibangun di atas model K2 dan mendapat pra-pelatihan tambahan dengan sekitar 1,5 kuadriliun token campuran visual-teks
    • Mengintegrasikan kemampuan coding dan vision, serta mewujudkan paradigma agent swarm yang otonom
  • Hingga 100 sub-agent dapat melakukan maksimum 1.500 pemanggilan tool secara paralel, mencapai waktu eksekusi hingga 4,5 kali lebih cepat dibanding agent tunggal
  • Tersedia melalui Kimi.com, Kimi App, API, dan Kimi Code, dengan dukungan mode Instant, Thinking, Agent, dan Agent Swarm (beta)

Integrasi coding dan vision

  • K2.5 adalah model coding open-source dengan keunggulan pada pengembangan frontend, yang dapat secara otomatis membuat UI kompleks seperti antarmuka percakapan dan animasi scroll-trigger
  • Mendukung visual coding berbasis gambar dan video, sehingga pengguna dapat mengekspresikan niat secara visual lalu mengubahnya menjadi kode
    • Contohnya, merekonstruksi situs web dari video atau menelusuri jalur terpendek (113.557 langkah) pada gambar labirin dengan algoritma BFS
  • Melalui pembelajaran bersama vision-text skala besar, kemampuan visual dan bahasa meningkat secara bersamaan
  • Dalam Kimi Code Bench internal, model ini menunjukkan peningkatan performa yang konsisten dibanding K2 di berbagai tugas coding multibahasa seperti build, debugging, refactoring, dan testing
  • Kimi Code terintegrasi dengan terminal serta IDE seperti VSCode, Cursor, dan Zed, serta mendukung input gambar dan video serta migrasi skill otomatis

Agent Swarm

  • K2.5 Agent Swarm bukan sekadar perluasan agent tunggal, melainkan struktur kolaboratif paralel yang dilatih dengan Parallel-Agent Reinforcement Learning (PARL)
    • Agent orchestrator memecah pekerjaan menjadi sub-tugas yang bisa diparalelkan, lalu sub-agent tetap menjalankannya secara bersamaan
  • Fungsi reward mendorong eksplorasi paralelisme pada tahap awal dan secara bertahap beralih untuk berfokus pada kualitas tugas Q(τ)
  • Diperkenalkan metrik berbasis latensi bernama Critical Steps untuk mengevaluasi efisiensi eksekusi paralel
  • Dalam evaluasi internal, model ini mencatat pengurangan waktu eksekusi end-to-end sebesar 80% serta peningkatan kemampuan menangani tugas kompleks jangka panjang
    • Contoh: pada tugas mencari kreator YouTube di 100 bidang spesifik, sistem membuat 100 sub-agent secara paralel lalu menggabungkan hasilnya

Produktivitas kantor

  • K2.5 Agent mendukung otomatisasi pekerjaan kantor skala besar, dan dapat menangani dokumen, spreadsheet, PDF, hingga pembuatan slide secara percakapan
  • Dalam AI Office Benchmark dan General Agent Benchmark internal, masing-masing mencatat peningkatan 59,3% dan 24,3%
  • Dapat melakukan tugas tingkat lanjut seperti menambahkan komentar di Word, pemodelan keuangan berbasis Pivot Table, dan penulisan rumus LaTeX di dalam PDF
  • Tugas panjang seperti membuat paper 10.000 kata atau dokumen 100 halaman dapat diselesaikan dalam hitungan menit

Kesimpulan

  • Kimi K2.5 menunjukkan kemajuan di tiga area: coding berbasis vision, agent swarm, dan otomatisasi kantor, serta membuktikan pendekatan menuju AGI di bawah batasan dunia nyata
  • Ke depan, model ini berencana memperluas agentic intelligence untuk mendefinisikan ulang batas kerja pengetahuan

Lampiran: hasil benchmark utama

  • Dibandingkan dengan GPT-5.2, Claude 4.5, Gemini 3 Pro, dan lainnya di 7 area seperti Reasoning, Vision, Coding, dan Agentic Search
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • Mencatat performa papan atas di sebagian besar benchmark vision, coding, dan agentic search
  • Semua eksperimen dijalankan dengan pengaturan konteks token 256k, temperature=1.0, dan top-p=0.95
  • Melalui Kimi Vendor Verifier (KVV), akurasi layanan pihak ketiga juga dapat diverifikasi

1 komentar

 
GN⁺ 2026-01-28
Opini Hacker News
  • Melihat halaman Kimi-K2.5 di Hugging Face, ini adalah model 1 triliun parameter
    Berbasis lisensi MIT, tetapi ada syarat tambahan bahwa untuk layanan komersial dengan lebih dari 100 juta pengguna aktif bulanan atau pendapatan di atas 20 juta dolar, harus menampilkan “Kimi K2.5” di UI

    • 1 triliun berarti bahkan dengan int4 pun sepertinya butuh sekitar setengah terabyte VRAM
      Secara teknis memang menakjubkan, tapi karena toh tidak bisa dijalankan di rumah, rasanya risiko dari merilisnya gratis juga berkurang setengah
    • Para pengembang Cursor tampaknya berusaha menyembunyikan bahwa model Composer berbasis GLM, jadi ini mungkin kabar yang cukup tidak nyaman bagi mereka
    • Saya penasaran apakah thinking, instruct, agent, dan agent swarm(beta) di Kimi K2.5 semuanya open source
      Di API mereka menyebut agent swarm, tapi saya ingin tahu apakah bobot modelnya juga dibuka
    • Melihat klausul “jika pendapatan di atas 20 juta dolar, tampilkan Kimi K2.5 di UI”, rasanya lebih masuk akal kalau sekalian bilang “bayar 1 juta dolar
  • Deepseek moment” itu tepat setahun yang lalu
    Dibanding saat itu, sekarang benar-benar jauh lebih banyak teknologi yang dibuka gratis, dan terasa ada kebebasan yang sangat berbeda dibanding pendekatan tertutup seperti OpenAI

    • Bahkan setelah DeepSeekR1, kecepatan perkembangan model-model Tiongkok seperti v3-0324, v3.1, v3.1-terminus, dan v3.2-speciale sangat mengejutkan
      Kalau ditambah GLM 4.7 flash, Minimax-M2, dan seri Qwen, ragamnya benar-benar banyak
      Saya sudah berhenti berlangganan OpenAI dan Anthropic sejak 2 tahun lalu, dan sama sekali tidak merasa rugi
    • Ini bukan kebetulan. Perusahaan Tiongkok sering melakukan rilis besar sebelum Imlek, jadi kemungkinan besar masih akan ada lagi sebelum 17 Februari
    • Saya penasaran kenapa model sebesar ini dirilis gratis. Pertanyaannya, apa model bisnis mereka?
    • Saya rasa Deepseek pada praktiknya adalah proyek yang berfokus pada pemasaran
      Bahkan di Reddit pun anehnya komentar yang ‘pro-deepseek’ terus bermunculan. Rasanya hampir seperti pemasaran ala Apple
    • Tapi model-model seperti ini juga bisa disalahgunakan untuk serangan keamanan atau serangan biologis
      Rasanya perusahaan Tiongkok tidak merilis ini karena alasan kemanusiaan
  • Membagikan beberapa situs berguna untuk membandingkan berbagai model

  • Kimi K2.5 menjalankan hingga 100 sub-agent secara paralel, dan memproses hingga 1.500 tool call secara paralel
    Yang menarik, bukan sekadar tool call biasa, tetapi orkestrasi agen itu sendiri dilatih dengan reinforcement learning (RL)

    • Tapi 1.500 tool call adalah mimpi buruk struktur biaya. Dengan puluhan langkah saja margin sudah bisa hancur, jadi tanpa pendanaan VC rasanya tidak berkelanjutan
    • Saya penasaran apakah “self-direct an agent swarm” adalah fungsi internal model, atau diimplementasikan di level IDE/layanan
      Biasanya model hanya mengeluarkan “call tool X”, lalu IDE menjalankannya dan mengirimkan hasilnya kembali
    • Agen paralel adalah trik yang sederhana tetapi kuat
      Saya mendapatkan efek serupa dengan TeammateTool di Claude Code
  • Selain K2.5, Moonshot AI juga merilis Kimi Code
    Ini adalah agen coding terminal yang berkembang dari Kimi CLI sebelumnya; saya sudah mencobanya sejak bulan lalu dan cukup stabil
    GitHub: MoonshotAI/kimi-cli

    • Bukan sekadar agen coding biasa, tapi juga berfungsi sebagai shell
      Ada zsh hook, jadi bisa beralih ke mode agen dari mana saja
    • Saya penasaran apakah mendukung fitur swarm, dan apakah juga mendukung Opencode
    • Saya juga ingin tahu bagaimana performanya dibanding CC
  • Yang menarik, K2.5 dilatih agar secara otomatis membuat sub-agent dan menyusun swarm
    Mirip dengan sub-agent dinamis di Claude Code, tetapi bisa menangani jauh lebih banyak agen secara mandiri
    Saya jadi penasaran apakah Claude juga sedang melatih hal serupa, dan apakah itu akan dirilis di versi berikutnya

  • Belakangan ini model-model Tiongkok menjadikan Claude Opus sebagai acuan benchmark
    Qwen3 max thinking dan Kimi K2.5 sama-sama membandingkan diri dengan Opus, bukan Sonnet. Mereka sedang mengejarnya dengan kecepatan yang nyaris sama

    • Di clocks.brianmoore.com, K2 adalah salah satu dari sedikit model yang lulus sempurna dalam tes jam
    • Laboratorium riset Tiongkok punya pola mendistilasi model SOTA Barat lalu menyusulnya dalam beberapa bulan
    • Di benchmark mungkin mirip, tetapi dalam kegunaan nyata, model Anthropic masih unggul
    • Pada akhirnya skenario penggunaan nyata lebih penting. Sulit menilai hanya dari skor benchmark
  • Kimi K2 dulu sering dinilai punya kecerdasan emosional (emotional intelligence) yang tinggi
    Saya penasaran apakah K2.5 akan mempertahankan karakteristik itu

    • Saya juga punya kesan yang sama. Saya benar-benar penasaran bagaimana mereka mengimplementasikan respons emosional seperti itu
    • Saya berencana mengujinya di mafia-arena.com
    • Memang subjektif, tapi rasanya lebih manusiawi dibanding Gemini 3, GPT 5.2, dan Opus 4.5
  • Skor CCP-bench meningkat secara signifikan di K2.5
    Lihat gambar terkait

  • Selamat atas pencapaian tim Kimi
    Tapi saya masih penasaran kenapa Claude tetap nomor 1 di bidang coding. Apakah karena pelatihan yang memang khusus coding, atau karena kualitas pembelajaran secara keseluruhan?
    Saya berharap ada yang bisa mengalahkan Opus 4.5 dalam coding

    • Selisih benchmark hampir tidak berarti. Noise di lingkungan coding nyata jauh lebih besar
      Bahkan ada kasus model-model justru overfitting ke benchmark
      Saya sudah memakai GPT5.2 dan Opus 4.5, dan performa coding nyatanya hampir sama
      Selain itu, harga K2.5 hanya sekitar 1/5 dari model papan atas, jadi sangat menjanjikan
    • Saya memakai Gemini Pro alih-alih Opus, karena lebih baik dalam mendesain ulang struktur kode agar sesuai kebutuhan
      Opus sering membuat abstraksi yang tidak perlu atau hardcoding
    • Gemini 3 Pro jauh lebih unggul terutama pada codebase besar
    • Opus 4.5 adalah model yang dirilis dua bulan lalu, dan merupakan hasil dari fokus khusus Anthropic pada performa coding