Laporan Teknis Kimi K2.5 [PDF] - Model Multimodal Terbuka Menuju Kecerdasan Agen Visual

Kimi K2.5 yang dirilis Moonshot AI adalah model agen multimodal open-source yang dioptimalkan bersama untuk teks dan visi, yang secara komprehensif menangani penalaran, coding, visi, dan tugas agen dalam satu model
Untuk melampaui keterbatasan agen sekuensial yang ada, model ini memperkenalkan orkestrasi agen paralel Agent Swarm untuk mengurai dan mengeksekusi tugas kompleks secara bersamaan
Dalam evaluasi benchmark yang luas yang mencakup gambar, video, dokumen, web, hingga lingkungan OS, model ini menyajikan performa komparatif terhadap model komersial maupun open-source
Secara eksperimental dikonfirmasi adanya efek transfer lintas modal di mana reinforcement learning visual juga meningkatkan performa penalaran teks
Dengan merilis checkpoint terlatih, proyek ini menargetkan riset sistem agen umum dan perluasan penggunaan di dunia nyata

Gambaran umum dan latar masalah

Model bahasa skala besar sedang berevolusi melampaui tanya-jawab sederhana menuju kecerdasan agen yang mampu menggunakan tool dan melakukan perencanaan jangka panjang
Model multimodal yang ada umumnya menambahkan visi ke desain yang berpusat pada teks, sehingga masih memiliki konflik antar-modal dan keterbatasan generalisasi
Dalam tugas nyata yang kompleks, latensi akibat eksekusi agen sekuensial dan keterbatasan konteks menjadi bottleneck utama

Desain inti Kimi K2.5

Melalui pra-pelatihan bersama teks–visi, kedua modal dicampur dalam rasio tertentu sejak awal pelatihan untuk memperkuat alignment
Menggunakan vision encoder MoonViT-3D untuk memproses gambar resolusi asli dan video berdurasi panjang dalam struktur yang sama
Mengadopsi strategi zero-vision SFT yang memungkinkan performa visi aktif tanpa SFT khusus visi
Melalui reinforcement learning multimodal bersama yang disusun per unit kapabilitas, model ini secara simultan meningkatkan pengetahuan, penalaran, coding, dan kemampuan agen

Arsitektur Agent Swarm

Orkestrator pusat mengurai tugas menjadi submasalah yang dapat diparalelkan dan secara dinamis membuat subagen spesialis
Setiap subagen bekerja dalam konteks lokal yang terpisah untuk mencegah kontaminasi konteks global
Alih-alih seluruh log, hanya hasil yang diringkas yang digabung secara selektif untuk menerapkan context sharding
Model dilatih meminimalkan latensi melalui prompt pelatihan yang mendorong eksekusi paralel dan metrik Critical Steps

Konfigurasi dan skala pelatihan

Model dasar Kimi K2 menggunakan arsitektur MoE 1 triliun parameter dan dipra-latih dengan 15 triliun token teks
Melalui pelatihan joint long-context, model mendukung panjang konteks hingga 256k
Mencakup beragam data multimodal seperti gambar, video, OCR, dokumen, dan screenshot OS

Evaluasi dan performa: ringkasan berfokus pada perbandingan model utama

Kimi K2.5 menjalani evaluasi perbandingan dalam kondisi yang sama terhadap model komersial (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) dan model open-source (DeepSeek-V3.2, Qwen3-VL-235B)
Semua evaluasi dijalankan dengan temperature 1.0, top-p 0.95, dan panjang konteks maksimum 256k
Benchmark penalaran dan pengetahuan umum
- Di AIME 2025, Kimi K2.5 mencatat 96.1, melampaui Claude Opus 4.5(92.8) dan Gemini 3 Pro(95.0), serta mendekati performa GPT-5.2(100)
- Di HMMT 2025 dan IMO-AnswerBench, model ini juga mempertahankan skor yang lebih tinggi dibanding Claude Opus 4.5 dan Qwen3-VL
- Pada GPQA-Diamond, skornya 87.6, setara dengan Claude Opus 4.5(87.0) dan menunjukkan performa lebih unggul dibanding model open-source lain
- Pada LongBench v2, Gemini 3 Pro mencatat skor tertinggi, tetapi Kimi K2.5 tetap menunjukkan hasil yang kompetitif dibanding DeepSeek-V3.2 dan Qwen3-VL
Coding dan software engineering
- Di SWE-Bench Verified, Kimi K2.5 mencatat 76.8, mirip dengan DeepSeek-V3.2(76.2), dan melampaui Qwen3-VL(73.1)
- Pada SWE-Bench Pro dan Multilingual, model ini masih di bawah model komersial, tetapi tetap berada di kelompok atas di antara model open-source
- Di LiveCodeBench v6, model ini mencatat 85.0, lebih tinggi daripada Claude Opus 4.5(82.2) dan Qwen3-VL(83.3)
- Pada PaperBench(CodeDev) dan CyberGym, model komersial masih unggul, tetapi Kimi K2.5 menunjukkan performa stabil yang layak dipakai di dunia nyata
Tugas agen dan berbasis pencarian
- Di BrowseComp, untuk agen tunggal model ini mencatat 60.6, jauh melampaui Claude Opus 4.5(37.0)
- Saat Agent Swarm diterapkan, skor BrowseComp menjadi 78.4 dan WideSearch 79.0, menunjukkan peningkatan yang jelas dibanding agen tunggal
- Pada WideSearch, Claude Opus 4.5 mencatat skor lebih tinggi untuk agen tunggal, tetapi dalam konfigurasi agen paralel Kimi K2.5 lebih unggul
- Pada keluarga benchmark DeepSearchQA dan FinSearchComp, model ini juga mencatat hasil yang mendekati model komersial
Pemahaman visi, dokumen, dan video
- Pada MMMU-Pro, OCRBench, OmniDocBench 1.5 dan lainnya, model ini dibandingkan langsung dengan Qwen3-VL dan secara umum tetap kompetitif dalam penalaran visual dan pemahaman dokumen
- GPT-5.2 pada beberapa evaluasi visi mengalami tingkat kegagalan output sekitar 10%, sehingga dinilai secara konservatif
- Pada benchmark video panjang dan pendek, Kimi K2.5 menunjukkan performa yang konsisten dan hasil yang lebih stabil dibanding model yang berfokus pada gambar tunggal
Evaluasi keseluruhan
- Kimi K2.5 memang belum melampaui model komersial terbaik pada sebagian metrik, tetapi di antara model multimodal dan agen open-source, model ini menunjukkan performa yang paling luas dan seimbang
- Terutama saat Agent Swarm diterapkan, keunggulan yang jelas terlihat pada tugas agen dan pencarian
- Karena mencakup penalaran, coding, visi, dan agen dalam satu model terbuka, model ini adalah model agen umum yang benar-benar dapat digunakan, bukan sekadar untuk eksperimen

Keterbatasan dan observasi

Beberapa model komersial mengalami tingkat kegagalan output pada benchmark visi sehingga diperlakukan dengan skor konservatif
Pada tugas agen yang panjang, perbedaan performa sangat dipengaruhi strategi pengelolaan konteks
Beberapa benchmark berbiaya tinggi dikeluarkan dari evaluasi karena masalah stabilitas API

Publikasi dan pemanfaatan

Checkpoint post-training Kimi K2.5 dirilis sebagai open-source
Menjadi model dasar yang dapat digunakan ulang untuk sistem agen umum, riset multimodal, dan workload otomatisasi nyata
Pendekatan yang tidak memisahkan teks dan visi serta struktur agen paralel dapat menjadi jalur praktis menuju General Agentic Intelligence

Laporan Teknis Kimi K2.5 [PDF] - Model Multimodal Terbuka Menuju Kecerdasan Agen Visual

Gambaran umum dan latar masalah

Desain inti Kimi K2.5

Arsitektur Agent Swarm

Konfigurasi dan skala pelatihan

Evaluasi dan performa: ringkasan berfokus pada perbandingan model utama

Benchmark penalaran dan pengetahuan umum

Coding dan software engineering

Tugas agen dan berbasis pencarian

Pemahaman visi, dokumen, dan video

Evaluasi keseluruhan

Keterbatasan dan observasi

Publikasi dan pemanfaatan

Bacaan terkait

Belum ada komentar.