5 poin oleh GN⁺ 2026-02-01 | Belum ada komentar. | Bagikan ke WhatsApp
  • Kimi K2.5 yang dirilis Moonshot AI adalah model agen multimodal open-source yang dioptimalkan bersama untuk teks dan visi, yang secara komprehensif menangani penalaran, coding, visi, dan tugas agen dalam satu model
  • Untuk melampaui keterbatasan agen sekuensial yang ada, model ini memperkenalkan orkestrasi agen paralel Agent Swarm untuk mengurai dan mengeksekusi tugas kompleks secara bersamaan
  • Dalam evaluasi benchmark yang luas yang mencakup gambar, video, dokumen, web, hingga lingkungan OS, model ini menyajikan performa komparatif terhadap model komersial maupun open-source
  • Secara eksperimental dikonfirmasi adanya efek transfer lintas modal di mana reinforcement learning visual juga meningkatkan performa penalaran teks
  • Dengan merilis checkpoint terlatih, proyek ini menargetkan riset sistem agen umum dan perluasan penggunaan di dunia nyata

Gambaran umum dan latar masalah

  • Model bahasa skala besar sedang berevolusi melampaui tanya-jawab sederhana menuju kecerdasan agen yang mampu menggunakan tool dan melakukan perencanaan jangka panjang
  • Model multimodal yang ada umumnya menambahkan visi ke desain yang berpusat pada teks, sehingga masih memiliki konflik antar-modal dan keterbatasan generalisasi
  • Dalam tugas nyata yang kompleks, latensi akibat eksekusi agen sekuensial dan keterbatasan konteks menjadi bottleneck utama

Desain inti Kimi K2.5

  • Melalui pra-pelatihan bersama teks–visi, kedua modal dicampur dalam rasio tertentu sejak awal pelatihan untuk memperkuat alignment
  • Menggunakan vision encoder MoonViT-3D untuk memproses gambar resolusi asli dan video berdurasi panjang dalam struktur yang sama
  • Mengadopsi strategi zero-vision SFT yang memungkinkan performa visi aktif tanpa SFT khusus visi
  • Melalui reinforcement learning multimodal bersama yang disusun per unit kapabilitas, model ini secara simultan meningkatkan pengetahuan, penalaran, coding, dan kemampuan agen

Arsitektur Agent Swarm

  • Orkestrator pusat mengurai tugas menjadi submasalah yang dapat diparalelkan dan secara dinamis membuat subagen spesialis
  • Setiap subagen bekerja dalam konteks lokal yang terpisah untuk mencegah kontaminasi konteks global
  • Alih-alih seluruh log, hanya hasil yang diringkas yang digabung secara selektif untuk menerapkan context sharding
  • Model dilatih meminimalkan latensi melalui prompt pelatihan yang mendorong eksekusi paralel dan metrik Critical Steps

Konfigurasi dan skala pelatihan

  • Model dasar Kimi K2 menggunakan arsitektur MoE 1 triliun parameter dan dipra-latih dengan 15 triliun token teks
  • Melalui pelatihan joint long-context, model mendukung panjang konteks hingga 256k
  • Mencakup beragam data multimodal seperti gambar, video, OCR, dokumen, dan screenshot OS

Evaluasi dan performa: ringkasan berfokus pada perbandingan model utama

  • Kimi K2.5 menjalani evaluasi perbandingan dalam kondisi yang sama terhadap model komersial (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) dan model open-source (DeepSeek-V3.2, Qwen3-VL-235B)
  • Semua evaluasi dijalankan dengan temperature 1.0, top-p 0.95, dan panjang konteks maksimum 256k
  • Benchmark penalaran dan pengetahuan umum

    • Di AIME 2025, Kimi K2.5 mencatat 96.1, melampaui Claude Opus 4.5(92.8) dan Gemini 3 Pro(95.0), serta mendekati performa GPT-5.2(100)
    • Di HMMT 2025 dan IMO-AnswerBench, model ini juga mempertahankan skor yang lebih tinggi dibanding Claude Opus 4.5 dan Qwen3-VL
    • Pada GPQA-Diamond, skornya 87.6, setara dengan Claude Opus 4.5(87.0) dan menunjukkan performa lebih unggul dibanding model open-source lain
    • Pada LongBench v2, Gemini 3 Pro mencatat skor tertinggi, tetapi Kimi K2.5 tetap menunjukkan hasil yang kompetitif dibanding DeepSeek-V3.2 dan Qwen3-VL
  • Coding dan software engineering

    • Di SWE-Bench Verified, Kimi K2.5 mencatat 76.8, mirip dengan DeepSeek-V3.2(76.2), dan melampaui Qwen3-VL(73.1)
    • Pada SWE-Bench Pro dan Multilingual, model ini masih di bawah model komersial, tetapi tetap berada di kelompok atas di antara model open-source
    • Di LiveCodeBench v6, model ini mencatat 85.0, lebih tinggi daripada Claude Opus 4.5(82.2) dan Qwen3-VL(83.3)
    • Pada PaperBench(CodeDev) dan CyberGym, model komersial masih unggul, tetapi Kimi K2.5 menunjukkan performa stabil yang layak dipakai di dunia nyata
  • Tugas agen dan berbasis pencarian

    • Di BrowseComp, untuk agen tunggal model ini mencatat 60.6, jauh melampaui Claude Opus 4.5(37.0)
    • Saat Agent Swarm diterapkan, skor BrowseComp menjadi 78.4 dan WideSearch 79.0, menunjukkan peningkatan yang jelas dibanding agen tunggal
    • Pada WideSearch, Claude Opus 4.5 mencatat skor lebih tinggi untuk agen tunggal, tetapi dalam konfigurasi agen paralel Kimi K2.5 lebih unggul
    • Pada keluarga benchmark DeepSearchQA dan FinSearchComp, model ini juga mencatat hasil yang mendekati model komersial
  • Pemahaman visi, dokumen, dan video

    • Pada MMMU-Pro, OCRBench, OmniDocBench 1.5 dan lainnya, model ini dibandingkan langsung dengan Qwen3-VL dan secara umum tetap kompetitif dalam penalaran visual dan pemahaman dokumen
    • GPT-5.2 pada beberapa evaluasi visi mengalami tingkat kegagalan output sekitar 10%, sehingga dinilai secara konservatif
    • Pada benchmark video panjang dan pendek, Kimi K2.5 menunjukkan performa yang konsisten dan hasil yang lebih stabil dibanding model yang berfokus pada gambar tunggal
  • Evaluasi keseluruhan

    • Kimi K2.5 memang belum melampaui model komersial terbaik pada sebagian metrik, tetapi di antara model multimodal dan agen open-source, model ini menunjukkan performa yang paling luas dan seimbang
    • Terutama saat Agent Swarm diterapkan, keunggulan yang jelas terlihat pada tugas agen dan pencarian
    • Karena mencakup penalaran, coding, visi, dan agen dalam satu model terbuka, model ini adalah model agen umum yang benar-benar dapat digunakan, bukan sekadar untuk eksperimen

Keterbatasan dan observasi

  • Beberapa model komersial mengalami tingkat kegagalan output pada benchmark visi sehingga diperlakukan dengan skor konservatif
  • Pada tugas agen yang panjang, perbedaan performa sangat dipengaruhi strategi pengelolaan konteks
  • Beberapa benchmark berbiaya tinggi dikeluarkan dari evaluasi karena masalah stabilitas API

Publikasi dan pemanfaatan

  • Checkpoint post-training Kimi K2.5 dirilis sebagai open-source
  • Menjadi model dasar yang dapat digunakan ulang untuk sistem agen umum, riset multimodal, dan workload otomatisasi nyata
  • Pendekatan yang tidak memisahkan teks dan visi serta struktur agen paralel dapat menjadi jalur praktis menuju General Agentic Intelligence

Belum ada komentar.

Belum ada komentar.