1 poin oleh GN⁺ 2 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Alat sumber terbuka yang memungkinkan verifikasi perbedaan implementasi inferensi yang muncul di berbagai infrastruktur setelah deployment model open source, sehingga batasan bawaan model dan kesalahan engineering dapat dibedakan
  • Berdasarkan API resmi, disajikan OCRBench 91.0, AIME2025 avg@32 98.4, MMMU Pro Vision 78.8, serta pengaturan Temperature, TopP, MaxTokens untuk tiap evaluasi dan file hasil evaluasi K2VV
  • Hasil penyelidikan atas anomali benchmark yang dilaporkan komunitas menunjukkan banyak kasus berasal dari penyalahgunaan parameter decoding, dan pada mode Thinking diterapkan pemaksaan Temperature 1.0 serta TopP 0.95 bersama verifikasi penerusan konten
  • Prosedur verifikasi disusun dengan pra-verifikasi untuk memeriksa pembatasan parameter, lalu menggunakan OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench, dan lainnya untuk meninjau pra-pemrosesan Vision, output panjang, pemanggilan tool, hingga agentic coding
  • Seluruh workflow membutuhkan sekitar 15 jam dalam eksekusi berurutan pada dua server NVIDIA H20 8-GPU, dan melalui leaderboard publik serta akses awal didorong penyebaran verifikasi yang mengutamakan akurasi

Membangun kembali rantai kepercayaan

  • Bersamaan dengan open-sourcing Kimi Vendor Verifier(KVV), alat ini dirancang agar pengguna model open source dapat memverifikasi akurasi implementasi inferensi
  • Alat ini dirilis bersamaan dengan publikasi model Kimi K2.6, dan sekadar merilis model saja tidak cukup; perlu proses untuk memastikan model bekerja dengan benar di berbagai lingkungan
  • Semakin ekosistem model open source bergerak ke arah publikasi bobot dan beragam jalur deployment, semakin terlihat struktur yang menurunkan kemampuan kontrol kualitas
  • Jika pengguna tidak dapat membedakan antara cacat performa bawaan model dan perbedaan implementasi engineering, kepercayaan terhadap ekosistem open source dapat runtuh

Cara penyelesaiannya

  • Dari anomali individual ke isu struktural

    • Setelah K2 Thinking dipublikasikan, komunitas sering menyampaikan umpan balik terkait fenomena anomali skor benchmark
    • Hasil investigasi menunjukkan banyak kasus berasal dari penyalahgunaan parameter decoding
    • Sebagai langkah mitigasi segera, dibangun garis pertahanan pertama di tingkat API
      • Pada mode Thinking, Temperature=1.0 dan TopP=0.95 dipaksakan
      • Diterapkan verifikasi wajib untuk memastikan konten thinking diteruskan kembali dengan benar
    • Pada evaluasi LiveBenchmark tertentu, diamati perbedaan besar antara API pihak ketiga dan API resmi
    • Hasil pengujian luas terhadap berbagai penyedia infrastruktur mengonfirmasi bahwa perbedaan semacam ini terjadi secara luas
  • Prosedur verifikasi dan operasional

    • Mempublikasikan angka benchmark berdasarkan API resmi
      • Akurasi OCRBench 91.0
      • AIME2025 avg@32 98.4
      • Akurasi MMMU Pro Vision 78.8
    • Nilai konfigurasi evaluasi juga dicantumkan
      • Untuk ketiganya digunakan Temperature 1.0 dan TopP 0.95
      • MaxTokens adalah OCRBench 16384, AIME2025 98304, MMMU Pro Vision 65536
    • Tautan file hasil evaluasi Kimi API K2VV disediakan, dan disebutkan untuk perhitungan skor F1
    • Menjalankan tahap Pre-Verification
      • Memverifikasi apakah pembatasan parameter API seperti temperature dan top_p diterapkan dengan benar
      • Evaluasi benchmark hanya dijalankan setelah seluruh pengujian lolos
    • Menggunakan OCRBench
      • Berperan sebagai smoke test 5 menit untuk pipeline multimodal
    • Menggunakan MMMU Pro
      • Memverifikasi pra-pemrosesan input Vision melalui pengujian beragam input visual
    • Menggunakan AIME2025
      • Berperan sebagai stress test output panjang
      • Menangkap bug KV cache dan penurunan performa kuantisasi yang tidak terlihat pada benchmark pendek
    • Menggunakan K2VV ToolCall
      • Mengukur konsistensi trigger (F1) dan akurasi JSON Schema
      • Memungkinkan deteksi dini sebelum error tool menumpuk dalam agent
    • Menggunakan SWE-Bench
      • Berperan sebagai pengujian agentic coding menyeluruh
      • Tidak di-open-source karena ketergantungan pada sandbox
    • Bekerja bersama komunitas vLLM, SGLang, KTransformers
    • Tidak berhenti pada deteksi gejala, tetapi mengarah pada perbaikan akar masalah
    • Alih-alih menunggu keluhan setelah deployment, penyedia infrastruktur diberi akses awal
    • Disusun agar tiap penyedia dapat memverifikasi stack mereka sendiri sebelum pengguna mengalami masalah
    • Leaderboard publik untuk hasil vendor akan terus dioperasikan
    • Transparansi ini dirancang agar mendorong peningkatan prioritas akurasi di pihak vendor
    • Verifikasi seluruh workflow evaluasi telah selesai
      • Menggunakan dua server NVIDIA H20 8-GPU
      • Membutuhkan sekitar 15 jam dalam eksekusi berurutan
    • Diterapkan optimasi skrip untuk skenario inferensi berdurasi panjang
      • Inferensi streaming
      • Retry otomatis
      • Termasuk mekanisme melanjutkan dari checkpoint
    • Ditegaskan prinsip bahwa jika bobot telah dipublikasikan, maka pengetahuan untuk menjalankannya dengan benar juga harus dipublikasikan
    • Perluasan cakupan vendor dan eksplorasi pengujian agentic yang lebih ringan sedang berlangsung
    • Kontak contact-kvv@kimi.com dipublikasikan

Belum ada komentar.

Belum ada komentar.