- Kimi Vendor Verifier (KVV) adalah alat publik yang memungkinkan verifikasi deviasi implementasi inferensi yang muncul di berbagai infrastruktur setelah deployment model open source, sehingga dapat membedakan keterbatasan model itu sendiri dari kesalahan engineering
- Berdasarkan API resmi, KVV menyajikan OCRBench 91.0, AIME2025 avg@32 98.4, dan MMMU Pro Vision 78.8, serta turut membuka pengaturan Temperature, TopP, MaxTokens untuk tiap evaluasi beserta file hasil evaluasi K2VV
- Hasil investigasi atas anomali benchmark yang dilaporkan komunitas menunjukkan bahwa sebagian besar berasal dari penyalahgunaan parameter decoding, dan pada mode Thinking diterapkan pemaksaan Temperature 1.0 dan TopP 0.95 serta verifikasi penerusan ulang konten
- Prosedur verifikasi disusun dengan pre-verification untuk memeriksa pembatasan parameter, lalu memakai OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench, dan lainnya untuk memeriksa pra-pemrosesan Vision, output panjang, pemanggilan tool, hingga agentic coding
- Seluruh workflow memerlukan sekitar 15 jam dalam eksekusi berurutan pada dua server NVIDIA H20 8-GPU, dan penyebaran verifikasi yang mengutamakan akurasi didorong melalui leaderboard publik serta pemberian early access
Membangun Ulang Chain of Trust
- Dirancang bersamaan dengan dibukanya source code Kimi Vendor Verifier (KVV) agar pengguna model open source dapat memverifikasi akurasi implementasi inferensi
- Dirilis bersamaan dengan pembukaan model Kimi K2.6, dengan gagasan bahwa publikasi model saja tidak cukup dan diperlukan proses untuk memastikan model bekerja benar di beragam lingkungan
- Seiring ekosistem model open source makin membuka bobot model dan memperluas jalur deployment, terlihat struktur di mana kemampuan kontrol kualitas semakin menurun
- Jika pengguna tidak dapat membedakan antara cacat performa model itu sendiri dan deviasi implementasi engineering, kepercayaan terhadap ekosistem open source dapat runtuh
Cara penyelesaiannya
-
Dari anomali individual ke isu struktural
- Setelah K2 Thinking dibuka, komunitas kerap mengirimkan umpan balik terkait anomali skor benchmark
- Hasil investigasi mengonfirmasi bahwa cukup banyak kasus berasal dari penyalahgunaan parameter decoding
- Sebagai langkah mitigasi segera, dibangun garis pertahanan pertama di level API
- Pada mode Thinking, Temperature=1.0 dan TopP=0.95 dipaksakan
- Diterapkan verifikasi wajib untuk memastikan konten thinking diteruskan ulang dengan benar
- Pada evaluasi LiveBenchmark tertentu, diamati perbedaan besar antara API pihak ketiga dan API resmi
- Hasil pengujian luas pada beragam penyedia infrastruktur mengonfirmasi bahwa perbedaan seperti ini terjadi secara luas
-
Prosedur dan operasi verifikasi
- Membuka angka benchmark berdasarkan API resmi
- Akurasi OCRBench 91.0
- AIME2025 avg@32 98.4
- Akurasi MMMU Pro Vision 78.8
- Nilai konfigurasi evaluasi juga dicantumkan
- Ketiga item sama-sama memakai Temperature 1.0 dan TopP 0.95
- MaxTokens masing-masing adalah OCRBench 16384, AIME2025 98304, MMMU Pro Vision 65536
- Tautan file hasil evaluasi K2VV Kimi API disediakan, dengan penjelasan bahwa file itu dipakai untuk menghitung skor F1
- Menjalankan tahap Pre-Verification
- Memverifikasi apakah pembatasan parameter API seperti temperature dan top_p dipaksakan dengan benar
- Evaluasi benchmark hanya dijalankan setelah semua pengujian lolos
- Menggunakan OCRBench
- Berperan sebagai smoke test 5 menit untuk pipeline multimodal
- Menggunakan MMMU Pro
- Memverifikasi pra-pemrosesan input Vision melalui pengujian berbagai input visual
- Menggunakan AIME2025
- Berperan sebagai stress test output panjang
- Menangkap bug KV cache dan penurunan performa kuantisasi yang tidak terlihat pada benchmark pendek
- Menggunakan K2VV ToolCall
- Mengukur konsistensi trigger (F1) dan akurasi JSON Schema
- Mendeteksi lebih awal sebelum kesalahan tool terakumulasi dalam agent
- Menggunakan SWE-Bench
- Berperan sebagai pengujian penuh agentic coding
- Tidak di-open-source-kan karena ketergantungan sandbox
- Bekerja bersama komunitas vLLM, SGLang, dan KTransformers
- Tidak berhenti pada deteksi gejala, tetapi menargetkan perbaikan akar masalah
- Alih-alih menunggu keluhan setelah deployment, penyedia infrastruktur diberi hak early access
- Disusun agar tiap penyedia dapat memverifikasi stack mereka sendiri sebelum pengguna mengalami masalah
- Leaderboard publik untuk hasil vendor akan terus dioperasikan
- Transparansi ini dirancang agar meningkatkan prioritas akurasi para vendor
- Verifikasi atas seluruh workflow evaluasi telah selesai
- Menggunakan dua server NVIDIA H20 8-GPU
- Memerlukan sekitar 15 jam dalam eksekusi berurutan
- Dilakukan optimasi skrip agar sesuai dengan skenario inferensi berdurasi panjang
- Streaming inferensi
- Retry otomatis
- Termasuk mekanisme resume dari checkpoint
- Ditegaskan prinsip bahwa setelah bobot model dibuka, pengetahuan untuk menjalankannya dengan benar juga harus dibuka
- Sedang memperluas cakupan vendor dan mengeksplorasi pengujian agentic yang lebih ringan
- Membuka angka benchmark berdasarkan API resmi
2 komentar
Semoga proyek ini benar-benar berjalan dengan baik.
Komentar Hacker News