Skill agen AI bahkan tidak mencapai setengah performa benchmark di dunia nyata

(arxiv.org)

3 poin oleh davespark 2026-04-16 | Belum ada komentar. | Bagikan ke WhatsApp

Ini adalah hasil penelitian dari tim UC Santa Barbara, MIT CSAIL, dan MIT-IBM Watson AI Lab yang mengevaluasi secara realistis kemampuan pemanfaatan skill oleh agen AI.

Tim peneliti mengumpulkan dan menguji 34.198 skill dari open source, berupa pengetahuan terstruktur seperti workflow, cara penggunaan API, dan best practice. Benchmark yang ada sebelumnya (SKILLSBENCH) memiliki masalah karena menilai performa dalam kondisi ideal dengan memberikan skill yang sangat tepat terlebih dahulu kepada agen, sehingga performanya menjadi terkesan berlebihan.

Untuk memperbaiki hal ini, tim merancang 6 tahap skenario realistis:

skill diberikan secara langsung
agen memilih skill sendiri
skill yang tidak relevan dicampurkan
pencarian dari kumpulan skill berskala besar
ketika sama sekali tidak ada skill yang benar-benar cocok

Hasil pengujian pada model terbaru seperti Claude Opus 4.6, Kimi K2.5, dan Qwen3.5-397B menunjukkan:

berdasarkan Claude Opus 4.6
- saat skill diberikan langsung: tingkat kelulusan 55,4%
- dalam kondisi realistis (pencarian skala besar + pemilihan): 40,1%
- saat tidak ada skill yang benar-benar cocok: 38,4% (hanya selisih 3 poin persentase dari baseline tanpa skill yaitu 35,4%)
pada model yang lebih lemah (Kimi, Qwen), penggunaan skill justru menimbulkan efek sebaliknya, yaitu performa turun di bawah baseline.

Penyebab utama penurunan performa

Gagal memilih skill: meski ada skill yang sesuai, Claude hanya memanggilnya dengan benar dalam 49% kasus
Batas akurasi pencarian: recall@5 untuk pengambilan skill relevan di 5 hasil teratas maksimal hanya 65,5%
Kurangnya kemampuan adaptasi: tidak mampu menerapkan skill yang mirip secara baik sesuai konteks

Upaya perbaikan dan hasilnya

saat metode penyaringan dan pembuatan skill per tugas diterapkan, performa Claude naik dari 40,1% → 48,2%, tetapi tetap memerlukan skill hasil pencarian awal yang setidaknya cukup relevan agar efektif.
muncul juga pendapat bahwa pendekatan yang lebih sederhana seperti riset Vercel, yaitu memasukkan file markdown seperti AGENTS.md ke dalam konteks, justru lebih stabil.

Kesimpulan dan saran

Saat ini skill agen AI hanya menunjukkan performa yang dilebih-lebihkan di benchmark, sementara dalam lingkungan penggunaan nyata efeknya sangat terbatas. Khususnya pada model yang lebih lemah, skill bahkan bisa menjadi penghambat.

Tim peneliti menekankan perlunya teknik pencarian yang lebih baik, strategi penyaringan skill offline yang efektif, dan perancangan ekosistem skill yang sesuai dengan kemampuan model. Paper dan kodenya telah dibuka di GitHub.

Referensi terkait: https://aisparkup.com/posts/11097

Skill agen AI bahkan tidak mencapai setengah performa benchmark di dunia nyata

Penyebab utama penurunan performa

Upaya perbaikan dan hasilnya

Kesimpulan dan saran

Bacaan terkait

Belum ada komentar.