SkillsBench: benchmark untuk mengevaluasi performa skill agen di berbagai tugas

(arxiv.org)

3 poin oleh GN⁺ 2026-02-18 | 1 komentar | Bagikan ke WhatsApp

Benchmark pertama untuk mengevaluasi secara kuantitatif efektivitas skill (Agent Skills) pada agen berbasis large language model (LLM), mencakup 84 tugas di 11 domain
Setiap tugas dievaluasi dalam tiga kondisi: tanpa skill, dengan skill terkurasi, dan dengan skill yang dibuat sendiri, dengan total 7.308 trajectory eksekusi dikumpulkan
Skill terkurasi menunjukkan peningkatan performa rata-rata +16,2 poin persentase, tetapi variasi antar-domain besar dan pada beberapa tugas (16 dari 84) performa justru menurun
Self-generated Skills rata-rata tidak efektif, menunjukkan bahwa model belum mampu menghasilkan pengetahuan prosedural secara stabil dengan sendirinya
Modul skill yang kecil dan terfokus (terdiri dari 2–3 bagian) lebih efisien dibanding skill berbentuk dokumen komprehensif, dan model kecil yang memakai skill mencapai performa serupa dengan model besar tanpa skill

Ringkasan SKILLSBENCH

SKILLSBENCH adalah benchmark untuk mengevaluasi efek penguatan skill pada agen LLM, dibangun di atas framework Harbor
- Setiap tugas mencakup lingkungan container, verifier deterministik, dan jawaban referensi (oracle)
- Tugas yang sama dijalankan berulang dengan dan tanpa skill untuk mengukur efek murni dari skill
Berbeda dari benchmark sebelumnya yang hanya menilai kemampuan dasar model, SKILLSBENCH secara langsung mengukur dampak skill terhadap performa

Definisi dan komposisi skill (Agent Skills)

Skill adalah paket terstruktur yang memuat procedural knowledge, yang memperluas perilaku agen pada saat inferensi tanpa memodifikasi model
- Komponen: SKILL.md (prosedur pendekatan tugas), skrip yang dapat dijalankan, template kode, contoh, dan sebagainya
Skill harus memenuhi empat kriteria berikut
- Memuat konten prosedural
- Berlaku pada kelas tugas, bukan hanya satu kasus tunggal
- Memiliki komponen yang terstruktur
- Menjamin portabilitas berbasis sistem file
System prompt, contoh few-shot, pencarian RAG, dan dokumentasi tool tidak dianggap sebagai skill

Struktur tugas (Task) dan pembangunan dataset

Setiap tugas terdiri dari empat elemen: instruksi, lingkungan, jawaban, verifier
- Lingkungan diisolasi dengan container Docker untuk menjamin reproduktibilitas
- Verifier berupa skrip uji deterministik yang otomatis menilai lulus/gagal
Sebanyak 105 kontributor mengirimkan 322 tugas kandidat, lalu melalui validasi otomatis dan peninjauan manusia hingga dipilih 84 tugas final
Kontributor harus memenuhi persyaratan berikut
- Instruksi ditulis manusia (pembuatan oleh LLM dilarang)
- Skill harus memberikan panduan prosedural, bukan jawaban spesifik untuk suatu tugas
- Semua verifikasi harus dilakukan secara deterministik (berbasis assertion)
- Harus lolos validasi struktur otomatis, eksekusi oracle, deteksi konten buatan AI, dan audit kebocoran
Untuk mencegah kebocoran, skill akan ditolak bila memuat nama file spesifik tugas, konstanta, referensi test, dan sejenisnya

Komposisi benchmark dan klasifikasi tingkat kesulitan

SKILLSBENCH terdiri dari 84 tugas di 11 domain (software, healthcare, finance, robotics, dan lain-lain)
Tingkat kesulitan dibagi menjadi tiga level berdasarkan waktu pengerjaan manusia
- Core (kurang dari 60 menit): 17 tugas
- Extended (1–4 jam): 43 tugas
- Extreme (lebih dari 4 jam): 26 tugas

Pengaturan eksperimen

Mengevaluasi tiga agent harness komersial: Claude Code, Gemini CLI, Codex CLI
Menggunakan tujuh model: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
Evaluasi dilakukan dalam tiga kondisi
- No Skills: tanpa skill
- With Skills: dengan skill terkurasi
- Self-Generated Skills: model membuat lalu menerapkan skill sendiri
Total 7.308 trajectory valid dikumpulkan

Metrik evaluasi

Pass rate digunakan sebagai metrik utama
Normalized gain juga dihitung untuk menganalisis peningkatan absolut dan peningkatan relatif secara bersamaan
Setiap tugas diulang 5 kali lalu dihitung skor rata-ratanya

Hasil utama

Skill terkurasi menghasilkan peningkatan rata-rata +16,2 poin persentase, dengan rentang +13,6 hingga +23,3 poin persentase tergantung konfigurasi
- Variasi antar-domain besar; peningkatan terbesar terjadi di healthcare (+51,9 poin persentase), dan yang terendah di software engineering (+4,5 poin persentase)
- Pada 16 dari 84 tugas, performa justru menurun
Skill yang dibuat sendiri rata-rata tidak efektif atau berdampak negatif
- Model belum mampu menghasilkan pengetahuan prosedural secara stabil dengan sendirinya
Skill terfokus (2–3 modul) menunjukkan efisiensi lebih tinggi dibanding format dokumentasi komprehensif
Kombinasi model kecil + skill mencapai performa serupa dengan model besar tanpa skill

Kesimpulan

SKILLSBENCH menyediakan kerangka evaluasi yang berpusat pada skill dan membuktikan secara kuantitatif pengaruh skill terhadap kemampuan agen LLM dalam menyelesaikan tugas nyata
Hasilnya menunjukkan bahwa kualitas desain skill dan kecocokan domain sangat menentukan peningkatan performa
Ke depan, benchmark ini dapat menjadi landasan untuk meneliti prinsip desain struktural skill dan batasan pembuatan otomatisnya

1 komentar

GN⁺ 2026-02-18

Komentar Hacker News

Konsep “Self-Generated Skills” memang menarik, tetapi saya ingin menekankan bahwa ini berbeda dari ‘proses LLM belajar keterampilan sendiri’ seperti yang dibayangkan banyak orang
Dalam riset ini, model hanya diberi prompt untuk menghasilkan pengetahuan prosedural yang relevan sebelum memecahkan masalah, sehingga masih jauh dari ‘keterampilan yang dipelajari dari pengalaman’ yang sesungguhnya
Saya berharap media melaporkan dengan membedakan dua hal ini secara jelas
- Cakupan ‘task’ dalam eksperimen ini terlalu terbatas. Mereka hanya memakai satu file Markdown dan validator, tanpa menangani masalah realistis seperti codebase yang sudah ada atau refactoring
  Bahkan jika LLM menghasilkan keterampilan sendiri, strukturnya tidak memungkinkan eksplorasi atau pembelajaran, jadi pada akhirnya hanya mengulang konteks dirinya sendiri
  Menggeneralisasi hasil seperti ini sangat berpotensi menyesatkan
- Tujuan asli dari ‘skill’ adalah sebagai memo how-to singkat yang bisa dipanggil dan digunakan saat dibutuhkan
  Jika pengetahuan itu sudah ada di dalam model, tidak perlu repot menuliskannya sebagai dokumen, dan hanya bermakna bila informasinya memang sulit dimunculkan
- Saya juga tertarik pada cara LLM merangkum pelajaran yang dipelajari setelah mencoba menjadi skill
  Membuat skill sebelum mencoba terasa seperti pendekatan yang jauh dari realitas
- Saya pernah membuat skill yang berguna melalui ‘role play session’
  Membiarkan agen mengajukan pertanyaan, melewati proses pemecahan masalah, lalu merangkum hasilnya menjadi skill terkompresi berbasis bukti ternyata efektif
- Seperti yang saya rangkum di thisistheway.to/ai, kami menjadikan kegagalan agen sebagai kesempatan belajar
  ① menangkap kegagalan → ② mendiagnosis penyebab → ③ memilih alat perbaikan → ④ mencatatnya sebagai artefak berversi → ⑤ menaikkannya menjadi gate bila perlu
  Loop seperti ini kami masukkan ke instruksi dasar semua agen
Saya menggunakan skill-creator untuk Claude secara terpisah
Untuk mencegah Claude menulis ulang informasi yang sebenarnya sudah ia ketahui menjadi skill, dokumen itu hanya boleh memuat
① informasi di luar data pelatihan, ② konteks yang hanya berlaku untuk sesi saat ini, ③ informasi yang menyelaraskan perilaku Claude di masa depan
Selengkapnya ada di tautan GitHub
- LLM memang lemah dalam kemampuan merefleksikan apa yang ia tahu dan tidak tahu, tetapi saya tetap menganggap pendekatan ini sangat berguna
- Namun, berbahaya jika mengasumsikan Claude bisa memilih ‘pengetahuan terbaik’
  Kualitas data pelatihan internet sangat tidak merata, jadi sulit berharap model bisa membuat ‘pilihan setingkat pakar’
- Saya suka karena dokumen skill ini terasa seperti tulisan blog yang bagus
  Tulisan yang memuat wawasan non-sepele bisa menjadi kriteria bahwa itu adalah skill yang baik
- Wawasan praktis semacam ini sepertinya juga layak dipublikasikan lebih dulu di arXiv sebelum para peneliti menjadikannya paper
Hal paling menarik dari hasil riset ini adalah bahwa skill yang dihasilkan sendiri menurunkan performa (-1.3pp), sedangkan skill yang dikurasi meningkatkan performa secara besar (+16.2pp)
Ini sejalan dengan hipotesis bahwa LLM sangat baik sebagai konsumen pengetahuan prosedural, tetapi lemah sebagai produsen
Efeknya jauh lebih besar di healthcare dibanding software, kemungkinan karena data SWE sudah sangat melimpah
- Saya juga memperhatikan perbedaan ini. Saat menangani library baru atau langka, efek skill meningkat sangat drastis
  Misalnya Adobe React Spectrum UI berantakan jika dipakai tanpa skill, tetapi hasilnya benar-benar berbeda jika menggunakan skill yang dibuat dengan baik
Tidak ada gunanya hanya menyuruh model, “buat skill”
Jika pengetahuannya tidak diperluas dengan informasi baru atau sumber eksternal, itu pada akhirnya hanya menjadi siklus memasukkan kembali keluarannya sendiri
Saat membuat skill, saya memakai skill-creator yang otomatis melakukan riset dan menyaring hasilnya agar sesuai dengan informasi terbaru atau workflow saat ini
- Dalam riset ini, agen tidak diberi izin untuk eksplorasi mandiri atau akses materi
  Membuat skill dalam kondisi seperti itu memang tidak bermakna
- Dalam praktik nyata, jauh lebih berguna jika skill dipakai di lapangan lalu ditingkatkan otomatis lewat feedback
Semakin banyak lapisan otomatisasi LLM yang ditambahkan, kualitas tiap tahap cenderung menurun
Kalau manusia yang menentukan ide dan rencana implementasi lalu LLM hanya mengerjakan coding, hasilnya masih oke, tetapi ketika perencanaan juga diserahkan, terjadi penurunan kualitas yang tajam
- Saya menyebut fenomena ini ‘semantic collapse’
  Jika peringkasan atau reproduksi diulang terus-menerus, maknanya akhirnya runtuh
  Pada titik tertentu diperlukan input manusia yang segar
- Namun, jika pengelolaan konteksnya bagus, kadang hasilnya justru sebaliknya
  Di codebase besar, saya meminta LLM terlebih dahulu menulis laporan eksplorasi, lalu mengerjakan tugas di sesi baru dengan merujuk pada laporan itu
  Memang butuh token lebih banyak, tetapi detail penting jadi tidak terlewat
- Aletheia dari Google justru menunjukkan peningkatan performa bahkan dalam struktur pipeline seperti ini
  Pada akhirnya, kuncinya adalah apakah model diberi pengetahuan dunia yang cukup
- Saya ingin mengibaratkan proses ini seperti ‘permainan telepon’
  Bahasa alami pada dasarnya tidak stabil, jadi makin sering diteruskan, distorsinya makin besar
  Fakta bahwa kita masih bisa berkomunikasi sebaik ini sendiri sudah menakjubkan
- Namun, kalau ada feedback loop, ceritanya jadi berbeda
  Dalam struktur open loop, akurasi menurun, tetapi jika tiap tahap bisa menyesuaikan diri sendiri, sistemnya jauh lebih stabil
Saya sedang membangun data warehouse yang siap untuk agentic ( GitHub.com/mathisdrn/orca )
Awalnya saya ingin mengoptimalkan skill dengan benchmark, tetapi pendekatan seperti DsPy dan GEPA, yang memakai bahasa model itu sendiri sebagai evaluator sekaligus builder, ternyata lebih efisien
Saya penasaran apakah skill-creator milik Anthropic atau OpenAI juga memiliki struktur self-optimization seperti ini
Menurut saya, riset ini tidak mengejutkan dan juga tidak terlalu bermakna secara praktis
Dalam kenyataannya, model hampir tidak pernah membuat skill hanya dari pengetahuan laten dirinya sendiri
Riset ini menguji kondisi yang sangat dibatasi, jadi hasilnya memang sudah bisa diduga
Yang lebih menarik adalah pendekatan di mana model mewawancarai manusia, atau menghasilkan skill setelah deep research
- Saya sepenuhnya setuju dengan kritik ini.
  Justru yang lebih mengejutkan adalah fakta bahwa paper seperti ini bisa terbit
- Sains modern memang mendorong publikasi bahkan untuk ‘hasil yang tidak mengejutkan’
  Selain itu, riset seperti ini juga membantu mencegah “manajer yang menyuruh model menulis dokumen best practice tanpa konteks apa pun”
- Di masa lalu, memang pernah ada kasus di mana pendekatan seperti ‘rencanakan dulu lalu eksekusi’ benar-benar efektif
  Riset kali ini tidak mempertimbangkan konteks semacam itu
- Pada akhirnya, ini sama seperti mengatakan bahwa CLAUDE.md atau AGENTS.md tidak berarti hanya karena ditulis oleh model itu sendiri
Belakangan terasa terlalu banyak orang pintar yang membuang energi pada perdebatan AI seperti ini
Dulu orang-orang tinggal membuat software yang berguna, tetapi sekarang malah tenggelam dalam topik AI baru yang muncul tiap minggu
Efek nerd-sniping-nya bahkan lebih kuat daripada Web3 atau framework JS
Artikel ini pada dasarnya hanya mengonfirmasi hasil yang sudah bisa diperkirakan
- Saat ini sedang berlangsung proses evolusi yang terdistribusi, jadi banyak percobaan yang saling tumpang tindih
  Namun sebentar lagi bisa saja muncul model baru yang membuat semua diskusi ini jadi tidak relevan
  Banyak tim diperintahkan beralih ke ‘strategi skill’, tetapi di tengah jalan model baru malah langsung melakukannya dengan lebih baik
  Pada akhirnya semua orang masih mencari arah dalam struktur bertahan hidup yang tidak stabil
Saya juga sering menyaksikan penurunan kualitas dokumen yang dihasilkan sendiri
Ketika LLM mengekstrak ‘best practice’ dari kode, pola yang salah sering ikut terdokumentasikan apa adanya
Misalnya ada kasus penyalahgunaan ConfigureAwait(false) atau Task.Run di kode C#
Untuk mengatasi masalah ini, kami sedang membangun sistem pengetahuan yang dikurasi
Saya percaya agentic coding berbasis Markdown akan menjadi lapisan abstraksi generasi berikutnya
- Namun, lapisan LLM berbeda dari bahasa-bahasa sebelumnya karena sifatnya non-deterministik
  Sampai sekarang masih belum jelas bagaimana karakteristik ini memengaruhi keseluruhan cara kerjanya
Judul yang dikirim adalah “Self-generated agent skills are useless”, dan itu melanggar pedoman HN
Lebih adil untuk mempertahankan judul aslinya dan menyampaikan opini lewat komentar
- Namun, jika hasil inti malah tertimbun di bawah judul yang terlalu samar, itu juga masalah
  Saya rasa judul yang jelas bisa memberi komunitas wawasan yang lebih besar
  Tujuannya bukan clickbait, melainkan menekankan temuan utama

SkillsBench: benchmark untuk mengevaluasi performa skill agen di berbagai tugas

Ringkasan SKILLSBENCH

Definisi dan komposisi skill (Agent Skills)

Struktur tugas (Task) dan pembangunan dataset

Komposisi benchmark dan klasifikasi tingkat kesulitan

Pengaturan eksperimen

Metrik evaluasi

Hasil utama

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News