- Benchmark pertama untuk mengevaluasi secara kuantitatif efektivitas skill (Agent Skills) pada agen berbasis large language model (LLM), mencakup 84 tugas di 11 domain
- Setiap tugas dievaluasi dalam tiga kondisi: tanpa skill, dengan skill terkurasi, dan dengan skill yang dibuat sendiri, dengan total 7.308 trajectory eksekusi dikumpulkan
- Skill terkurasi menunjukkan peningkatan performa rata-rata +16,2 poin persentase, tetapi variasi antar-domain besar dan pada beberapa tugas (16 dari 84) performa justru menurun
- Self-generated Skills rata-rata tidak efektif, menunjukkan bahwa model belum mampu menghasilkan pengetahuan prosedural secara stabil dengan sendirinya
- Modul skill yang kecil dan terfokus (terdiri dari 2–3 bagian) lebih efisien dibanding skill berbentuk dokumen komprehensif, dan model kecil yang memakai skill mencapai performa serupa dengan model besar tanpa skill
Ringkasan SKILLSBENCH
- SKILLSBENCH adalah benchmark untuk mengevaluasi efek penguatan skill pada agen LLM, dibangun di atas framework Harbor
- Setiap tugas mencakup lingkungan container, verifier deterministik, dan jawaban referensi (oracle)
- Tugas yang sama dijalankan berulang dengan dan tanpa skill untuk mengukur efek murni dari skill
- Berbeda dari benchmark sebelumnya yang hanya menilai kemampuan dasar model, SKILLSBENCH secara langsung mengukur dampak skill terhadap performa
Definisi dan komposisi skill (Agent Skills)
- Skill adalah paket terstruktur yang memuat procedural knowledge, yang memperluas perilaku agen pada saat inferensi tanpa memodifikasi model
- Komponen:
SKILL.md (prosedur pendekatan tugas), skrip yang dapat dijalankan, template kode, contoh, dan sebagainya
- Skill harus memenuhi empat kriteria berikut
- Memuat konten prosedural
- Berlaku pada kelas tugas, bukan hanya satu kasus tunggal
- Memiliki komponen yang terstruktur
- Menjamin portabilitas berbasis sistem file
- System prompt, contoh few-shot, pencarian RAG, dan dokumentasi tool tidak dianggap sebagai skill
Struktur tugas (Task) dan pembangunan dataset
- Setiap tugas terdiri dari empat elemen: instruksi, lingkungan, jawaban, verifier
- Lingkungan diisolasi dengan container Docker untuk menjamin reproduktibilitas
- Verifier berupa skrip uji deterministik yang otomatis menilai lulus/gagal
- Sebanyak 105 kontributor mengirimkan 322 tugas kandidat, lalu melalui validasi otomatis dan peninjauan manusia hingga dipilih 84 tugas final
- Kontributor harus memenuhi persyaratan berikut
- Instruksi ditulis manusia (pembuatan oleh LLM dilarang)
- Skill harus memberikan panduan prosedural, bukan jawaban spesifik untuk suatu tugas
- Semua verifikasi harus dilakukan secara deterministik (berbasis assertion)
- Harus lolos validasi struktur otomatis, eksekusi oracle, deteksi konten buatan AI, dan audit kebocoran
- Untuk mencegah kebocoran, skill akan ditolak bila memuat nama file spesifik tugas, konstanta, referensi test, dan sejenisnya
Komposisi benchmark dan klasifikasi tingkat kesulitan
- SKILLSBENCH terdiri dari 84 tugas di 11 domain (software, healthcare, finance, robotics, dan lain-lain)
- Tingkat kesulitan dibagi menjadi tiga level berdasarkan waktu pengerjaan manusia
- Core (kurang dari 60 menit): 17 tugas
- Extended (1–4 jam): 43 tugas
- Extreme (lebih dari 4 jam): 26 tugas
Pengaturan eksperimen
- Mengevaluasi tiga agent harness komersial: Claude Code, Gemini CLI, Codex CLI
- Menggunakan tujuh model: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
- Evaluasi dilakukan dalam tiga kondisi
- No Skills: tanpa skill
- With Skills: dengan skill terkurasi
- Self-Generated Skills: model membuat lalu menerapkan skill sendiri
- Total 7.308 trajectory valid dikumpulkan
Metrik evaluasi
- Pass rate digunakan sebagai metrik utama
- Normalized gain juga dihitung untuk menganalisis peningkatan absolut dan peningkatan relatif secara bersamaan
- Setiap tugas diulang 5 kali lalu dihitung skor rata-ratanya
Hasil utama
- Skill terkurasi menghasilkan peningkatan rata-rata +16,2 poin persentase, dengan rentang +13,6 hingga +23,3 poin persentase tergantung konfigurasi
- Variasi antar-domain besar; peningkatan terbesar terjadi di healthcare (+51,9 poin persentase), dan yang terendah di software engineering (+4,5 poin persentase)
- Pada 16 dari 84 tugas, performa justru menurun
- Skill yang dibuat sendiri rata-rata tidak efektif atau berdampak negatif
- Model belum mampu menghasilkan pengetahuan prosedural secara stabil dengan sendirinya
- Skill terfokus (2–3 modul) menunjukkan efisiensi lebih tinggi dibanding format dokumentasi komprehensif
- Kombinasi model kecil + skill mencapai performa serupa dengan model besar tanpa skill
Kesimpulan
- SKILLSBENCH menyediakan kerangka evaluasi yang berpusat pada skill dan membuktikan secara kuantitatif pengaruh skill terhadap kemampuan agen LLM dalam menyelesaikan tugas nyata
- Hasilnya menunjukkan bahwa kualitas desain skill dan kecocokan domain sangat menentukan peningkatan performa
- Ke depan, benchmark ini dapat menjadi landasan untuk meneliti prinsip desain struktural skill dan batasan pembuatan otomatisnya
1 komentar
Komentar Hacker News
Konsep “Self-Generated Skills” memang menarik, tetapi saya ingin menekankan bahwa ini berbeda dari ‘proses LLM belajar keterampilan sendiri’ seperti yang dibayangkan banyak orang
Dalam riset ini, model hanya diberi prompt untuk menghasilkan pengetahuan prosedural yang relevan sebelum memecahkan masalah, sehingga masih jauh dari ‘keterampilan yang dipelajari dari pengalaman’ yang sesungguhnya
Saya berharap media melaporkan dengan membedakan dua hal ini secara jelas
Bahkan jika LLM menghasilkan keterampilan sendiri, strukturnya tidak memungkinkan eksplorasi atau pembelajaran, jadi pada akhirnya hanya mengulang konteks dirinya sendiri
Menggeneralisasi hasil seperti ini sangat berpotensi menyesatkan
Jika pengetahuan itu sudah ada di dalam model, tidak perlu repot menuliskannya sebagai dokumen, dan hanya bermakna bila informasinya memang sulit dimunculkan
Membuat skill sebelum mencoba terasa seperti pendekatan yang jauh dari realitas
Membiarkan agen mengajukan pertanyaan, melewati proses pemecahan masalah, lalu merangkum hasilnya menjadi skill terkompresi berbasis bukti ternyata efektif
① menangkap kegagalan → ② mendiagnosis penyebab → ③ memilih alat perbaikan → ④ mencatatnya sebagai artefak berversi → ⑤ menaikkannya menjadi gate bila perlu
Loop seperti ini kami masukkan ke instruksi dasar semua agen
Saya menggunakan skill-creator untuk Claude secara terpisah
Untuk mencegah Claude menulis ulang informasi yang sebenarnya sudah ia ketahui menjadi skill, dokumen itu hanya boleh memuat
① informasi di luar data pelatihan, ② konteks yang hanya berlaku untuk sesi saat ini, ③ informasi yang menyelaraskan perilaku Claude di masa depan
Selengkapnya ada di tautan GitHub
Kualitas data pelatihan internet sangat tidak merata, jadi sulit berharap model bisa membuat ‘pilihan setingkat pakar’
Tulisan yang memuat wawasan non-sepele bisa menjadi kriteria bahwa itu adalah skill yang baik
Hal paling menarik dari hasil riset ini adalah bahwa skill yang dihasilkan sendiri menurunkan performa (-1.3pp), sedangkan skill yang dikurasi meningkatkan performa secara besar (+16.2pp)
Ini sejalan dengan hipotesis bahwa LLM sangat baik sebagai konsumen pengetahuan prosedural, tetapi lemah sebagai produsen
Efeknya jauh lebih besar di healthcare dibanding software, kemungkinan karena data SWE sudah sangat melimpah
Misalnya Adobe React Spectrum UI berantakan jika dipakai tanpa skill, tetapi hasilnya benar-benar berbeda jika menggunakan skill yang dibuat dengan baik
Tidak ada gunanya hanya menyuruh model, “buat skill”
Jika pengetahuannya tidak diperluas dengan informasi baru atau sumber eksternal, itu pada akhirnya hanya menjadi siklus memasukkan kembali keluarannya sendiri
Saat membuat skill, saya memakai skill-creator yang otomatis melakukan riset dan menyaring hasilnya agar sesuai dengan informasi terbaru atau workflow saat ini
Membuat skill dalam kondisi seperti itu memang tidak bermakna
Semakin banyak lapisan otomatisasi LLM yang ditambahkan, kualitas tiap tahap cenderung menurun
Kalau manusia yang menentukan ide dan rencana implementasi lalu LLM hanya mengerjakan coding, hasilnya masih oke, tetapi ketika perencanaan juga diserahkan, terjadi penurunan kualitas yang tajam
Jika peringkasan atau reproduksi diulang terus-menerus, maknanya akhirnya runtuh
Pada titik tertentu diperlukan input manusia yang segar
Di codebase besar, saya meminta LLM terlebih dahulu menulis laporan eksplorasi, lalu mengerjakan tugas di sesi baru dengan merujuk pada laporan itu
Memang butuh token lebih banyak, tetapi detail penting jadi tidak terlewat
Pada akhirnya, kuncinya adalah apakah model diberi pengetahuan dunia yang cukup
Bahasa alami pada dasarnya tidak stabil, jadi makin sering diteruskan, distorsinya makin besar
Fakta bahwa kita masih bisa berkomunikasi sebaik ini sendiri sudah menakjubkan
Dalam struktur open loop, akurasi menurun, tetapi jika tiap tahap bisa menyesuaikan diri sendiri, sistemnya jauh lebih stabil
Saya sedang membangun data warehouse yang siap untuk agentic ( GitHub.com/mathisdrn/orca )
Awalnya saya ingin mengoptimalkan skill dengan benchmark, tetapi pendekatan seperti DsPy dan GEPA, yang memakai bahasa model itu sendiri sebagai evaluator sekaligus builder, ternyata lebih efisien
Saya penasaran apakah skill-creator milik Anthropic atau OpenAI juga memiliki struktur self-optimization seperti ini
Menurut saya, riset ini tidak mengejutkan dan juga tidak terlalu bermakna secara praktis
Dalam kenyataannya, model hampir tidak pernah membuat skill hanya dari pengetahuan laten dirinya sendiri
Riset ini menguji kondisi yang sangat dibatasi, jadi hasilnya memang sudah bisa diduga
Yang lebih menarik adalah pendekatan di mana model mewawancarai manusia, atau menghasilkan skill setelah deep research
Justru yang lebih mengejutkan adalah fakta bahwa paper seperti ini bisa terbit
Selain itu, riset seperti ini juga membantu mencegah “manajer yang menyuruh model menulis dokumen best practice tanpa konteks apa pun”
Riset kali ini tidak mempertimbangkan konteks semacam itu
Belakangan terasa terlalu banyak orang pintar yang membuang energi pada perdebatan AI seperti ini
Dulu orang-orang tinggal membuat software yang berguna, tetapi sekarang malah tenggelam dalam topik AI baru yang muncul tiap minggu
Efek nerd-sniping-nya bahkan lebih kuat daripada Web3 atau framework JS
Artikel ini pada dasarnya hanya mengonfirmasi hasil yang sudah bisa diperkirakan
Namun sebentar lagi bisa saja muncul model baru yang membuat semua diskusi ini jadi tidak relevan
Banyak tim diperintahkan beralih ke ‘strategi skill’, tetapi di tengah jalan model baru malah langsung melakukannya dengan lebih baik
Pada akhirnya semua orang masih mencari arah dalam struktur bertahan hidup yang tidak stabil
Saya juga sering menyaksikan penurunan kualitas dokumen yang dihasilkan sendiri
Ketika LLM mengekstrak ‘best practice’ dari kode, pola yang salah sering ikut terdokumentasikan apa adanya
Misalnya ada kasus penyalahgunaan
ConfigureAwait(false)atauTask.Rundi kode C#Untuk mengatasi masalah ini, kami sedang membangun sistem pengetahuan yang dikurasi
Saya percaya agentic coding berbasis Markdown akan menjadi lapisan abstraksi generasi berikutnya
Sampai sekarang masih belum jelas bagaimana karakteristik ini memengaruhi keseluruhan cara kerjanya
Judul yang dikirim adalah “Self-generated agent skills are useless”, dan itu melanggar pedoman HN
Lebih adil untuk mempertahankan judul aslinya dan menyampaikan opini lewat komentar
Saya rasa judul yang jelas bisa memberi komunitas wawasan yang lebih besar
Tujuannya bukan clickbait, melainkan menekankan temuan utama