3 poin oleh GN⁺ 2026-02-18 | 1 komentar | Bagikan ke WhatsApp
  • Benchmark pertama untuk mengevaluasi secara kuantitatif efektivitas skill (Agent Skills) pada agen berbasis large language model (LLM), mencakup 84 tugas di 11 domain
  • Setiap tugas dievaluasi dalam tiga kondisi: tanpa skill, dengan skill terkurasi, dan dengan skill yang dibuat sendiri, dengan total 7.308 trajectory eksekusi dikumpulkan
  • Skill terkurasi menunjukkan peningkatan performa rata-rata +16,2 poin persentase, tetapi variasi antar-domain besar dan pada beberapa tugas (16 dari 84) performa justru menurun
  • Self-generated Skills rata-rata tidak efektif, menunjukkan bahwa model belum mampu menghasilkan pengetahuan prosedural secara stabil dengan sendirinya
  • Modul skill yang kecil dan terfokus (terdiri dari 2–3 bagian) lebih efisien dibanding skill berbentuk dokumen komprehensif, dan model kecil yang memakai skill mencapai performa serupa dengan model besar tanpa skill

Ringkasan SKILLSBENCH

  • SKILLSBENCH adalah benchmark untuk mengevaluasi efek penguatan skill pada agen LLM, dibangun di atas framework Harbor
    • Setiap tugas mencakup lingkungan container, verifier deterministik, dan jawaban referensi (oracle)
    • Tugas yang sama dijalankan berulang dengan dan tanpa skill untuk mengukur efek murni dari skill
  • Berbeda dari benchmark sebelumnya yang hanya menilai kemampuan dasar model, SKILLSBENCH secara langsung mengukur dampak skill terhadap performa

Definisi dan komposisi skill (Agent Skills)

  • Skill adalah paket terstruktur yang memuat procedural knowledge, yang memperluas perilaku agen pada saat inferensi tanpa memodifikasi model
    • Komponen: SKILL.md (prosedur pendekatan tugas), skrip yang dapat dijalankan, template kode, contoh, dan sebagainya
  • Skill harus memenuhi empat kriteria berikut
    • Memuat konten prosedural
    • Berlaku pada kelas tugas, bukan hanya satu kasus tunggal
    • Memiliki komponen yang terstruktur
    • Menjamin portabilitas berbasis sistem file
  • System prompt, contoh few-shot, pencarian RAG, dan dokumentasi tool tidak dianggap sebagai skill

Struktur tugas (Task) dan pembangunan dataset

  • Setiap tugas terdiri dari empat elemen: instruksi, lingkungan, jawaban, verifier
    • Lingkungan diisolasi dengan container Docker untuk menjamin reproduktibilitas
    • Verifier berupa skrip uji deterministik yang otomatis menilai lulus/gagal
  • Sebanyak 105 kontributor mengirimkan 322 tugas kandidat, lalu melalui validasi otomatis dan peninjauan manusia hingga dipilih 84 tugas final
  • Kontributor harus memenuhi persyaratan berikut
    • Instruksi ditulis manusia (pembuatan oleh LLM dilarang)
    • Skill harus memberikan panduan prosedural, bukan jawaban spesifik untuk suatu tugas
    • Semua verifikasi harus dilakukan secara deterministik (berbasis assertion)
    • Harus lolos validasi struktur otomatis, eksekusi oracle, deteksi konten buatan AI, dan audit kebocoran
  • Untuk mencegah kebocoran, skill akan ditolak bila memuat nama file spesifik tugas, konstanta, referensi test, dan sejenisnya

Komposisi benchmark dan klasifikasi tingkat kesulitan

  • SKILLSBENCH terdiri dari 84 tugas di 11 domain (software, healthcare, finance, robotics, dan lain-lain)
  • Tingkat kesulitan dibagi menjadi tiga level berdasarkan waktu pengerjaan manusia
    • Core (kurang dari 60 menit): 17 tugas
    • Extended (1–4 jam): 43 tugas
    • Extreme (lebih dari 4 jam): 26 tugas

Pengaturan eksperimen

  • Mengevaluasi tiga agent harness komersial: Claude Code, Gemini CLI, Codex CLI
  • Menggunakan tujuh model: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
  • Evaluasi dilakukan dalam tiga kondisi
    • No Skills: tanpa skill
    • With Skills: dengan skill terkurasi
    • Self-Generated Skills: model membuat lalu menerapkan skill sendiri
  • Total 7.308 trajectory valid dikumpulkan

Metrik evaluasi

  • Pass rate digunakan sebagai metrik utama
  • Normalized gain juga dihitung untuk menganalisis peningkatan absolut dan peningkatan relatif secara bersamaan
  • Setiap tugas diulang 5 kali lalu dihitung skor rata-ratanya

Hasil utama

  • Skill terkurasi menghasilkan peningkatan rata-rata +16,2 poin persentase, dengan rentang +13,6 hingga +23,3 poin persentase tergantung konfigurasi
    • Variasi antar-domain besar; peningkatan terbesar terjadi di healthcare (+51,9 poin persentase), dan yang terendah di software engineering (+4,5 poin persentase)
    • Pada 16 dari 84 tugas, performa justru menurun
  • Skill yang dibuat sendiri rata-rata tidak efektif atau berdampak negatif
    • Model belum mampu menghasilkan pengetahuan prosedural secara stabil dengan sendirinya
  • Skill terfokus (2–3 modul) menunjukkan efisiensi lebih tinggi dibanding format dokumentasi komprehensif
  • Kombinasi model kecil + skill mencapai performa serupa dengan model besar tanpa skill

Kesimpulan

  • SKILLSBENCH menyediakan kerangka evaluasi yang berpusat pada skill dan membuktikan secara kuantitatif pengaruh skill terhadap kemampuan agen LLM dalam menyelesaikan tugas nyata
  • Hasilnya menunjukkan bahwa kualitas desain skill dan kecocokan domain sangat menentukan peningkatan performa
  • Ke depan, benchmark ini dapat menjadi landasan untuk meneliti prinsip desain struktural skill dan batasan pembuatan otomatisnya

1 komentar

 
GN⁺ 2026-02-18
Komentar Hacker News
  • Konsep “Self-Generated Skills” memang menarik, tetapi saya ingin menekankan bahwa ini berbeda dari ‘proses LLM belajar keterampilan sendiri’ seperti yang dibayangkan banyak orang
    Dalam riset ini, model hanya diberi prompt untuk menghasilkan pengetahuan prosedural yang relevan sebelum memecahkan masalah, sehingga masih jauh dari ‘keterampilan yang dipelajari dari pengalaman’ yang sesungguhnya
    Saya berharap media melaporkan dengan membedakan dua hal ini secara jelas

    • Cakupan ‘task’ dalam eksperimen ini terlalu terbatas. Mereka hanya memakai satu file Markdown dan validator, tanpa menangani masalah realistis seperti codebase yang sudah ada atau refactoring
      Bahkan jika LLM menghasilkan keterampilan sendiri, strukturnya tidak memungkinkan eksplorasi atau pembelajaran, jadi pada akhirnya hanya mengulang konteks dirinya sendiri
      Menggeneralisasi hasil seperti ini sangat berpotensi menyesatkan
    • Tujuan asli dari ‘skill’ adalah sebagai memo how-to singkat yang bisa dipanggil dan digunakan saat dibutuhkan
      Jika pengetahuan itu sudah ada di dalam model, tidak perlu repot menuliskannya sebagai dokumen, dan hanya bermakna bila informasinya memang sulit dimunculkan
    • Saya juga tertarik pada cara LLM merangkum pelajaran yang dipelajari setelah mencoba menjadi skill
      Membuat skill sebelum mencoba terasa seperti pendekatan yang jauh dari realitas
    • Saya pernah membuat skill yang berguna melalui ‘role play session’
      Membiarkan agen mengajukan pertanyaan, melewati proses pemecahan masalah, lalu merangkum hasilnya menjadi skill terkompresi berbasis bukti ternyata efektif
    • Seperti yang saya rangkum di thisistheway.to/ai, kami menjadikan kegagalan agen sebagai kesempatan belajar
      ① menangkap kegagalan → ② mendiagnosis penyebab → ③ memilih alat perbaikan → ④ mencatatnya sebagai artefak berversi → ⑤ menaikkannya menjadi gate bila perlu
      Loop seperti ini kami masukkan ke instruksi dasar semua agen
  • Saya menggunakan skill-creator untuk Claude secara terpisah
    Untuk mencegah Claude menulis ulang informasi yang sebenarnya sudah ia ketahui menjadi skill, dokumen itu hanya boleh memuat
    ① informasi di luar data pelatihan, ② konteks yang hanya berlaku untuk sesi saat ini, ③ informasi yang menyelaraskan perilaku Claude di masa depan
    Selengkapnya ada di tautan GitHub

    • LLM memang lemah dalam kemampuan merefleksikan apa yang ia tahu dan tidak tahu, tetapi saya tetap menganggap pendekatan ini sangat berguna
    • Namun, berbahaya jika mengasumsikan Claude bisa memilih ‘pengetahuan terbaik’
      Kualitas data pelatihan internet sangat tidak merata, jadi sulit berharap model bisa membuat ‘pilihan setingkat pakar’
    • Saya suka karena dokumen skill ini terasa seperti tulisan blog yang bagus
      Tulisan yang memuat wawasan non-sepele bisa menjadi kriteria bahwa itu adalah skill yang baik
    • Wawasan praktis semacam ini sepertinya juga layak dipublikasikan lebih dulu di arXiv sebelum para peneliti menjadikannya paper
  • Hal paling menarik dari hasil riset ini adalah bahwa skill yang dihasilkan sendiri menurunkan performa (-1.3pp), sedangkan skill yang dikurasi meningkatkan performa secara besar (+16.2pp)
    Ini sejalan dengan hipotesis bahwa LLM sangat baik sebagai konsumen pengetahuan prosedural, tetapi lemah sebagai produsen
    Efeknya jauh lebih besar di healthcare dibanding software, kemungkinan karena data SWE sudah sangat melimpah

    • Saya juga memperhatikan perbedaan ini. Saat menangani library baru atau langka, efek skill meningkat sangat drastis
      Misalnya Adobe React Spectrum UI berantakan jika dipakai tanpa skill, tetapi hasilnya benar-benar berbeda jika menggunakan skill yang dibuat dengan baik
  • Tidak ada gunanya hanya menyuruh model, “buat skill”
    Jika pengetahuannya tidak diperluas dengan informasi baru atau sumber eksternal, itu pada akhirnya hanya menjadi siklus memasukkan kembali keluarannya sendiri
    Saat membuat skill, saya memakai skill-creator yang otomatis melakukan riset dan menyaring hasilnya agar sesuai dengan informasi terbaru atau workflow saat ini

    • Dalam riset ini, agen tidak diberi izin untuk eksplorasi mandiri atau akses materi
      Membuat skill dalam kondisi seperti itu memang tidak bermakna
    • Dalam praktik nyata, jauh lebih berguna jika skill dipakai di lapangan lalu ditingkatkan otomatis lewat feedback
  • Semakin banyak lapisan otomatisasi LLM yang ditambahkan, kualitas tiap tahap cenderung menurun
    Kalau manusia yang menentukan ide dan rencana implementasi lalu LLM hanya mengerjakan coding, hasilnya masih oke, tetapi ketika perencanaan juga diserahkan, terjadi penurunan kualitas yang tajam

    • Saya menyebut fenomena ini ‘semantic collapse’
      Jika peringkasan atau reproduksi diulang terus-menerus, maknanya akhirnya runtuh
      Pada titik tertentu diperlukan input manusia yang segar
    • Namun, jika pengelolaan konteksnya bagus, kadang hasilnya justru sebaliknya
      Di codebase besar, saya meminta LLM terlebih dahulu menulis laporan eksplorasi, lalu mengerjakan tugas di sesi baru dengan merujuk pada laporan itu
      Memang butuh token lebih banyak, tetapi detail penting jadi tidak terlewat
    • Aletheia dari Google justru menunjukkan peningkatan performa bahkan dalam struktur pipeline seperti ini
      Pada akhirnya, kuncinya adalah apakah model diberi pengetahuan dunia yang cukup
    • Saya ingin mengibaratkan proses ini seperti ‘permainan telepon’
      Bahasa alami pada dasarnya tidak stabil, jadi makin sering diteruskan, distorsinya makin besar
      Fakta bahwa kita masih bisa berkomunikasi sebaik ini sendiri sudah menakjubkan
    • Namun, kalau ada feedback loop, ceritanya jadi berbeda
      Dalam struktur open loop, akurasi menurun, tetapi jika tiap tahap bisa menyesuaikan diri sendiri, sistemnya jauh lebih stabil
  • Saya sedang membangun data warehouse yang siap untuk agentic ( GitHub.com/mathisdrn/orca )
    Awalnya saya ingin mengoptimalkan skill dengan benchmark, tetapi pendekatan seperti DsPy dan GEPA, yang memakai bahasa model itu sendiri sebagai evaluator sekaligus builder, ternyata lebih efisien
    Saya penasaran apakah skill-creator milik Anthropic atau OpenAI juga memiliki struktur self-optimization seperti ini

  • Menurut saya, riset ini tidak mengejutkan dan juga tidak terlalu bermakna secara praktis
    Dalam kenyataannya, model hampir tidak pernah membuat skill hanya dari pengetahuan laten dirinya sendiri
    Riset ini menguji kondisi yang sangat dibatasi, jadi hasilnya memang sudah bisa diduga
    Yang lebih menarik adalah pendekatan di mana model mewawancarai manusia, atau menghasilkan skill setelah deep research

    • Saya sepenuhnya setuju dengan kritik ini.
      Justru yang lebih mengejutkan adalah fakta bahwa paper seperti ini bisa terbit
    • Sains modern memang mendorong publikasi bahkan untuk ‘hasil yang tidak mengejutkan’
      Selain itu, riset seperti ini juga membantu mencegah “manajer yang menyuruh model menulis dokumen best practice tanpa konteks apa pun”
    • Di masa lalu, memang pernah ada kasus di mana pendekatan seperti ‘rencanakan dulu lalu eksekusi’ benar-benar efektif
      Riset kali ini tidak mempertimbangkan konteks semacam itu
    • Pada akhirnya, ini sama seperti mengatakan bahwa CLAUDE.md atau AGENTS.md tidak berarti hanya karena ditulis oleh model itu sendiri
  • Belakangan terasa terlalu banyak orang pintar yang membuang energi pada perdebatan AI seperti ini
    Dulu orang-orang tinggal membuat software yang berguna, tetapi sekarang malah tenggelam dalam topik AI baru yang muncul tiap minggu
    Efek nerd-sniping-nya bahkan lebih kuat daripada Web3 atau framework JS
    Artikel ini pada dasarnya hanya mengonfirmasi hasil yang sudah bisa diperkirakan

    • Saat ini sedang berlangsung proses evolusi yang terdistribusi, jadi banyak percobaan yang saling tumpang tindih
      Namun sebentar lagi bisa saja muncul model baru yang membuat semua diskusi ini jadi tidak relevan
      Banyak tim diperintahkan beralih ke ‘strategi skill’, tetapi di tengah jalan model baru malah langsung melakukannya dengan lebih baik
      Pada akhirnya semua orang masih mencari arah dalam struktur bertahan hidup yang tidak stabil
  • Saya juga sering menyaksikan penurunan kualitas dokumen yang dihasilkan sendiri
    Ketika LLM mengekstrak ‘best practice’ dari kode, pola yang salah sering ikut terdokumentasikan apa adanya
    Misalnya ada kasus penyalahgunaan ConfigureAwait(false) atau Task.Run di kode C#
    Untuk mengatasi masalah ini, kami sedang membangun sistem pengetahuan yang dikurasi
    Saya percaya agentic coding berbasis Markdown akan menjadi lapisan abstraksi generasi berikutnya

    • Namun, lapisan LLM berbeda dari bahasa-bahasa sebelumnya karena sifatnya non-deterministik
      Sampai sekarang masih belum jelas bagaimana karakteristik ini memengaruhi keseluruhan cara kerjanya
  • Judul yang dikirim adalah “Self-generated agent skills are useless”, dan itu melanggar pedoman HN
    Lebih adil untuk mempertahankan judul aslinya dan menyampaikan opini lewat komentar

    • Namun, jika hasil inti malah tertimbun di bawah judul yang terlalu samar, itu juga masalah
      Saya rasa judul yang jelas bisa memberi komunitas wawasan yang lebih besar
      Tujuannya bukan clickbait, melainkan menekankan temuan utama