"Skillify" dari Garry Tan — Metodologi untuk Mengubah Kegagalan Agen AI Menjadi Perbaikan Struktural Permanen
(x.com/garrytan)Ini adalah tulisan tentang metodologi manajemen kualitas agen bernama "Skillify" yang diusulkan oleh CEO Y Combinator, Garry Tan, berdasarkan pengalamannya mengoperasikan agen AI. Titik berangkatnya adalah kesadaran akan masalah bahwa framework seperti LangChain, yang telah menghimpun dana sebesar 160 juta dolar, memang menyediakan alat pengujian tetapi tidak menyediakan workflow untuk pertanyaan "apa yang harus diuji dan dalam urutan seperti apa". Tan mengajukan checklist 10 langkah yang mengubah kesalahan yang dilakukan agen bukan menjadi perbaikan prompt sekali pakai, melainkan menjadi struktur permanen yang terdiri dari file skill Markdown, skrip deterministik, dan pengujian otomatis.
Konsep inti
- Apa itu Skillify: Ketika kegagalan agen terjadi, ini berarti mengubah kegagalan tersebut menjadi sebuah "skill" (panduan prosedur Markdown + skrip deterministik + pengujian) yang membuat kegagalan serupa tidak lagi dapat direproduksi. Jika seseorang mengatakan "skillify it" di tengah percakapan, agen akan otomatis menjalankan proses 10 langkah tersebut.
- Pembedaan Latent vs. Deterministic: Tugas yang memerlukan penilaian (latent, ranah penalaran LLM) dan tugas yang memerlukan presisi (deterministic, ranah eksekusi kode) dipisahkan dengan jelas. Ia melihat bug inti terjadi saat LLM mencoba mengerjakan "di dalam kepala" hal-hal seperti perhitungan zona waktu atau pencarian kalender, padahal kode dapat segera memberikan jawabannya.
- Checklist 10 langkah: Skill baru diakui sebagai sebuah "skill" hanya jika semuanya lolos, mulai dari penulisan
SKILL.md, penulisan skrip deterministik, unit test (vitest), integration test, evaluasi LLM (LLM-as-judge), pendaftaran trigger resolver, evaluasi resolver, audit keterjangkauan/duplikasi, E2E smoke test, hingga aturan brain filing.
Contoh nyata
- Ketika ditanya soal jadwal perjalanan bisnis ke Singapura 10 tahun lalu, agen memanggil live API selama 5 menit lalu belakangan menemukan data yang sebenarnya bisa langsung dicari dari 3.146 file kalender yang sudah diindeks secara lokal
- Kasus ketika agen menjawab "28 menit lagi ke rapat berikutnya", padahal sebenarnya masih 88 menit lagi — LLM salah tepat 1 jam saat menghitung konversi zona waktu dari UTC ke PT secara mental
- Dalam kedua kasus, skrip yang sudah ada (berjalan dalam kurang dari 100 ms) sebenarnya memiliki jawaban yang benar, tetapi masalahnya adalah agen memilih bernalar alih-alih menjalankan skrip
Pembeda
- Jika LangChain hanya menyediakan "paket alat pengujian", Skillify menawarkan workflow yang eksplisit berisi "kegagalan → skill → pengujian → perbaikan permanen". Analogi yang digunakan: jika framework hanya memberi keanggotaan gym, Skillify adalah jadwal rutinitas latihannya.
- Ia juga mengkritik Hermes Agent dari Nous Research: meskipun bagus dalam menghasilkan skill secara otomatis, tanpa pengujian skill akan membusuk seiring waktu. Karena itu, ia menekankan bahwa kedua sisi, "pembuatan + verifikasi", sama-sama diperlukan.
Implikasi
- Ini mengingatkan bahwa prinsip rekayasa perangkat lunak "setiap bug harus diberi regression test" sebenarnya sudah mapan sejak 2005, sementara ranah agen AI masih belum mencapai tingkat kedewasaan tersebut. Pandangan bahwa skill agen, seperti halnya codebase, akan membusuk tanpa pengujian dapat dibaca sebagai peringatan yang relevan bagi seluruh industri.
- Kasus pengoperasian lebih dari 40 skill, dengan 15% di antaranya tidak terdaftar ke resolver sehingga menjadi "fitur dalam kegelapan", menunjukkan bahwa ketika sistem agen mulai berkembang skala, pengelolaan discoverability menjadi tugas yang wajib.
2 komentar
Gresser
Skill untuk menjalankannya bisa didapat dari mana?
skill
skillifyadalah fitur yang termasuk dalam gbrain.https://github.com/garrytan/gbrain/…