3 poin oleh ragingwind 2 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Tulisan ini membahas metodologi pengelolaan kualitas agen bernama "Skillify" yang diajukan oleh CEO Y Combinator, Garry Tan, berdasarkan pengalamannya mengoperasikan agen AI. Gagasan ini berangkat dari masalah bahwa framework seperti LangChain, yang telah menghimpun pendanaan sebesar 160 juta dolar, memang menyediakan alat pengujian, tetapi tidak menyediakan alur kerja tentang "apa yang harus diuji dan dalam urutan seperti apa". Tan mengajukan checklist 10 langkah yang mengubah kesalahan agen bukan menjadi perbaikan prompt sekali pakai, melainkan menjadi struktur permanen yang terdiri dari file skill berbasis Markdown, skrip deterministik, dan pengujian otomatis.

Konsep inti

  • Apa itu Skillify: ketika kegagalan agen terjadi, kegagalan tersebut diubah menjadi sebuah "skill" (panduan prosedur Markdown + skrip deterministik + pengujian) yang membuat kegagalan itu tidak bisa terulang. Jika dalam percakapan dikatakan "skillify it", agen akan menjalankan proses 10 langkah tersebut secara otomatis.
  • Pemisahan Latent vs. Deterministic: tugas yang memerlukan penilaian (latent, ranah penalaran LLM) dan tugas yang memerlukan presisi (deterministic, ranah eksekusi kode) dipisahkan dengan jelas. Ia melihat bug inti muncul ketika LLM mencoba mengerjakan "di dalam kepala" hal-hal seperti perhitungan zona waktu atau pencarian kalender, padahal kode bisa langsung memberi jawaban yang benar.
  • Checklist 10 langkah: menulis SKILL.md, menulis skrip deterministik, unit test (vitest), integration test, evaluasi LLM (LLM-as-judge), mendaftarkan trigger resolver, evaluasi resolver, audit keterjangkauan/duplikasi, E2E smoke test, hingga aturan brain filing; semuanya harus lolos agar diakui sebagai sebuah "skill".

Contoh nyata

  • Saat ditanya jadwal perjalanan bisnis ke Singapura 10 tahun lalu, agen memanggil live API selama 5 menit lalu baru belakangan menemukan data yang sebenarnya bisa langsung ditemukan dari 3.146 file kalender yang sudah terindeks secara lokal
  • Kasus ketika agen menjawab "rapat berikutnya 28 menit lagi", padahal kenyataannya masih 88 menit lagi — LLM salah tepat 1 jam saat menghitung konversi zona waktu dari UTC ke PT secara mental
  • Dalam kedua kasus, skrip yang sudah ada sebelumnya (berjalan dalam waktu kurang dari 100 ms) sebenarnya memiliki jawaban yang benar, tetapi agen memilih bernalar alih-alih menjalankan skrip

Pembeda

  • Jika LangChain hanya menyediakan "kumpulan alat pengujian", Skillify menawarkan alur kerja yang berpendapat jelas: "kegagalan → skill → pengujian → perbaikan permanen". Analoginya, jika framework hanya memberi keanggotaan gym, Skillify adalah jadwal latihan yang terstruktur.
  • Ia juga menyoroti bahwa Hermes Agent dari Nous Research memang pandai membuat skill secara otomatis, tetapi tanpa pengujian skill akan membusuk seiring waktu; karena itu diperlukan keduanya sekaligus: "pembuatan + verifikasi".

Implikasi

  • Prinsip rekayasa perangkat lunak bahwa "setiap bug harus disertai regression test" sebenarnya sudah mapan sejak 2005, tetapi ranah agen AI dinilai masih belum sampai pada tingkat tersebut. Pandangan bahwa skill agen, seperti halnya codebase, akan membusuk tanpa pengujian merupakan peringatan yang relevan bagi seluruh industri.
  • Pengalaman mengoperasikan lebih dari 40 skill, dengan 15% di antaranya tidak terdaftar pada resolver sehingga menjadi "fitur dalam kegelapan", menunjukkan bahwa ketika sistem agen mulai berskala, pengelolaan discoverability menjadi tugas yang wajib.

Belum ada komentar.

Belum ada komentar.