Merancang Loop dengan Fable 5
(x.com/RLanceMartin)- Dua teknik inti untuk memanfaatkan Mythos-class model Claude Fable 5 secara efektif, yang mengubah cara kerja internal Anthropic, adalah self-correction loop dan memory
- Goal·rubric yang dirancang dengan baik menyuntikkan umpan balik ke lingkungan, sehingga Claude menjalankan struktur eksekusi → pengumpulan umpan balik → koreksi mandiri yang diulang hingga tujuan terpenuhi
- Dalam tugas rekayasa ML Parameter Golf, Fable 5 meningkatkan pipeline pelatihan sekitar 6 kali lebih banyak dibanding Opus 4.7
- Melalui memory sebagai outer loop yang melintasi sesi, Claude dapat menggunakan kembali catatan yang dibuat selama sesi pada sesi-sesi berikutnya
- Intinya, alih-alih melakukan prompting dan pengarahan secara langsung, yang lebih efektif adalah merancang loop agar model memperbaiki diri dan mengelola konteksnya sendiri
Self-correction loop (loop koreksi mandiri)
- Resep umum untuk meningkatkan kinerja tugas adalah membiarkan model melakukan hillclimb di atas kriteria evaluasi
- bcherny menyebut bahwa "pekerjaannya adalah menulis loop"
- /goal di Claude Code dan Outcomes di Claude Managed Agent adalah primitive yang menerapkan resep ini ke tugas tertentu
- Goal atau rubric yang dirancang dengan baik menambahkan umpan balik ke lingkungan tempat Claude berjalan, lalu Claude mengeksekusi, mengumpulkan umpan balik, melakukan koreksi mandiri, dan melanjutkan hingga goal/rubric terpenuhi
Uji Parameter Golf
- Parameter Golf adalah tantangan rekayasa ML open-source untuk melatih model dengan performa terbaik yang muat dalam artifact 16MB pada 8xH100 dalam waktu kurang dari 10 menit
- Menguji kemampuan mengedit satu file
train_gpt.py, menjalankan pelatihan, polling log, memeriksa skor, dan memutuskan eksperimen berikutnya - Mirip dengan proyek autoresearch milik karpathy
- Menguji kemampuan mengedit satu file
- Perbandingan Fable 5 dan Opus 4.7 dilakukan menggunakan Claude Managed Agents(CMA)
- CMA menyediakan agent harness dan sandbox hosting, cocok untuk pekerjaan berdurasi panjang pada Fable 5
- Untuk Parameter Golf, 8xH100 GPU disediakan sebagai sandbox self-hosted
Pentingnya pihak yang memberi penilaian
- Dikonfirmasi bahwa model menunjukkan masalah dalam self-critique terhadap outputnya sendiri (dijelaskan oleh Prithvi Rajasekaran di blog engineering)
- Verifier sub-agent lebih unggul daripada self-critique karena penilaian dilakukan dalam context window yang independen
- Outcomes di CMA otomatis membuat grader sub-agent untuk menangani hal ini
- Disediakan rubric berisi 9 kriteria yang dapat diperiksa (menjalankan baseline, melakukan 20 eksperimen, dll.), dengan waktu eksekusi maksimum 8 jam
- Grader Outcomes hanya mengizinkan Claude menghentikan pekerjaannya setelah memastikan semua kriteria eksperimen terpenuhi
Perbandingan hasil
- Fable 5 meningkatkan pipeline pelatihan sekitar 6 kali lebih banyak dibanding Opus 4.7
- Jika eksperimen dibagi menjadi yang struktural (perubahan arsitektur) dan skalar (penyesuaian konstanta), Fable 5 lebih berani bertaruh pada perubahan struktural besar dan menunjukkan ketangguhan (menembus quantization regression dan mencapai hasil maksimal)
- Opus 4.7, setelah hasil kecil pada eksperimen pertama, sebagian besar hanya mengulang template yang sama: penyesuaian skalar · pengukuran · dipertahankan jika positif
Memory (memori)
- Sebagai outer loop yang melintasi sesi, memory yang ditulis selama satu sesi dapat dicari dan digunakan kembali pada sesi berikutnya
- Tim pgasawa merilis Continual Learning Bench 1.0
- Benchmark realistis pertama yang mengukur sejauh mana sistem AI meningkat di lingkungan online
- Benchmark sebelumnya mengasumsikan model bersifat stateless dan memproses tiap contoh secara independen
Susunan pengujian
- Sebagai salah satu tugas benchmark, dibandingkan Fable 5, Opus 4.7, dan Sonnet 4.6
- Tugasnya adalah menjawab pertanyaan berurutan dengan hak akses ke SQL database; setiap pertanyaan adalah sesi agent terpisah dan diberikan memory
- Menggunakan memory pada CMA, yang menyediakan mounted filesystem yang bisa dibagikan antar-sesi ke setiap agent
Tahapan penggunaan memory yang efektif
- Pemanfaatan memory yang efektif diperkuat melalui alur fail (mencatat kesalahan) · investigate (mencari penyebab) · verify (menjadikannya fakta terverifikasi) · distill (menggeneralisasi menjadi aturan umum) · consult (merujuk aturan)
- Sonnet 4.6 berhenti di sekitar tahap 1
- Repositorinya berisi catatan kegagalan dan daftar dugaan yang belum terselesaikan ("maybe prc instead of prc_usd?"), dan hampir tidak pernah merujuk catatan sebelumnya
- Untuk peningkatan performa, diperlukan panduan memory per tugas
- Opus 4.7 berhenti di sekitar tahap 3
- Membuat schema reference dengan penanda ketidakpastian ("possibly prc in cents? Verify."), tetapi cakupan verifikasinya rendah, 7~33% (median sekitar 17%)
- Fable 5 cenderung menyelesaikan progres tersebut
- Pada run terbaik, cakupan verifikasi mencapai 73% (22 dari 30), dan pelajaran yang didapat didistill menjadi aturan umum yang membantu tugas-tugas selanjutnya
Ringkasan
- Daripada melakukan prompting dan pengarahan langsung pada Fable 5, pendekatan yang lebih efektif adalah merancang loop agar model bereaksi terhadap umpan balik lingkungan (
/goal, Outcomes), memperbaiki dirinya sendiri, dan mengelola konteksnya sendiri dengan memory - Direkomendasikan untuk langsung menguji Fable 5 dengan memanfaatkan loop koreksi mandiri dan memory pada tugas-tugas yang menantang
Belum ada komentar.