Merancang Loop dengan Fable 5

(x.com/RLanceMartin)

23 poin oleh GN⁺ 2026-06-11 | 1 komentar | Bagikan ke WhatsApp

Dua teknik inti untuk memanfaatkan Mythos-class model Claude Fable 5 secara efektif, yang mengubah cara kerja internal Anthropic, adalah self-correction loop dan memory
Goal·rubric yang dirancang dengan baik menyuntikkan umpan balik ke lingkungan, sehingga Claude menjalankan struktur eksekusi → pengumpulan umpan balik → koreksi mandiri yang diulang hingga tujuan terpenuhi
Dalam tugas rekayasa ML Parameter Golf, Fable 5 meningkatkan pipeline pelatihan sekitar 6 kali lebih banyak dibanding Opus 4.7
Melalui memory sebagai outer loop yang melintasi sesi, Claude dapat menggunakan kembali catatan yang dibuat selama sesi pada sesi-sesi berikutnya
Intinya, alih-alih melakukan prompting dan pengarahan secara langsung, yang lebih efektif adalah merancang loop agar model memperbaiki diri dan mengelola konteksnya sendiri

Self-correction loop (loop koreksi mandiri)

Resep umum untuk meningkatkan kinerja tugas adalah membiarkan model melakukan hillclimb di atas kriteria evaluasi
- bcherny menyebut bahwa "pekerjaannya adalah menulis loop"
- /goal di Claude Code dan Outcomes di Claude Managed Agent adalah primitive yang menerapkan resep ini ke tugas tertentu
Goal atau rubric yang dirancang dengan baik menambahkan umpan balik ke lingkungan tempat Claude berjalan, lalu Claude mengeksekusi, mengumpulkan umpan balik, melakukan koreksi mandiri, dan melanjutkan hingga goal/rubric terpenuhi

Parameter Golf adalah tantangan rekayasa ML open-source untuk melatih model dengan performa terbaik yang muat dalam artifact 16MB pada 8xH100 dalam waktu kurang dari 10 menit
- Menguji kemampuan mengedit satu file train_gpt.py, menjalankan pelatihan, polling log, memeriksa skor, dan memutuskan eksperimen berikutnya
- Mirip dengan proyek autoresearch milik karpathy
Perbandingan Fable 5 dan Opus 4.7 dilakukan menggunakan Claude Managed Agents(CMA)
- CMA menyediakan agent harness dan sandbox hosting, cocok untuk pekerjaan berdurasi panjang pada Fable 5
- Untuk Parameter Golf, 8xH100 GPU disediakan sebagai sandbox self-hosted

Dikonfirmasi bahwa model menunjukkan masalah dalam self-critique terhadap outputnya sendiri (dijelaskan oleh Prithvi Rajasekaran di blog engineering)
Verifier sub-agent lebih unggul daripada self-critique karena penilaian dilakukan dalam context window yang independen
- Outcomes di CMA otomatis membuat grader sub-agent untuk menangani hal ini
Disediakan rubric berisi 9 kriteria yang dapat diperiksa (menjalankan baseline, melakukan 20 eksperimen, dll.), dengan waktu eksekusi maksimum 8 jam
- Grader Outcomes hanya mengizinkan Claude menghentikan pekerjaannya setelah memastikan semua kriteria eksperimen terpenuhi

Fable 5 meningkatkan pipeline pelatihan sekitar 6 kali lebih banyak dibanding Opus 4.7
- Jika eksperimen dibagi menjadi yang struktural (perubahan arsitektur) dan skalar (penyesuaian konstanta), Fable 5 lebih berani bertaruh pada perubahan struktural besar dan menunjukkan ketangguhan (menembus quantization regression dan mencapai hasil maksimal)
Opus 4.7, setelah hasil kecil pada eksperimen pertama, sebagian besar hanya mengulang template yang sama: penyesuaian skalar · pengukuran · dipertahankan jika positif

Sebagai outer loop yang melintasi sesi, memory yang ditulis selama satu sesi dapat dicari dan digunakan kembali pada sesi berikutnya
Tim pgasawa merilis Continual Learning Bench 1.0
- Benchmark realistis pertama yang mengukur sejauh mana sistem AI meningkat di lingkungan online
- Benchmark sebelumnya mengasumsikan model bersifat stateless dan memproses tiap contoh secara independen

Sebagai salah satu tugas benchmark, dibandingkan Fable 5, Opus 4.7, dan Sonnet 4.6
- Tugasnya adalah menjawab pertanyaan berurutan dengan hak akses ke SQL database; setiap pertanyaan adalah sesi agent terpisah dan diberikan memory
Menggunakan memory pada CMA, yang menyediakan mounted filesystem yang bisa dibagikan antar-sesi ke setiap agent

Pemanfaatan memory yang efektif diperkuat melalui alur fail (mencatat kesalahan) · investigate (mencari penyebab) · verify (menjadikannya fakta terverifikasi) · distill (menggeneralisasi menjadi aturan umum) · consult (merujuk aturan)
Sonnet 4.6 berhenti di sekitar tahap 1
- Repositorinya berisi catatan kegagalan dan daftar dugaan yang belum terselesaikan ("maybe prc instead of prc_usd?"), dan hampir tidak pernah merujuk catatan sebelumnya
- Untuk peningkatan performa, diperlukan panduan memory per tugas
Opus 4.7 berhenti di sekitar tahap 3
- Membuat schema reference dengan penanda ketidakpastian ("possibly prc in cents? Verify."), tetapi cakupan verifikasinya rendah, 7~33% (median sekitar 17%)
Fable 5 cenderung menyelesaikan progres tersebut
- Pada run terbaik, cakupan verifikasi mencapai 73% (22 dari 30), dan pelajaran yang didapat didistill menjadi aturan umum yang membantu tugas-tugas selanjutnya

Daripada melakukan prompting dan pengarahan langsung pada Fable 5, pendekatan yang lebih efektif adalah merancang loop agar model bereaksi terhadap umpan balik lingkungan (/goal, Outcomes), memperbaiki dirinya sendiri, dan mengelola konteksnya sendiri dengan memory
Direkomendasikan untuk langsung menguji Fable 5 dengan memanfaatkan loop koreksi mandiri dan memory pada tugas-tugas yang menantang

mssmss 2026-06-15

Saya tidak menyangka hal seperti ini akan begitu cepat menjadi tidak bisa dilakukan....