7 poin oleh GN⁺ 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Dua teknik inti untuk memanfaatkan Mythos-class model Claude Fable 5 secara efektif, yang mengubah cara kerja internal Anthropic, adalah self-correction loop dan memory
  • Goal·rubric yang dirancang dengan baik menyuntikkan umpan balik ke lingkungan, sehingga Claude menjalankan struktur eksekusi → pengumpulan umpan balik → koreksi mandiri yang diulang hingga tujuan terpenuhi
  • Dalam tugas rekayasa ML Parameter Golf, Fable 5 meningkatkan pipeline pelatihan sekitar 6 kali lebih banyak dibanding Opus 4.7
  • Melalui memory sebagai outer loop yang melintasi sesi, Claude dapat menggunakan kembali catatan yang dibuat selama sesi pada sesi-sesi berikutnya
  • Intinya, alih-alih melakukan prompting dan pengarahan secara langsung, yang lebih efektif adalah merancang loop agar model memperbaiki diri dan mengelola konteksnya sendiri

Self-correction loop (loop koreksi mandiri)

  • Resep umum untuk meningkatkan kinerja tugas adalah membiarkan model melakukan hillclimb di atas kriteria evaluasi
    • bcherny menyebut bahwa "pekerjaannya adalah menulis loop"
    • /goal di Claude Code dan Outcomes di Claude Managed Agent adalah primitive yang menerapkan resep ini ke tugas tertentu
  • Goal atau rubric yang dirancang dengan baik menambahkan umpan balik ke lingkungan tempat Claude berjalan, lalu Claude mengeksekusi, mengumpulkan umpan balik, melakukan koreksi mandiri, dan melanjutkan hingga goal/rubric terpenuhi

Uji Parameter Golf

  • Parameter Golf adalah tantangan rekayasa ML open-source untuk melatih model dengan performa terbaik yang muat dalam artifact 16MB pada 8xH100 dalam waktu kurang dari 10 menit
    • Menguji kemampuan mengedit satu file train_gpt.py, menjalankan pelatihan, polling log, memeriksa skor, dan memutuskan eksperimen berikutnya
    • Mirip dengan proyek autoresearch milik karpathy
  • Perbandingan Fable 5 dan Opus 4.7 dilakukan menggunakan Claude Managed Agents(CMA)
    • CMA menyediakan agent harness dan sandbox hosting, cocok untuk pekerjaan berdurasi panjang pada Fable 5
    • Untuk Parameter Golf, 8xH100 GPU disediakan sebagai sandbox self-hosted

Pentingnya pihak yang memberi penilaian

  • Dikonfirmasi bahwa model menunjukkan masalah dalam self-critique terhadap outputnya sendiri (dijelaskan oleh Prithvi Rajasekaran di blog engineering)
  • Verifier sub-agent lebih unggul daripada self-critique karena penilaian dilakukan dalam context window yang independen
    • Outcomes di CMA otomatis membuat grader sub-agent untuk menangani hal ini
  • Disediakan rubric berisi 9 kriteria yang dapat diperiksa (menjalankan baseline, melakukan 20 eksperimen, dll.), dengan waktu eksekusi maksimum 8 jam
    • Grader Outcomes hanya mengizinkan Claude menghentikan pekerjaannya setelah memastikan semua kriteria eksperimen terpenuhi

Perbandingan hasil

  • Fable 5 meningkatkan pipeline pelatihan sekitar 6 kali lebih banyak dibanding Opus 4.7
    • Jika eksperimen dibagi menjadi yang struktural (perubahan arsitektur) dan skalar (penyesuaian konstanta), Fable 5 lebih berani bertaruh pada perubahan struktural besar dan menunjukkan ketangguhan (menembus quantization regression dan mencapai hasil maksimal)
  • Opus 4.7, setelah hasil kecil pada eksperimen pertama, sebagian besar hanya mengulang template yang sama: penyesuaian skalar · pengukuran · dipertahankan jika positif

Memory (memori)

  • Sebagai outer loop yang melintasi sesi, memory yang ditulis selama satu sesi dapat dicari dan digunakan kembali pada sesi berikutnya
  • Tim pgasawa merilis Continual Learning Bench 1.0
    • Benchmark realistis pertama yang mengukur sejauh mana sistem AI meningkat di lingkungan online
    • Benchmark sebelumnya mengasumsikan model bersifat stateless dan memproses tiap contoh secara independen

Susunan pengujian

  • Sebagai salah satu tugas benchmark, dibandingkan Fable 5, Opus 4.7, dan Sonnet 4.6
    • Tugasnya adalah menjawab pertanyaan berurutan dengan hak akses ke SQL database; setiap pertanyaan adalah sesi agent terpisah dan diberikan memory
  • Menggunakan memory pada CMA, yang menyediakan mounted filesystem yang bisa dibagikan antar-sesi ke setiap agent

Tahapan penggunaan memory yang efektif

  • Pemanfaatan memory yang efektif diperkuat melalui alur fail (mencatat kesalahan) · investigate (mencari penyebab) · verify (menjadikannya fakta terverifikasi) · distill (menggeneralisasi menjadi aturan umum) · consult (merujuk aturan)
  • Sonnet 4.6 berhenti di sekitar tahap 1
    • Repositorinya berisi catatan kegagalan dan daftar dugaan yang belum terselesaikan ("maybe prc instead of prc_usd?"), dan hampir tidak pernah merujuk catatan sebelumnya
    • Untuk peningkatan performa, diperlukan panduan memory per tugas
  • Opus 4.7 berhenti di sekitar tahap 3
    • Membuat schema reference dengan penanda ketidakpastian ("possibly prc in cents? Verify."), tetapi cakupan verifikasinya rendah, 7~33% (median sekitar 17%)
  • Fable 5 cenderung menyelesaikan progres tersebut
    • Pada run terbaik, cakupan verifikasi mencapai 73% (22 dari 30), dan pelajaran yang didapat didistill menjadi aturan umum yang membantu tugas-tugas selanjutnya

Ringkasan

  • Daripada melakukan prompting dan pengarahan langsung pada Fable 5, pendekatan yang lebih efektif adalah merancang loop agar model bereaksi terhadap umpan balik lingkungan (/goal, Outcomes), memperbaiki dirinya sendiri, dan mengelola konteksnya sendiri dengan memory
  • Direkomendasikan untuk langsung menguji Fable 5 dengan memanfaatkan loop koreksi mandiri dan memory pada tugas-tugas yang menantang

Belum ada komentar.

Belum ada komentar.