1 poin oleh boradi 3 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Anthropic merilis model generasi ke-5 untuk pekerjaan asinkron jangka panjang yang berlangsung hingga hitungan hari. Fable 5 adalah versi model kelas Mythos yang dibuat aman untuk pengguna umum, sementara Mythos 5 adalah versi dari model yang sama dengan sebagian pengaman dilonggarkan
  • Kelas Mythos adalah tier model baru di atas kelas Opus. Model pertamanya, Mythos Preview, diperkenalkan pada bulan April lewat Project Glasswing, dan hari ini diikuti oleh Fable 5 dan Mythos 5
  • Asal nama: Fable berasal dari bahasa Latin fabula (“sesuatu yang diceritakan”) dan merupakan kata serumpun dengan bahasa Yunani mythos. Yang membedakan kedua model adalah pengamannya, sehingga namanya dibuat berbeda
  • Harganya adalah $10 per 1 juta token input dan $50 untuk output, kurang dari setengah harga Mythos Preview. Nama model API-nya adalah claude-fable-5

Performa

  • Pesan utamanya adalah bahwa semakin panjang dan kompleks suatu tugas, semakin besar keunggulannya
  • Coding: dalam pra-uji Stripe, model ini menyelesaikan migrasi penuh codebase Ruby 50 juta baris dalam satu hari (jika dikerjakan manual oleh tim akan memakan waktu lebih dari dua bulan). Model ini menulis test sendiri dan memverifikasi hasil terhadap desain asli menggunakan vision. Dalam evaluasi FrontierCode milik Cognition, ia meraih skor tertinggi di antara model frontier bahkan pada medium effort
  • Agent: dapat beroperasi secara otonom selama beberapa hari di lingkungan seperti Claude Code, termasuk menyusun rencana, mendelegasikan ke subagent, dan melakukan verifikasi mandiri
  • Vision: merekonstruksi source code web app hanya dari screenshot, serta menamatkan Pokémon FireRed dengan harness vision-minimal khusus saja (model sebelumnya memerlukan harness bantu yang kompleks)
  • Memori: di Slay the Spire, saat diberi persistent memory berbasis file, performanya meningkat 3x dibanding Opus 4.8, dan frekuensi mencapai babak akhir juga naik 3x
  • Pekerjaan pengetahuan: meraih skor tertinggi di antara semua model pada benchmark finansial Hebbia, serta lulus evaluasi analisis trading IMC di hampir semua area

Benchmark

  • Mengklaim unggul di coding, pekerjaan pengetahuan, vision, dan computer use secara menyeluruh, dengan SWE-Bench Pro 80.3% (Opus 4.8 69.2%, GPT 5.5 58.6%), GDPval-AA 1932, OSWorld 85.0%, dan lainnya
  • Catatan: sebagian angka pada tabel adalah nilai tertinggi antara Mythos 5 dan Fable 5, dan item bertanda bintang (biologi, keamanan siber, dll.) diberi catatan bahwa performanya mendekati Opus 4.8 karena fallback pengaman

Capaian ilmiah Mythos 5

  • Mempercepat proses desain protein sekitar 10x, dengan kandidat kuat diperoleh pada 9 dari 14 target. Model ini melakukan pemilihan binding site, menjalankan tool, hingga pemulihan dari kegagalan tanpa bantuan manusia
  • Dalam perbandingan blind, para ilmuwan memilih hipotesis biologi molekuler buatannya sekitar 80% dari waktu. Salah satu hipotesisnya (mekanisme baru pada protein E. coli) dibuktikan secara independen oleh lab yang meneliti masalah yang sama
  • Dalam pekerjaan otonom selama lebih dari satu minggu, model ini mengumpulkan data jutaan sel dari 138 spesies hewan, lalu merancang dan melatih model ML kustom yang melampaui model terbaru yang terbit di Science dengan ukuran 100x lebih kecil
  • Evaluasi alignment: dilaporkan bahwa tingkat perilaku misalignment Mythos 5 rendah dan mirip dengan Opus 4.8

Pengaman

  • Ada tiga area yang diblokir oleh classifier: keamanan siber, biologi dan kimia, serta distillation (upaya mengekstrak kemampuan untuk melatih model pesaing oleh negara otoriter). Permintaan semacam itu otomatis dialihkan ke Opus 4.8 dan pengguna diberi tahu (jika dialihkan, tarif Fable tidak dikenakan)
  • Lebih dari 95% sesi tidak mengalami fallback, dan pengaman aktif pada rata-rata kurang dari 5% sesi. Namun Anthropic mengakui pengamannya dituning secara konservatif sehingga kadang menangkap permintaan yang tidak berbahaya, dan berencana mengurangi false positive
  • Dalam lebih dari 1.000 jam bug bounty eksternal, tidak ditemukan universal jailbreak. Namun UK AISI menunjukkan kemajuan yang cukup dekat dalam pengujian awal singkat. Dalam satu pengujian mitra eksternal, untuk single-turn request berbahaya terkait serangan siber, model tidak memberi respons pada 30 teknik jailbreak publik yang digunakan
  • Dalam evaluasi desain AAV (vektor pengantar terapi gen), model kelas Mythos melampaui protein language model khusus hanya dengan penalaran biologis. Ini diajukan sebagai bukti risiko dual-use
  • Penggunaan mewajibkan retensi data 30 hari untuk tujuan pemantauan keselamatan. Berlaku untuk semua traffic 1st party dan 3rd party, tidak digunakan untuk pelatihan model atau tujuan non-keselamatan, akses manusia dicatat, dan data dihapus setelah 30 hari

Harga dan rilis

  • Tersedia di paket Enterprise (berbasis konsumsi) dan Claude Platform, AWS, GCP, serta Microsoft Foundry
  • Paket berlangganan diluncurkan bertahap: dari 9 Juni hingga 22 Juni, sudah termasuk gratis untuk Pro, Max, Team, dan Enterprise berbasis kursi. Mulai 23 Juni akan dihapus sehingga memerlukan usage credit. Setelah kapasitas tersedia, akan dipulihkan sebagai konfigurasi default. API dan Enterprise berbasis konsumsi tersedia penuh mulai hari ini
  • Mythos 5 mulai hari ini dapat di-upgrade oleh pengguna Mythos Preview yang sudah ada (seperti mitra Glasswing). Dalam kebanyakan kasus, performanya mirip atau sedikit lebih kuat daripada Preview dengan biaya jauh lebih murah. Anthropic juga mengklaim kemampuan keamanan siber terkuat di dunia
  • Program trusted access untuk biologi juga akan dibuka terpisah (hanya menonaktifkan pengaman biologi dan kimia pada Fable 5, sementara pengaman siber tetap dipertahankan)

Belum ada komentar.

Belum ada komentar.