- Model Sonnet terbaru dari Anthropic dengan peningkatan performa di semua area, termasuk penulisan kode, penggunaan komputer, penalaran jangka panjang, perencanaan agen, kerja berbasis pengetahuan, dan desain
- Mendukung jendela konteks 1M token, dengan peningkatan besar pada konsistensi, eksekusi instruksi, dan kualitas kode dibanding Sonnet 4.5
- Menawarkan kecerdasan setingkat Opus 4.5 dengan biaya lebih rendah, serta menunjukkan hasil setara manusia dalam pekerjaan nyata, pemahaman dokumen, dan desain frontend
- Dalam benchmark OSWorld, kemampuan penggunaan komputer terus meningkat, dan ketahanan terhadap prompt injection juga diperkuat
- Poin utamanya adalah developer dan perusahaan kini bisa memanfaatkan penalaran kelas frontier dan kualitas kode tinggi tanpa model berbiaya mahal
Ikhtisar Claude Sonnet 4.6
- Sonnet 4.6 adalah model paling kuat di seri Sonnet milik Anthropic, dengan peningkatan menyeluruh pada kemampuan coding, penggunaan komputer, penalaran jangka panjang, kerja berbasis pengetahuan, dan desain
- Mendukung jendela konteks 1M token (beta) sehingga dapat memproses codebase besar atau dokumen panjang sekaligus
- Diterapkan sebagai model default untuk pengguna paket Free dan Pro, dengan harga tetap sama seperti Sonnet 4.5 yaitu $3/$15 per 1 juta token
- Pengguna awal sangat lebih menyukai Sonnet 4.6 dibanding Sonnet 4.5, dan sebagian bahkan lebih menyukainya daripada Opus 4.5
- Berdasarkan evaluasi keamanan, model ini dinilai lebih aman atau setara dengan model sebelumnya, serta menunjukkan “kepribadian yang hangat, jujur, dan prososial”
Kemampuan penggunaan komputer
- Sonnet 4.6 berkembang menjadi model yang dapat mengoperasikan komputer seperti manusia
- Dievaluasi melalui benchmark OSWorld dengan mengoperasikan software nyata seperti Chrome, LibreOffice, dan VS Code di lingkungan virtual
- Setelah peningkatan performa berkelanjutan selama 16 bulan, model ini menunjukkan kemampuan setingkat manusia dalam tugas seperti menavigasi spreadsheet kompleks atau mengisi web form multilangkah
- Meski masih belum menyamai manusia dengan tingkat keahlian tertinggi, kecepatan peningkatan efisiensi kerja sangat tinggi
- Ketahanan terhadap serangan prompt injection meningkat signifikan dibanding Sonnet 4.5, mencapai tingkat keamanan serupa dengan Opus 4.6
Evaluasi performa dan benchmark
- Sonnet 4.6 menghadirkan kecerdasan kelas Opus dengan biaya lebih rendah, dengan peningkatan menyeluruh di berbagai benchmark
- Dalam pengujian Claude Code, 70% pengguna lebih memilih Sonnet 4.6, dengan peningkatan pada pemahaman konteks saat mengubah kode dan kemampuan meminimalkan duplikasi
- 59% lebih disukai dibanding Opus 4.5, dengan penurunan kecenderungan over-engineering atau kemalasan, serta peningkatan akurasi dalam mengikuti instruksi
- Di Vending-Bench Arena, model ini melampaui model pesaing dalam simulasi manajemen jangka panjang melalui strategi fokus pada laba di fase akhir setelah investasi awal
- Di OfficeQA, kemampuan pemahaman dokumennya setara dengan Opus 4.6, dan di Financial Services Benchmark tingkat kecocokan jawaban meningkat
- Mencatat akurasi 94% pada benchmark asuransi dan peningkatan 15% dalam performa penalaran mendalam pada pengujian Box
- Dalam pengujian Rakuten AI, model ini menghasilkan kode iOS kelas atas, dengan pemanfaatan tooling modern dan kualitas arsitektur yang lebih baik
Pembaruan produk dan platform
- Di Claude Developer Platform, kini didukung adaptive thinking, extended thinking, dan context compaction (beta)
- Konteks lama diringkas secara otomatis untuk meningkatkan panjang konteks efektif
- Pembaruan tool API:
- web search dan fetch secara otomatis menulis dan menjalankan kode untuk memfilter hasil pencarian
- Fitur seperti code execution, memory, programmatic tool calling, dan tool search kini tersedia secara umum
- Add-in Claude in Excel mendukung konektor MCP, sehingga dapat terhubung dengan data eksternal seperti S&P Global, LSEG, dan PitchBook
- Sonnet 4.6 tetap mempertahankan performa tinggi bahkan tanpa extended thinking, dan pengguna Sonnet 4.5 disarankan untuk bermigrasi
- Opus 4.6 tetap paling cocok untuk tugas yang memerlukan penalaran terdalam, seperti refactoring kode dan koordinasi multi-agent
Jalur ketersediaan
- Sonnet 4.6 tersedia di semua paket Claude, Claude Cowork, Claude Code, API, dan platform cloud utama
- Paket gratis juga di-upgrade ke Sonnet 4.6, termasuk fitur pembuatan file, konektor, skill, dan compaction
- Developer dapat langsung menggunakannya di Claude API melalui nama model
claude-sonnet-4-6
Angka utama dan metrik evaluasi (ringkasan catatan kaki)
- OSWorld: evaluasi tugas komputer berbasis software nyata, Sonnet 4.6 diukur dalam kondisi ‘thinking off’
- SWE-bench Verified: skor rata-rata 80.2% dari 10 kali percobaan
- ARC-AGI-2: mencapai 60.4% dalam mode upaya maksimum
- MMMU-Pro: skor disesuaikan setelah perbaikan metode evaluasi
- Dalam berbagai eksperimen seperti Humanity’s Last Exam dan BrowseComp, pengujian dilakukan dengan penggunaan tool, pencarian web, dan fitur kompresi konteks dalam keadaan aktif
1 komentar
Komentar Hacker News
Fokusnya pada penggunaan komputer cukup mengesankan. Sepertinya mereka menilai nilainya sangat besar. Tapi bagian keamanannya masih meragukan. Menurut evaluasi internal mereka, sistem serangan otomatis berhasil menembus hanya dalam satu percobaan dengan probabilitas 8%, dan dengan percobaan tak terbatas tingkat keberhasilannya mencapai 50%. Angka seperti ini sulit diterima. Kalau aku tidak salah paham, ini ada di level yang tidak layak dipakai di dunia nyata
PDF evaluasi keamanan
Aku menguji sekitar 900 puisi pribadi ke Sonnet 4.6, dan ada perbedaan besar dibanding Opus 4.6. Opus 4.6 menunjukkan analisis yang luar biasa, sementara Sonnet 4.6 masih sering mengalami halusinasi dan kesalahan. Dalam tes coding pun kesannya mirip. Dibanding Opus, masih jauh tertinggal
Sonnet 4.6 masih salah menjawab 'masalah car wash'. Aku memasukkan pertanyaan asli apa adanya, dan jawabannya adalah “jalan kaki saja”. Bahkan setelah mencoba beberapa variasi, kegagalannya tetap mirip
Aku benar-benar merasakan arti kalimat “persaingan itu baik untuk konsumen.” Makin ketat persaingan pasar, makin bagus hasilnya
Tes “helicopter car wash” itu yang terbaik. Sonnet 4.6 menjawab “jalan kaki saja”, dan itu lucu karena terasa seperti jawaban yang menyindir kebiasaan orang Amerika mengemudi untuk jarak sangat pendek
Menarik bahwa Sonnet 4.6 punya performa setara Opus 4.5. Laju kemajuannya mengingatkan pada kecepatan peningkatan performa komputasi di era 1990-an
Harga Sonnet 4.5 adalah $3/$15 per million tokens, dan aku ragu apakah akan banyak orang yang mau menerima harga ini. Model open-weight mengejarnya dengan cepat dan jauh lebih murah
Aku terlambat membuat gambar pelikan karena sibuk menambahkan dukungan Opus/Sonnet 4.6 ke plugin llm.datasette.io. Hasilnya setara Opus 4.5, dan versinya memakai topi sutra yang keren
Blog terkait
Beberapa hari terakhir aku menguji Sonnet 4.5, dan percakapannya terasa aneh tapi sangat menarik dan konsisten.
Aku menambahkan pengaturan pribadi seperti “utamakan fakta objektif dan analisis kritis, larang empati emosional”, dan model benar-benar mengikutinya dengan baik. ChatGPT juga bereaksi mirip
Beberapa pengguna melaporkan bahwa Opus 4.6 memakai 5~10x lebih banyak token dibanding 4.5. Tautan issue. Belum ada tanggapan resmi. Karena itu, aku berniat tetap memakai 4.5
/models, kita bisa memeriksa reasoning level. Kalau diatur ke high, penggunaan token melonjak