Claude Sonnet 5 Dirilis
(anthropic.com)- Anthropic merilis Claude Sonnet 5 pada 30 Juni 2026, dengan tujuan menghadirkan kemampuan eksekusi agen yang mendekati model kelas Opus yang lebih mahal dengan biaya setara kelas Sonnet
- Dibanding Sonnet 4.6, model ini meningkatkan penalaran, penggunaan alat, coding, dan pekerjaan berbasis pengetahuan, dan melalui penyesuaian effort pengguna dapat memilih keseimbangan biaya dan performa yang lebih rinci untuk tiap tugas
- Dalam evaluasi keamanan, perilaku yang tidak diinginkan, halusinasi, sikap menjilat, penerimaan permintaan berbahaya, dan kerentanan terhadap pembajakan prompt injection lebih rendah daripada Sonnet 4.6, tetapi beberapa perilaku misalignment lebih tinggi daripada Opus 4.8 dan Claude Mythos Preview
- Di Free dan Pro, model ini tersedia sebagai model default, dan juga dapat digunakan di Max, Team, Enterprise, Claude Code, serta Claude Platform; nama model API-nya adalah
claude-sonnet-5 - Harga Claude Platform hingga 31 Agustus 2026 adalah $2 per 1 juta token input dan $10 per 1 juta token output, lalu berubah menjadi input $3 dan output $15; dengan tokenizer baru, jumlah token untuk input yang sama dapat menjadi sekitar 1.0–1.35x tergantung jenis konten
Cakupan eksekusi agen yang diperluas di kelas Sonnet
- Claude Sonnet 5 dirancang sebagai model Sonnet yang paling agentic sejauh ini, dengan target otonomi eksekusi yang beberapa bulan lalu masih membutuhkan model yang lebih besar dan lebih mahal
- Model ini ditingkatkan agar dapat menangani perencanaan, penggunaan alat seperti browser dan terminal, serta eksekusi otonom di model kelas Sonnet
- Sonnet 3.5, 3.6, dan 3.7 telah memantapkan diri sebagai model Sonnet awal yang menunjukkan kemampuan coding dan penggunaan alat bagi para developer, dan setelah itu peningkatan kemampuan agen yang paling jelas muncul pada model kelas Opus
- Sonnet 5 mempersempit jarak dengan Opus 4.8, menghadirkan performa yang mendekati Opus 4.8 pada harga yang lebih rendah
Evaluasi performa dan penyesuaian effort
- Dibanding Sonnet 4.6, Sonnet 5 menunjukkan peningkatan besar pada kategori performa agen seperti penalaran, penggunaan alat, coding, dan pekerjaan berbasis pengetahuan
- Pada evaluasi pencarian agen BrowseComp dan evaluasi penggunaan komputer OSWorld-Verified, hasilnya secara konsisten lebih baik daripada Sonnet 4.6
- Dalam perbandingan per level effort, Sonnet 5 menawarkan pilihan biaya-performa yang lebih luas dibanding Opus 4.8
- Pada effort menengah, efisiensi biaya meningkat secara signifikan
- Pada effort tinggi, performanya pada beberapa tugas bisa menyamai Opus 4.8
- Pengguna dapat menyesuaikan level effort antara Sonnet 5 dan Opus 4.8 untuk memilih keseimbangan biaya dan performa yang sesuai dengan proyek mereka
Pola kerja yang terlihat dalam use case awal
- Mitra akses awal menilai Sonnet 5 jauh lebih agentic daripada model Sonnet sebelumnya
- Ada kasus di mana model ini menyelesaikan tugas kompleks sampai akhir yang sebelumnya membuat model Sonnet berhenti di tengah jalan, dan memeriksa hasilnya sendiri meski tidak diminta secara eksplisit
- Alur kerja yang terverifikasi mencakup tugas coding maupun non-coding
- Menangani coding berkelanjutan, penggunaan alat, dan debugging dalam tugas software engineering multi-tahap
- Menyelesaikan tugas dua tahap hingga tuntas yang terdiri dari pembaruan tingkat akun Salesforce dan pengiriman pengumuman peluncuran ke kontak enterprise
- Menangani puluhan pull request nyata secara mandiri hingga hasil yang telah diuji dan diverifikasi
- Dalam investigasi bug, model ini sekaligus menulis tes reproduksi, menerapkan perbaikan, melakukan stash perubahan, dan memeriksa apakah bug muncul kembali
- Menunjukkan keunggulan pada kode brownfield dalam melacak race condition, hidden test, dan akar penyebab kegagalan yang sebenarnya
- Peningkatan performa dan kecepatan juga terlihat pada pekerjaan non-coding seperti riset dan analisis hukum, eksplorasi data live di ClickHouse, dan workflow asuransi milik Pace
Evaluasi keamanan dan pembatasan keamanan siber
- Dalam evaluasi keamanan pra-peluncuran, Sonnet 5 menunjukkan peningkatan keamanan secara keseluruhan dibanding Sonnet 4.6
- Dari sisi keamanan agen, model ini lebih baik dalam menolak permintaan berbahaya dan lebih tahan terhadap upaya pembajakan melalui serangan prompt injection
- Dibanding Sonnet 4.6, tingkat halusinasi dan sikap menjilat lebih rendah, dan dalam audit perilaku otomatis yang memeriksa perilaku misalignment seperti kerja sama dalam penyalahgunaan dan penipuan, skornya juga lebih rendah, artinya lebih aman
- Namun, dibanding Opus 4.8 dan Claude Mythos Preview yang memiliki kemampuan lebih tinggi, tingkat beberapa perilaku misalignment dalam evaluasi ini sedikit lebih tinggi
- Sonnet 5 tidak dilatih secara khusus untuk tugas keamanan siber
- Model ini dapat melakukan sebagian tugas siber sehari-hari yang tidak berbahaya
- Pada evaluasi kemampuan siber yang berpotensi berbahaya seperti pengembangan software exploit, performanya jauh lebih rendah daripada Opus 4.8 dan Mythos 5
- Dalam evaluasi pengembangan exploit untuk kerentanan browser Firefox, model ini tidak dapat membuat exploit yang berfungsi penuh, tetapi tingkat keberhasilan parsialnya sedikit lebih tinggi daripada Sonnet 4.6
- Karena sedikit lebih kuat pada tugas-tugas tersebut dibanding model sebelumnya, model ini dirilis dengan pengaman siber yang aktif secara default
- Pengaman ini mendeteksi dan memblokir penggunaan siber berbahaya secara real-time
- Ini adalah pengaman yang sama seperti yang diterapkan pada Claude Opus 4.7·4.8
- Karena tingkat risiko keamanan siber keseluruhan Sonnet 5 dinilai rendah, pengamannya tidak seketat pengaman Fable 5 yang memblokir cakupan tugas keamanan siber yang lebih luas
- Detail evaluasi lengkap tersedia di Claude Sonnet 5 System Card
Cakupan ketersediaan, harga, dan API
- Claude Sonnet 5 tersedia di semua paket
- Menjadi model default untuk paket Free dan Pro
- Dapat digunakan oleh pengguna Max, Team, dan Enterprise
- Juga tersedia di Claude Code dan Claude Platform
- Developer dapat menggunakan
claude-sonnet-5di Claude API - Harga peluncuran Claude Platform hingga 31 Agustus 2026 adalah $2 per 1 juta token input dan $10 per 1 juta token output
- Setelah itu, harga standar berubah menjadi $3 per 1 juta token input dan $15 per 1 juta token output
- Untuk mengakomodasi peningkatan penggunaan token pada level effort tinggi, batas permintaan di Chat, Cowork, Claude Code, dan Claude Platform ditingkatkan
- Sonnet 5 adalah upgrade dari Sonnet 4.6 tetapi menggunakan tokenizer yang diperbarui
- Cara pemrosesan teks diubah untuk meningkatkan performa
- Input yang sama dapat dipetakan menjadi sekitar 1.0–1.35x token tergantung jenis konten
- Harga perkenalan ditetapkan agar perpindahan ke Sonnet 5 secara umum tetap netral dari sisi biaya
Pembaruan grafik BrowseComp
- Dalam edit 30 Juni 2026, grafik biaya-performa untuk evaluasi BrowseComp diperbarui
- Grafik asli didasarkan pada data dari metodologi yang lebih sederhana yang tidak mencerminkan metodologi standar yang digunakan Anthropic untuk evaluasi pencarian agen, sehingga performa Sonnet 5 menjadi terkurangi
- Grafik yang diperbarui diselaraskan dengan metodologi standar serta pendekatan yang digunakan dan dibahas dalam system card Sonnet 5
- Metode tersebut menggunakan anggaran 10M token, kompresi, dan pemanggilan alat secara terprogram
- Teks penjelasan di sekitarnya juga ikut diperbarui
4 komentar
Entah karena saya sudah terbiasa dengan opus4.8, atau karena sudah lama tidak memakai Sonnet...
Hari ini saya mencoba Sonnet sebentar dan sangat kecewa.
Mungkin dulu saya akan cukup puas, tetapi ternyata halusinasinya jauh lebih banyak dari yang saya kira.
Tolong kasih fable..
Cepat beri Fable... 😢😢
Pendapat Hacker News
Melihat bagan biaya per tugas, sepertinya Sonnet 5 tidak seharusnya dipakai melewati tingkat upaya menengah. Dengan biaya yang sama, Opus selalu lebih baik, jadi kalau Sonnet 5 medium kurang memadai, kesimpulannya tampaknya bukan menaikkan tingkat upaya, melainkan mengganti model
Dalam praktiknya, saya biasanya hanya memakai default Claude Code, dan itu sudah bekerja cukup baik. Namun saya penasaran seberapa banyak pengguna lain bereksperimen dan mengoptimalkan pengaturan seperti ini sesuai proyek mereka
Selain itu, untuk beberapa tugas, jumlah token input murni itu sendiri adalah hal paling penting. Misalnya, tugas penggunaan komputer multimodal tidak bisa dibuat lebih efisien di Opus hanya dengan menurunkan reasoning, sehingga model murah seperti Sonnet berguna
Namun dalam praktiknya, memperbaiki hasil yang dibuat model memakan terlalu banyak waktu, jadi menurut saya model yang lebih pintar, walaupun lebih lambat, mengurangi total waktu
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Saya mengujinya dengan benchmark saya[0], dan hasilnya setingkat GLM-5.2; biayanya 2 kali lipat, tetapi kecepatannya juga 2 kali lipat
Kelemahannya: kuis pengetahuan umum 0/3, jadi hampir tidak punya pengetahuan bawaan; tugas pemanggilan tool kompleks 45/100, kadang melakukan panggilan tool yang salah; dan pemecahan puzzle mendapat skor 77, melakukan kesalahan pada tes tipe tempat cuci mobil
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Sebaliknya, Sonnet 5 jauh lebih malas dibanding model Claude lain yang pernah saya coba, dan setelah tidak menambahkan pelengkap rencana yang saya minta, ketika ditanya ia berbohong bahwa sudah melakukannya. Melihat analisis[0], bagi saya ini tampak tidak bernilai, meski bisa berbeda untuk orang lain. Fable jelas jauh lebih baik
[0]: https://artificialanalysis.ai/models/claude-sonnet-5
Di beberapa benchmark, jika tingkat upayanya lebih tinggi dari medium, biaya per tugas melebihi Opus; sulit memahami mengapa orang memakai ini dan tidak langsung memakai Opus tingkat upaya rendah saja
Satu-satunya yang terpikir adalah ketika kredit Opus habis. Tentu ada kasus penggunaan penagihan API, tetapi tetap saja saya rasa akan memakai Opus dengan tingkat upaya rendah
Rasanya model-model ini dioptimalkan bukan untuk menyelesaikan masalah, melainkan untuk memeras lebih banyak uang dari pengguna dan perusahaan. Saya sudah memberi instruksi jelas untuk tugas Python sederhana 2–3 baris, tetapi entah kenapa Opus mencoba membuat seluruh library
Namun saat memecahkan masalah nyata sambil beriterasi dan bereksplorasi, panjang konteks makin lama makin bertambah, dan saat itulah Opus sering menjadi mahal
[0] https://www.anthropic.com/claude-sonnet-5-system-card
Claude Sonnet 5 disebut dibuat sebagai Sonnet yang paling mirip agen sejauh ini. Ia bisa menyusun rencana, memakai alat seperti browser atau terminal, dan menjalankan tugas secara otonom pada level yang beberapa bulan lalu masih membutuhkan model yang lebih besar dan mahal
Saya lebih banyak melakukan pengembangan berbantuan agen daripada pengembangan yang sepenuhnya digerakkan agen, jadi selama ini saya lebih sering memakai Sonnet 4.6 daripada Opus. Namun pengumuman ini tidak terasa positif bagi saya. Semakin sebuah model dioptimalkan untuk pengembangan yang sepenuhnya bersifat agen, semakin sering ia menjadi lebih buruk untuk pengembangan berbantuan, dan sering kali terlalu membesar-besarkan pekerjaan bahkan ketika diberi instruksi yang sangat ketat dan spesifik
Dalam beberapa minggu terakhir saya makin beralih ke K2.7 Code dan GLM-5.2. Untuk penggunaan sebagai asisten, keduanya sering kali sudah cukup, serta sangat cepat dan murah
Masalahnya, orang-orang di dalam perusahaan itu tampaknya percaya bahwa dalam 1–2 tahun ke depan tidak akan ada lagi yang bekerja dengan cara seperti itu
Memang perlu sedikit lebih banyak perbaikan dibanding Opus. Namun tolok ukur sebenarnya adalah antara “harus membaca setiap baris” dan “bisa percaya tanpa membaca setiap baris”; bagi saya belum ada model yang mencapai yang kedua, dan sepertinya masih akan begitu untuk sementara. Untuk brainstorming arsitektur lalu mengubahnya menjadi kode, ia tidak sebaik Opus, tetapi itu tidak selalu menjadi masalah, dan kalau perlu saya bisa memakai Opus
Berkat itu, bahkan pada minggu yang banyak coding, saya punya kelonggaran sepanjang minggu tanpa menabrak batas pengeluaran sekitar Rabu atau Kamis. Namun dalam praktiknya, saya merasa harus jauh lebih sering mengerem K2.6 dibanding Opus. Saya harus jauh lebih berhati-hati agar ketika sekadar ingin bertanya, ia tidak langsung menyimpulkan bahwa itu tugas coding dan berlari mengerjakannya. Keduanya saya pakai dalam mode perencanaan, tetapi dengan K2.6 saya harus jauh lebih defensif dibanding Opus
Sebagian besar pekerjaan saya lebih dekat ke rekayasa berbasis agen daripada cara “lempar lalu lupakan”. Saya tetap terlibat dalam tahap perencanaan, meninjau hasil, dan cenderung mengajukan jauh lebih banyak pertanyaan kepada agen dibanding orang lain. Cara yang paling cocok bagi saya adalah menggunakannya seperti mode “autocomplete superkuat” yang mengisi bagian kosong setelah saya menetapkan kebutuhan, cakupan, desain, dan kadang bahkan batas modul tertentu
Dibanding GLM 5.2, rasio harga terhadap kinerjanya juga terlihat lebih buruk. Padahal GLM 5.2 “hanya” punya 744B parameter
Di system card tertulis bahwa “dalam penemuan kerentanan CyberGym, Claude Sonnet 5 kurang mampu dibanding Sonnet 4.6, dan jauh kurang mampu dibanding Opus 4.8 serta Mythos 5”
Juga disebutkan bahwa “seperti evaluasi lain di bagian ini, hasil tersebut diperoleh dengan semua pengaman dimatikan. Saat dijalankan dengan mitigasi default aktif, Sonnet 5 mendapat skor 0 di CyberGym”
Dalam perencanaan dan coding juga mirip. GLM-5.2 terlihat bagus “di atas kertas”, tetapi hasil penggunaan nyata berbeda
Saya tidak bermaksud membela Claude atau GLM-5.2. Hal yang saya sadari setelah memakai model bahasa besar setiap hari sejak November 2022 adalah bahwa pengujian umum harus diverifikasi di proyek sendiri. Tidak ada “satu model untuk menguasai semuanya”; kita harus menemukan model tertentu di tumpukan jerami ribuan model
Benchmark memang membantu, tetapi semakin terasa seperti spesifikasi konsumsi BBM dalam iklan mobil. Konsumsi BBM nyata berbeda untuk setiap orang
Polanya seperti “Model X lebih baik atau lebih buruk Y% daripada Claude Z pada benchmark T”, “itu tidak bermakna, modelnya dioptimalkan untuk benchmark”, “tidak bisa dipakai untuk coding harian atau kerja agen, feel-nya benar-benar salah”, “hampir sama dan jauh lebih murah, jadi saya pasti pakai”, “karena selisih kinerja bertahap, biaya rendah model terbuka tidak bisa menutupi hilangnya produktivitas sehingga tidak bisa dibenarkan”
Saya adalah pelanggan yang punya keluhan terhadap Anthropic, dan saya benar-benar mendukung model terbuka serta kecerdasan yang tidak tertutup. Namun saya tidak tahu bagaimana kita bisa keluar dari pengulangan wacana peluncuran model yang kini sudah seperti meme. Saya sendiri bukan perancang model bahasa besar atau benchmark, dan saya sungguh menghargai upaya untuk memberikan informasi meski tidak sempurna. Saya rasa kebanyakan orang yang rutin membaca komentar pengumuman seperti ini merasakan hal serupa
Claude Sonnet 5 menggambarkan pelikan miliknya sendiri seperti angsa
“Seekor angsa putih sedang mengendarai sepeda, dengan satu sayap terentang ke depan memegang setang, di atas latar putih polos dengan garis tanah cokelat”
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
Sebaliknya, GLM 5.2 menggambar pelikan SVG yang keren, sepenuhnya beranimasi, dan berfungsi secara mandiri
https://simonwillison.net/2026/Jun/17/glm-52
Hari ini saya tidak sengaja memakai Sonnet 5 sebentar, dan untuk pengembangan perangkat lunak, model itu terlihat jauh lebih buruk daripada Opus 4.8
Saya penasaran apakah paranoia berlebihan terhadap keamanan siber pada akhirnya membuat model menghasilkan kode yang kurang aman. Kalau sebuah model mampu membuat kode yang aman, itu berarti ia tahu sesuatu tentang keamanan siber, dan bisa juga dianggap bahwa dengan pengetahuan itu ia dapat meretas bank-bank di seluruh dunia
Saya cukup menantikan model ini, jadi dalam tiga proyek berbeda saya meminta para planner Opus untuk memakai Sonnet alih-alih sub-agen Opus agar bisa membantu eksperimen kernel HPC lebih cepat. Namun tidak ada satu pun yang menulis sebaris kode, dan Sonnet terus berputar-putar sambil hanya membuang token
Saya bahkan tidak ingat kapan terakhir kali hal seperti ini terjadi dengan Opus di codebase saya. Sekarang saya sedang mengembalikannya lagi
Masalahnya hilang dengan sendirinya
Poin pentingnya ini. “Sonnet 5 adalah peningkatan dari Sonnet 4.6, tetapi menggunakan tokenizer yang diperbarui yang mengubah cara model memproses teks untuk meningkatkan performa. Ini mirip dengan perubahan tokenizer yang diperkenalkan di Claude Opus 4.7. Konsekuensinya, input yang sama bisa dipetakan menjadi lebih banyak token. Tergantung jenis kontennya, kira-kira 1,0–1,35 kali. Harga peluncuran ditetapkan agar peralihan ke Sonnet 5 kurang lebih netral dari sisi biaya”