6 poin oleh GN⁺ 3 jam lalu | 4 komentar | Bagikan ke WhatsApp
  • Anthropic merilis Claude Sonnet 5 pada 30 Juni 2026, dengan tujuan menghadirkan kemampuan eksekusi agen yang mendekati model kelas Opus yang lebih mahal dengan biaya setara kelas Sonnet
  • Dibanding Sonnet 4.6, model ini meningkatkan penalaran, penggunaan alat, coding, dan pekerjaan berbasis pengetahuan, dan melalui penyesuaian effort pengguna dapat memilih keseimbangan biaya dan performa yang lebih rinci untuk tiap tugas
  • Dalam evaluasi keamanan, perilaku yang tidak diinginkan, halusinasi, sikap menjilat, penerimaan permintaan berbahaya, dan kerentanan terhadap pembajakan prompt injection lebih rendah daripada Sonnet 4.6, tetapi beberapa perilaku misalignment lebih tinggi daripada Opus 4.8 dan Claude Mythos Preview
  • Di Free dan Pro, model ini tersedia sebagai model default, dan juga dapat digunakan di Max, Team, Enterprise, Claude Code, serta Claude Platform; nama model API-nya adalah claude-sonnet-5
  • Harga Claude Platform hingga 31 Agustus 2026 adalah $2 per 1 juta token input dan $10 per 1 juta token output, lalu berubah menjadi input $3 dan output $15; dengan tokenizer baru, jumlah token untuk input yang sama dapat menjadi sekitar 1.0–1.35x tergantung jenis konten

Cakupan eksekusi agen yang diperluas di kelas Sonnet

  • Claude Sonnet 5 dirancang sebagai model Sonnet yang paling agentic sejauh ini, dengan target otonomi eksekusi yang beberapa bulan lalu masih membutuhkan model yang lebih besar dan lebih mahal
  • Model ini ditingkatkan agar dapat menangani perencanaan, penggunaan alat seperti browser dan terminal, serta eksekusi otonom di model kelas Sonnet
  • Sonnet 3.5, 3.6, dan 3.7 telah memantapkan diri sebagai model Sonnet awal yang menunjukkan kemampuan coding dan penggunaan alat bagi para developer, dan setelah itu peningkatan kemampuan agen yang paling jelas muncul pada model kelas Opus
  • Sonnet 5 mempersempit jarak dengan Opus 4.8, menghadirkan performa yang mendekati Opus 4.8 pada harga yang lebih rendah

Evaluasi performa dan penyesuaian effort

  • Dibanding Sonnet 4.6, Sonnet 5 menunjukkan peningkatan besar pada kategori performa agen seperti penalaran, penggunaan alat, coding, dan pekerjaan berbasis pengetahuan
  • Pada evaluasi pencarian agen BrowseComp dan evaluasi penggunaan komputer OSWorld-Verified, hasilnya secara konsisten lebih baik daripada Sonnet 4.6
  • Dalam perbandingan per level effort, Sonnet 5 menawarkan pilihan biaya-performa yang lebih luas dibanding Opus 4.8
    • Pada effort menengah, efisiensi biaya meningkat secara signifikan
    • Pada effort tinggi, performanya pada beberapa tugas bisa menyamai Opus 4.8
  • Pengguna dapat menyesuaikan level effort antara Sonnet 5 dan Opus 4.8 untuk memilih keseimbangan biaya dan performa yang sesuai dengan proyek mereka

Pola kerja yang terlihat dalam use case awal

  • Mitra akses awal menilai Sonnet 5 jauh lebih agentic daripada model Sonnet sebelumnya
  • Ada kasus di mana model ini menyelesaikan tugas kompleks sampai akhir yang sebelumnya membuat model Sonnet berhenti di tengah jalan, dan memeriksa hasilnya sendiri meski tidak diminta secara eksplisit
  • Alur kerja yang terverifikasi mencakup tugas coding maupun non-coding
    • Menangani coding berkelanjutan, penggunaan alat, dan debugging dalam tugas software engineering multi-tahap
    • Menyelesaikan tugas dua tahap hingga tuntas yang terdiri dari pembaruan tingkat akun Salesforce dan pengiriman pengumuman peluncuran ke kontak enterprise
    • Menangani puluhan pull request nyata secara mandiri hingga hasil yang telah diuji dan diverifikasi
    • Dalam investigasi bug, model ini sekaligus menulis tes reproduksi, menerapkan perbaikan, melakukan stash perubahan, dan memeriksa apakah bug muncul kembali
    • Menunjukkan keunggulan pada kode brownfield dalam melacak race condition, hidden test, dan akar penyebab kegagalan yang sebenarnya
  • Peningkatan performa dan kecepatan juga terlihat pada pekerjaan non-coding seperti riset dan analisis hukum, eksplorasi data live di ClickHouse, dan workflow asuransi milik Pace

Evaluasi keamanan dan pembatasan keamanan siber

  • Dalam evaluasi keamanan pra-peluncuran, Sonnet 5 menunjukkan peningkatan keamanan secara keseluruhan dibanding Sonnet 4.6
  • Dari sisi keamanan agen, model ini lebih baik dalam menolak permintaan berbahaya dan lebih tahan terhadap upaya pembajakan melalui serangan prompt injection
  • Dibanding Sonnet 4.6, tingkat halusinasi dan sikap menjilat lebih rendah, dan dalam audit perilaku otomatis yang memeriksa perilaku misalignment seperti kerja sama dalam penyalahgunaan dan penipuan, skornya juga lebih rendah, artinya lebih aman
  • Namun, dibanding Opus 4.8 dan Claude Mythos Preview yang memiliki kemampuan lebih tinggi, tingkat beberapa perilaku misalignment dalam evaluasi ini sedikit lebih tinggi
  • Sonnet 5 tidak dilatih secara khusus untuk tugas keamanan siber
    • Model ini dapat melakukan sebagian tugas siber sehari-hari yang tidak berbahaya
    • Pada evaluasi kemampuan siber yang berpotensi berbahaya seperti pengembangan software exploit, performanya jauh lebih rendah daripada Opus 4.8 dan Mythos 5
    • Dalam evaluasi pengembangan exploit untuk kerentanan browser Firefox, model ini tidak dapat membuat exploit yang berfungsi penuh, tetapi tingkat keberhasilan parsialnya sedikit lebih tinggi daripada Sonnet 4.6
  • Karena sedikit lebih kuat pada tugas-tugas tersebut dibanding model sebelumnya, model ini dirilis dengan pengaman siber yang aktif secara default
    • Pengaman ini mendeteksi dan memblokir penggunaan siber berbahaya secara real-time
    • Ini adalah pengaman yang sama seperti yang diterapkan pada Claude Opus 4.7·4.8
    • Karena tingkat risiko keamanan siber keseluruhan Sonnet 5 dinilai rendah, pengamannya tidak seketat pengaman Fable 5 yang memblokir cakupan tugas keamanan siber yang lebih luas
  • Detail evaluasi lengkap tersedia di Claude Sonnet 5 System Card

Cakupan ketersediaan, harga, dan API

  • Claude Sonnet 5 tersedia di semua paket
    • Menjadi model default untuk paket Free dan Pro
    • Dapat digunakan oleh pengguna Max, Team, dan Enterprise
    • Juga tersedia di Claude Code dan Claude Platform
  • Developer dapat menggunakan claude-sonnet-5 di Claude API
  • Harga peluncuran Claude Platform hingga 31 Agustus 2026 adalah $2 per 1 juta token input dan $10 per 1 juta token output
  • Setelah itu, harga standar berubah menjadi $3 per 1 juta token input dan $15 per 1 juta token output
  • Untuk mengakomodasi peningkatan penggunaan token pada level effort tinggi, batas permintaan di Chat, Cowork, Claude Code, dan Claude Platform ditingkatkan
  • Sonnet 5 adalah upgrade dari Sonnet 4.6 tetapi menggunakan tokenizer yang diperbarui
    • Cara pemrosesan teks diubah untuk meningkatkan performa
    • Input yang sama dapat dipetakan menjadi sekitar 1.0–1.35x token tergantung jenis konten
    • Harga perkenalan ditetapkan agar perpindahan ke Sonnet 5 secara umum tetap netral dari sisi biaya

Pembaruan grafik BrowseComp

  • Dalam edit 30 Juni 2026, grafik biaya-performa untuk evaluasi BrowseComp diperbarui
  • Grafik asli didasarkan pada data dari metodologi yang lebih sederhana yang tidak mencerminkan metodologi standar yang digunakan Anthropic untuk evaluasi pencarian agen, sehingga performa Sonnet 5 menjadi terkurangi
  • Grafik yang diperbarui diselaraskan dengan metodologi standar serta pendekatan yang digunakan dan dibahas dalam system card Sonnet 5
    • Metode tersebut menggunakan anggaran 10M token, kompresi, dan pemanggilan alat secara terprogram
  • Teks penjelasan di sekitarnya juga ikut diperbarui

4 komentar

 
dhkd63 2 jam lalu

Entah karena saya sudah terbiasa dengan opus4.8, atau karena sudah lama tidak memakai Sonnet...
Hari ini saya mencoba Sonnet sebentar dan sangat kecewa.
Mungkin dulu saya akan cukup puas, tetapi ternyata halusinasinya jauh lebih banyak dari yang saya kira.

 
sea715 2 jam lalu

Tolong kasih fable..

 
seoseonyu 3 jam lalu

Cepat beri Fable... 😢😢

 
GN⁺ 3 jam lalu
Pendapat Hacker News
  • Melihat bagan biaya per tugas, sepertinya Sonnet 5 tidak seharusnya dipakai melewati tingkat upaya menengah. Dengan biaya yang sama, Opus selalu lebih baik, jadi kalau Sonnet 5 medium kurang memadai, kesimpulannya tampaknya bukan menaikkan tingkat upaya, melainkan mengganti model

    • Saya berterima kasih karena informasi seperti ini dibuka ke publik, tetapi makin lama makin sulit diikuti. Saya kehilangan model mental tentang performa yang dihasilkan berbagai model dan tingkat upaya, serta tugas apa yang cocok untuk masing-masing
      Dalam praktiknya, saya biasanya hanya memakai default Claude Code, dan itu sudah bekerja cukup baik. Namun saya penasaran seberapa banyak pengguna lain bereksperimen dan mengoptimalkan pengaturan seperti ini sesuai proyek mereka
    • Di sini ada dua variabel. Dalam langganan Claude.ai, Sonnet tampaknya jauh lebih murah daripada Opus, jadi di tier Max sudah lama ada bar penggunaan khusus Sonnet
      Selain itu, untuk beberapa tugas, jumlah token input murni itu sendiri adalah hal paling penting. Misalnya, tugas penggunaan komputer multimodal tidak bisa dibuat lebih efisien di Opus hanya dengan menurunkan reasoning, sehingga model murah seperti Sonnet berguna
    • Saya melihat bagan yang sama, dan posisi kurvanya dibanding Opus cukup mengejutkan. Sonnet 5 terasa seperti “bagaimana kalau Opus punya satu tingkat upaya super-rendah tambahan?”
    • Sebagai sanggahan, Sonnet mungkin lebih cepat. Karena bisa memakai lebih banyak token untuk tugas yang sama, ini belum pasti, tetapi dalam alur kerja iteratif sinkron, ada kemungkinan lebih banyak pekerjaan bisa diselesaikan
      Namun dalam praktiknya, memperbaiki hasil yang dibuat model memakan terlalu banyak waktu, jadi menurut saya model yang lebih pintar, walaupun lebih lambat, mengurangi total waktu
    • Karena ini model Sonnet, memang benar lebih baik daripada Sonnet 4.6[0]. Lebih pintar, cepat, dan murah, tetapi saya kurang tahu alasan memakainya dibanding Opus 4.8 low atau GLM-5.2
      [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
  • Saya mengujinya dengan benchmark saya[0], dan hasilnya setingkat GLM-5.2; biayanya 2 kali lipat, tetapi kecepatannya juga 2 kali lipat
    Kelemahannya: kuis pengetahuan umum 0/3, jadi hampir tidak punya pengetahuan bawaan; tugas pemanggilan tool kompleks 45/100, kadang melakukan panggilan tool yang salah; dan pemecahan puzzle mendapat skor 77, melakukan kesalahan pada tes tipe tempat cuci mobil
    [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...

    • Dalam benchmark itu, Gemini 3.5 Flash muncul sebagai model terbaik, dan bagi saya itu sulit diterima
    • Seperti biasa, pernyataan bahwa ini lebih cepat daripada GLM-5.2 tidak terlalu bermakna. GLM-5.2 dilayani oleh banyak penyedia, jadi kecepatan inferensinya bisa sangat berbeda tergantung penyedia atau waktu
    • Dari perbandingan yang tidak sempurna ketika memakai keduanya untuk perencanaan dan eksekusi, GLM5.2 terlalu terburu-buru dan terlalu bersemangat ingin melakukan sesuatu, sehingga sering membuat masalah. Misalnya, ia mencoba melakukan deployment atau memakai git bahkan ketika tidak seharusnya
      Sebaliknya, Sonnet 5 jauh lebih malas dibanding model Claude lain yang pernah saya coba, dan setelah tidak menambahkan pelengkap rencana yang saya minta, ketika ditanya ia berbohong bahwa sudah melakukannya. Melihat analisis[0], bagi saya ini tampak tidak bernilai, meski bisa berbeda untuk orang lain. Fable jelas jauh lebih baik
      [0]: https://artificialanalysis.ai/models/claude-sonnet-5
  • Di beberapa benchmark, jika tingkat upayanya lebih tinggi dari medium, biaya per tugas melebihi Opus; sulit memahami mengapa orang memakai ini dan tidak langsung memakai Opus tingkat upaya rendah saja
    Satu-satunya yang terpikir adalah ketika kredit Opus habis. Tentu ada kasus penggunaan penagihan API, tetapi tetap saja saya rasa akan memakai Opus dengan tingkat upaya rendah

    • Belakangan makin sering saya harus mencegah Opus melakukan hal-hal bodoh, dan setiap kali harus mengingatkannya agar tidak membuat pekerjaan terlalu rumit
      Rasanya model-model ini dioptimalkan bukan untuk menyelesaikan masalah, melainkan untuk memeras lebih banyak uang dari pengguna dan perusahaan. Saya sudah memberi instruksi jelas untuk tugas Python sederhana 2–3 baris, tetapi entah kenapa Opus mencoba membuat seluruh library
    • Menurut saya benchmark berbasis tugas tertentu tidak banyak mencerminkan kasus penggunaan agentic sehari-hari. Jika kita bisa menangani tugas individual satu per satu dan menghapus konteks setiap kali, efisiensi seperti itu mungkin bisa dicapai dengan Opus tingkat upaya rendah
      Namun saat memecahkan masalah nyata sambil beriterasi dan bereksplorasi, panjang konteks makin lama makin bertambah, dan saat itulah Opus sering menjadi mahal
    • Model Opus lama kemungkinan besar pada akhirnya akan dihentikan dukungannya, dan seiring waktu ini akan menjadi model termurah. Begitulah cara mereka menaikkan harga sekarang
    • Jika melihat benchmark coding agentic di halaman 117–118 kartu sistem[0], bahkan pada tingkat upaya rendah performanya lebih baik daripada tingkat mana pun dari Sonnet 4.6, dan harganya juga tampak cukup murah. Jadi ini mungkin cocok sebagai pekerja yang menangani tugas yang direncanakan Opus
      [0] https://www.anthropic.com/claude-sonnet-5-system-card
    • Kecepatan adalah alasan besar. Ada saat ketika tugas sederhana harus diselesaikan cepat, dan menunggu 30–60 detik sampai Opus mulai berpikir terasa sangat lambat
  • Claude Sonnet 5 disebut dibuat sebagai Sonnet yang paling mirip agen sejauh ini. Ia bisa menyusun rencana, memakai alat seperti browser atau terminal, dan menjalankan tugas secara otonom pada level yang beberapa bulan lalu masih membutuhkan model yang lebih besar dan mahal
    Saya lebih banyak melakukan pengembangan berbantuan agen daripada pengembangan yang sepenuhnya digerakkan agen, jadi selama ini saya lebih sering memakai Sonnet 4.6 daripada Opus. Namun pengumuman ini tidak terasa positif bagi saya. Semakin sebuah model dioptimalkan untuk pengembangan yang sepenuhnya bersifat agen, semakin sering ia menjadi lebih buruk untuk pengembangan berbantuan, dan sering kali terlalu membesar-besarkan pekerjaan bahkan ketika diberi instruksi yang sangat ketat dan spesifik
    Dalam beberapa minggu terakhir saya makin beralih ke K2.7 Code dan GLM-5.2. Untuk penggunaan sebagai asisten, keduanya sering kali sudah cukup, serta sangat cepat dan murah

    • Salah satu perusahaan seperti ini jelas punya peluang untuk, meminjam istilahnya, menginvestasikan waktu pada model yang disesuaikan untuk pengembangan berbantuan agen
      Masalahnya, orang-orang di dalam perusahaan itu tampaknya percaya bahwa dalam 1–2 tahun ke depan tidak akan ada lagi yang bekerja dengan cara seperti itu
    • Belakangan ini saya memakai Kimi K2.6. Jalur persetujuan perusahaan belum memungkinkan saya memakai 2.7, tetapi ketika model sudah tahu apa yang ingin saya lakukan dan saya ingin memecah prosesnya menjadi bagian-bagian, hasilnya lumayan
      Memang perlu sedikit lebih banyak perbaikan dibanding Opus. Namun tolok ukur sebenarnya adalah antara “harus membaca setiap baris” dan “bisa percaya tanpa membaca setiap baris”; bagi saya belum ada model yang mencapai yang kedua, dan sepertinya masih akan begitu untuk sementara. Untuk brainstorming arsitektur lalu mengubahnya menjadi kode, ia tidak sebaik Opus, tetapi itu tidak selalu menjadi masalah, dan kalau perlu saya bisa memakai Opus
      Berkat itu, bahkan pada minggu yang banyak coding, saya punya kelonggaran sepanjang minggu tanpa menabrak batas pengeluaran sekitar Rabu atau Kamis. Namun dalam praktiknya, saya merasa harus jauh lebih sering mengerem K2.6 dibanding Opus. Saya harus jauh lebih berhati-hati agar ketika sekadar ingin bertanya, ia tidak langsung menyimpulkan bahwa itu tugas coding dan berlari mengerjakannya. Keduanya saya pakai dalam mode perencanaan, tetapi dengan K2.6 saya harus jauh lebih defensif dibanding Opus
    • Untuk sementara saya sepenuhnya beralih ke model lokal yang berjalan di M1 Mac Studio dengan memori 64GB. Meski begitu, pada kasus-kasus langka ketika Qwen3.6 terkuantisasi lokal terasa kurang, saya menghubungkannya ke Openrouter dan memakai Kimi, GLM, Deepseek, dan semacamnya dengan harga sebagian dari Anthropic dan lainnya
    • Rasanya hampir sama dan situasinya juga mirip. Keunggulan yang lebih besar saat memakai Sonnet adalah waktu respons
    • Sepertinya ada baiknya mencoba model OpenAI seperti GPT 5.5. Model itu lebih baik mengikuti instruksi dan batasan yang ditetapkan dalam prompt, dan terasa seperti asisten agen yang lebih cakap daripada model Claude tanpa kehilangan kecerdasan
      Sebagian besar pekerjaan saya lebih dekat ke rekayasa berbasis agen daripada cara “lempar lalu lupakan”. Saya tetap terlibat dalam tahap perencanaan, meninjau hasil, dan cenderung mengajukan jauh lebih banyak pertanyaan kepada agen dibanding orang lain. Cara yang paling cocok bagi saya adalah menggunakannya seperti mode “autocomplete superkuat” yang mengisi bagian kosong setelah saya menetapkan kebutuhan, cakupan, desain, dan kadang bahkan batas modul tertentu
  • Dibanding GLM 5.2, rasio harga terhadap kinerjanya juga terlihat lebih buruk. Padahal GLM 5.2 “hanya” punya 744B parameter
    Di system card tertulis bahwa “dalam penemuan kerentanan CyberGym, Claude Sonnet 5 kurang mampu dibanding Sonnet 4.6, dan jauh kurang mampu dibanding Opus 4.8 serta Mythos 5”
    Juga disebutkan bahwa “seperti evaluasi lain di bagian ini, hasil tersebut diperoleh dengan semua pengaman dimatikan. Saat dijalankan dengan mitigasi default aktif, Sonnet 5 mendapat skor 0 di CyberGym”

    • Saya mencoba menulis ulang teks dengan GLM-5.2 dan Sonnet 4.6, dan karena model bahasa besar bersifat nondeterministik, hasilnya benar-benar berbeda. GLM-5.2 menghasilkan banyak kesalahan halus yang harus diperbaiki manual, sedangkan Sonnet pada putaran kedua menemukan dan memperbaiki semua kesalahan
      Dalam perencanaan dan coding juga mirip. GLM-5.2 terlihat bagus “di atas kertas”, tetapi hasil penggunaan nyata berbeda
      Saya tidak bermaksud membela Claude atau GLM-5.2. Hal yang saya sadari setelah memakai model bahasa besar setiap hari sejak November 2022 adalah bahwa pengujian umum harus diverifikasi di proyek sendiri. Tidak ada “satu model untuk menguasai semuanya”; kita harus menemukan model tertentu di tumpukan jerami ribuan model
      Benchmark memang membantu, tetapi semakin terasa seperti spesifikasi konsumsi BBM dalam iklan mobil. Konsumsi BBM nyata berbeda untuk setiap orang
    • Akhirnya muncul strategi bisnis yang bisa dijalankan. Jual murah code monkey yang buta keamanan, lalu kenakan tarif premium untuk agen yang bisa membereskan kekacauan itu
    • Ini bukan ditujukan kepada orang tertentu, tetapi saya berharap kualitas diskusi di HN suatu saat bisa melampaui perbandingan dasar seperti ini. Rasanya komentar yang sama berulang di setiap thread peluncuran model
      Polanya seperti “Model X lebih baik atau lebih buruk Y% daripada Claude Z pada benchmark T”, “itu tidak bermakna, modelnya dioptimalkan untuk benchmark”, “tidak bisa dipakai untuk coding harian atau kerja agen, feel-nya benar-benar salah”, “hampir sama dan jauh lebih murah, jadi saya pasti pakai”, “karena selisih kinerja bertahap, biaya rendah model terbuka tidak bisa menutupi hilangnya produktivitas sehingga tidak bisa dibenarkan”
      Saya adalah pelanggan yang punya keluhan terhadap Anthropic, dan saya benar-benar mendukung model terbuka serta kecerdasan yang tidak tertutup. Namun saya tidak tahu bagaimana kita bisa keluar dari pengulangan wacana peluncuran model yang kini sudah seperti meme. Saya sendiri bukan perancang model bahasa besar atau benchmark, dan saya sungguh menghargai upaya untuk memberikan informasi meski tidak sempurna. Saya rasa kebanyakan orang yang rutin membaca komentar pengumuman seperti ini merasakan hal serupa
  • Claude Sonnet 5 menggambarkan pelikan miliknya sendiri seperti angsa
    “Seekor angsa putih sedang mengendarai sepeda, dengan satu sayap terentang ke depan memegang setang, di atas latar putih polos dengan garis tanah cokelat”
    https://simonwillison.net/2026/Jun/30/claude-sonnet-5/

    • Bisa jadi ini adalah pelikan terburuk yang dibuat model bahasa besar belakangan ini
      Sebaliknya, GLM 5.2 menggambar pelikan SVG yang keren, sepenuhnya beranimasi, dan berfungsi secara mandiri
      https://simonwillison.net/2026/Jun/17/glm-52
  • Hari ini saya tidak sengaja memakai Sonnet 5 sebentar, dan untuk pengembangan perangkat lunak, model itu terlihat jauh lebih buruk daripada Opus 4.8

  • Saya penasaran apakah paranoia berlebihan terhadap keamanan siber pada akhirnya membuat model menghasilkan kode yang kurang aman. Kalau sebuah model mampu membuat kode yang aman, itu berarti ia tahu sesuatu tentang keamanan siber, dan bisa juga dianggap bahwa dengan pengetahuan itu ia dapat meretas bank-bank di seluruh dunia

    • Pada model pembuat gambar, upaya menyensor ketelanjangan malah menimbulkan berbagai masalah dalam representasi anatomi. Sepertinya model-model seperti ini juga akan mengalami masalah serupa dalam keamanan
    • Bisa jadi memang itu tujuannya
  • Saya cukup menantikan model ini, jadi dalam tiga proyek berbeda saya meminta para planner Opus untuk memakai Sonnet alih-alih sub-agen Opus agar bisa membantu eksperimen kernel HPC lebih cepat. Namun tidak ada satu pun yang menulis sebaris kode, dan Sonnet terus berputar-putar sambil hanya membuang token
    Saya bahkan tidak ingat kapan terakhir kali hal seperti ini terjadi dengan Opus di codebase saya. Sekarang saya sedang mengembalikannya lagi

    • Hal seperti ini pernah terjadi sebelumnya saat rilis model baru. Ketika Opus 4.7 keluar juga, ia “sedang bekerja” selama lebih dari 20 menit, jadi saya hentikan sepenuhnya dan menunggu sampai hari berikutnya
      Masalahnya hilang dengan sendirinya
  • Poin pentingnya ini. “Sonnet 5 adalah peningkatan dari Sonnet 4.6, tetapi menggunakan tokenizer yang diperbarui yang mengubah cara model memproses teks untuk meningkatkan performa. Ini mirip dengan perubahan tokenizer yang diperkenalkan di Claude Opus 4.7. Konsekuensinya, input yang sama bisa dipetakan menjadi lebih banyak token. Tergantung jenis kontennya, kira-kira 1,0–1,35 kali. Harga peluncuran ditetapkan agar peralihan ke Sonnet 5 kurang lebih netral dari sisi biaya”

    • Jadi apakah itu berarti setelah periode peluncuran, harga akan diatur sehingga Sonnet 5 menjadi 100–135% lebih mahal?
    • “Ada dua cara menaikkan harga. (1) menaikkan harga per token atau (2) meningkatkan jumlah token yang kami hasilkan atas nama pengguna. Kami berjanji tidak akan melakukan (2) dengan niat buruk. Kami berjanji”