12 poin oleh flyingsquirrel 14 hari lalu | 11 komentar | Bagikan ke WhatsApp

Anthropic telah merilis Claude Opus 4.8, versi peningkatan dari model unggulan mereka, Claude Opus. Berdasarkan versi sebelumnya, 4.7, model ini meningkatkan performa benchmark dan memperkuat kemampuan kolaborasi, sementara harganya tetap sama.

Peningkatan utama dan fitur

  • Peningkatan performa: Menunjukkan performa yang lebih unggul dibanding model sebelumnya maupun model pesaing seperti GPT-5.5 dalam coding, keterampilan agen, penalaran, dan tugas pengetahuan praktis secara menyeluruh.
  • Peningkatan kejujuran (Honesty): Memperbaiki masalah AI yang membuat klaim tanpa dasar atau terlalu cepat menarik kesimpulan. Opus 4.8 menandai sendiri bagian yang tidak pasti, dan kemungkinan melewatkan cacat dalam kode menjadi sekitar 4 kali lebih rendah dibanding model sebelumnya.
  • Kemampuan agen yang andal: Hasil uji awal menunjukkan bahwa saat menjalankan tugas kompleks multi-langkah, penilaiannya menjadi lebih tajam, serta menunjukkan kemampuan kolaborasi yang lebih baik seperti menangkap kesalahannya sendiri dan mengajukan keberatan ketika rencananya tidak valid.
  • Efisiensi biaya: Kecepatan 'Fast Mode' meningkat 2,5 kali, dan biayanya menjadi 3 kali lebih murah dibanding model sebelumnya.

Fitur baru yang dirilis bersama

  • Dynamic Workflows: Fitur research preview di Claude Code yang dapat menjalankan ratusan sub-agent paralel untuk menangani tugas kompleks seperti migrasi codebase skala besar.
  • Effort Control: Pengguna dapat memilih tingkat upaya yang akan dicurahkan Claude untuk suatu tugas. Pada pengaturan tinggi, Claude berpikir lebih dalam untuk memberikan respons berkualitas tinggi, sedangkan pada pengaturan rendah, Claude merespons lebih cepat.
  • Pembaruan Messages API: Kini entri sistem dapat dimasukkan ke dalam array pesan, sehingga instruksi dapat diperbarui di tengah pekerjaan tanpa merusak prompt cache.

Rencana ke depan

Anthropic sedang mengembangkan model yang memberikan performa kelas Opus dengan biaya lebih rendah, dan melalui Project Glasswing mereka menyiapkan kelas model baru dengan kecerdasan yang lebih tinggi daripada Opus (Claude Mythos). Saat ini model tersebut sedang menjalani pengujian keamanan di beberapa organisasi, dan dijadwalkan tersedia untuk semua pelanggan dalam beberapa minggu ke depan.

Harga dan panduan penggunaan

  • Mode umum: input $5 / 1M token, output $25 / 1M token (sama seperti Opus 4.7)
  • Fast Mode: input $10 / 1M token, output $50 / 1M token
  • Nama model: claude-opus-4-8

11 komentar

 
jimmy2056 14 hari lalu

Karena sering bikin saya jadi trial and error terus, sepertinya GPT yang stabil memang lebih baik.
Saya sempat pakai Claude yang $200, lalu pindah ke GPT $100 + Claude $100,
mulai bulan depan saya cuma mau pakai Claude $20. Toh cuma untuk review jadi tidak terlalu banyak dibutuhkan lagi, dan kalau kurang saya juga sudah pakai AGY versi berbayar, jadi tinggal pakai itu aja haha

 
slowandsnow 13 hari lalu

Kenapa Sonnet dan Haiku malah seperti ditinggalkan? Apa mereka terlalu cuma memikirkan persaingan dengan GPT?

 
jessyt 14 hari lalu

Varian fast mode dikabarkan berjalan 2,5 kali lebih cepat dibanding sebelumnya, dengan biaya 3 kali lebih murah.

 
hhcrux 14 hari lalu

Saya menurunkan langganan Claude ke Pro dan sedang pakai GPT, tapi karena ada pekerjaan yang sedang dikerjakan saya coba minta ulasan, lalu kuota penggunaan Pro habis ludes hanya dalam 10 menit dan berhenti.
Luar biasa, Claude!

 
dhkd63 14 hari lalu

Sepanjang pagi, dalam kasus saya ada skill yang dipakai untuk merapikan rapat atau transkrip rekaman, jadi saya coba menggunakannya di 4.8 dengan effort diubah ke ultracode, dan hasilnya ternyata cukup bagus, lebih dari yang saya kira. Secara pribadi, kesan yang saya rasakan adalah karakternya mirip codex. Efisiensi token memang masih kalah dibanding codex, tetapi context window-nya lega, dan karena workflow, tampilan sub-agent juga sedikit berubah; bagian ini juga saya suka.

 
dunward 14 hari lalu

4.7 benar-benar terasa sampai sulit dipakai, jadi saya sangat berharap 4.8 kali ini sudah membaik.

 
sixmen 14 hari lalu

Aku juga sempat berpikir jangan-jangan ini dirilis buru-buru karena banyak orang beralih ke ChatGPT/Codex..

 
sea715 14 hari lalu

Efek yang muncul kalau pakai /effort itu menarik, wkwk

 
codufdl 14 hari lalu

Saya sempat mencari ungkapan "buah yang menggantung rendah" dalam terjemahan komentar Hacker News di bawah ini, dan menemukan teks aslinya: low hanging juice to squeeze out of smaller models << Jadi, ini bisa ditafsirkan kira-kira sebagai: masih banyak "buah yang mudah dipetik", yaitu potensi yang masih sangat melimpah dan bisa digali dengan relatif mudah dari model-model yang lebih kecil.

 
iolothebard 14 hari lalu

Sudahlah, kamu sudah makan banyak, Nak~

 
GN⁺ 14 hari lalu
Komentar Hacker News
  • Sepertinya ini pertama kalinya ada kenaikan versi minor ketiga pada model frontier Anthropic
    Di sini, kenaikan 0.5 muncul tidak berurutan dan lonjakan performanya juga besar, jadi saya anggap sebagai mayor. Contohnya Sonnet 3.5 dan Opus 4.5
    Sekarang lini Opus 4.5 sudah punya penerus 4.6, 4.7, dan 4.8, dan bahkan menurut klaimnya pun tingkat peningkatan masing-masing cukup landai
    Dari pengalaman memakai 4.6/4.7, dibandingkan dengan ingatan saya terhadap 4.5, saya tidak bisa benar-benar menangkap kemampuan apa yang membaik; kesannya terlalu samar untuk dinilai
    Mungkin selera saya sudah jenuh, atau modelnya sudah lebih pintar daripada saya sehingga saya tidak akan lagi merasakan kemajuannya; di sisi lain, bisa juga peningkatannya memang bertahap tetapi cukup nyata sampai-sampai kalau workflow 4.7 saat ini dijalankan di 4.5 saya akan langsung sadar
    Posisi lab juga tampak serba salah. Kalau memang ada produk yang lebih kuat, saya ingin mereka merilisnya agar bisa dipakai, tetapi jika tren seperti ini terus berlanjut, bahkan kalau ada peningkatan nyata sekalipun, pengguna akhir akan makin sulit merasakannya dan bisa menganggapnya sebagai pergantian yang terlalu sering tanpa imbal hasil

    • Tidak akan mengejutkan kalau generasi model frontier berikutnya adalah yang terakhir
      Buah yang paling mudah dipetik dari model kecil masih tersisa dalam skala beberapa orde besaran
      Dalam 2–3 tahun, model 60–90B hampir pasti bisa melampaui level terbaik saat ini untuk tugas coding. Belum pasti rancangan persisnya seperti apa, dan kemungkinan tidak akan mudah
      Sebaliknya, jauh lebih tidak pasti apakah peningkatannya akan cukup berarti untuk membenarkan pelatihan model 1.2T
      Di sisi reasoning, melihat rilis GRAM baru-baru ini, ruang peningkatan reasoning yang bisa ditempelkan ke model kecil mungkin juga mencapai 4 orde besaran
      Google, OpenAI, dan Anthropic bisa melatih model berbasis GRAM 30B hanya dalam hitungan hari, dan model ini mungkin bisa melakukan reasoning lokal lebih baik daripada model terbaik saat ini yang melampaui 1T parameter. Lalu jika diperbesar menjadi model MoE sekitar 600B, juga dalam hitungan hari, pengetahuan umum luasnya bisa menyamai model terbaik
      Model dengan 1T+ parameter tidak bisa dilatih secepat itu. Seberapa besar peningkatan nyata dari GRAM adalah variabel besar, tetapi kecil kemungkinan dampaknya sepele atau tidak berarti
      Model besar pada dasarnya sudah bisa memberi tahu hampir apa saja. Selama masih berupa LLM, model itu tidak akan bisa benar tentang semuanya
      Tampaknya tidak banyak lagi yang bisa diperas dari kemampuan Gemini memberi tahu tinggi badan Ke$ha atau kapan terakhir kali Brittney Spears masuk penjara dengan akurat
    • 4.7 adalah versi pertama yang pada sebagian besar penggunaan membuat saya harus kembali ke 4.6, versi sebelumnya. Semoga 4.8 memperbaiki ini
    • Saya penasaran apakah ada yang merasakan peningkatan yang berarti atau mencolok dalam workflow pemrograman antara 4.5 dan 4.7
      Secara pribadi, saya merasa peningkatan produktivitas sejak rilis 4.5 lebih banyak datang dari perbaikan harness dan context window yang naik dari 200k ke 1M. Saya merasakannya di cc, cursor cli, codex, opencode, dan lain-lain
      “Kecerdasan murni” model atau kemampuannya mengambil keputusan yang baik terasa stagnan sejak 4.5. Mungkin 4.6 sedikit lebih baik, tetapi sulit dibedakan dari efek in-context learning pada window 1M, sedangkan 4.7 bagi saya dan rekan-rekan malah terasa seperti mundur dalam hal kebijaksanaan, terus-menerus mengambil keputusan yang lebih buruk dan lebih malas
    • Rilis inkremental yang lebih sering mungkin juga dimaksudkan untuk menyebarkan fitur baru yang dipakai Anthropic untuk mengendalikan biaya dan mengatur konsumsi sumber daya
      Saya kira di balik fitur kontrol baru yang terlihat oleh pengguna akhir, ada subkontrol internal yang jauh lebih rinci untuk melakukan penyesuaian meta per tipe pengguna
      Yang saya maksud adalah kontrol usaha yang lebih granular, “dynamic workflow”, dan kontrol kecepatan seperti “fast mode”. Dikemas seperti fitur pengguna, tetapi juga terlihat seperti tuas backend untuk menyeimbangkan biaya, margin, ARR, pertumbuhan pengguna, dan retensi demi memenuhi metrik utama dalam laporan kuartalan pasca-IPO
    • Dalam pengujian kami, 4.5/4.6 kira-kira serupa. Opus 4.7 memang lebih pintar, tetapi sulit dipakai sebagai produk karena berbagai masalah kepribadian
      Sejauh ini Opus 4.8 juga tampaknya bergerak ke arah itu. Terlalu lambat sampai tidak bisa dipakai, walau mungkin ini masalah rollout saat hari peluncuran. Pengujian penuh Opus 4.8 masih berlangsung
      Datanya ada di https://gertlabs.com/rankings
  • Sikap “pengguna akan merasa Opus 4.8 adalah peningkatan yang landai tetapi terasa dibanding versi sebelumnya” terasa menyegarkan
    Saya juga melihat bahwa adaptive thinking bisa dimatikan di UI web, dan itu bagus. Soalnya ada banyak kasus ketika thinking tidak bekerja dan membuat keluaran model jadi buruk
    Syukurlah akhirnya bisa dimatikan. Kalau sebenarnya dari dulu memang bisa dimatikan kapan saja, agak memalukan juga sih

    • Tombol itu sepertinya memang selalu ada, tetapi kalau dimatikan hasilnya tidak sesuai yang diinginkan. Itu sepenuhnya menonaktifkan thinking itu sendiri
    • Memang terasa segar, tetapi kali ini justru ungkapan itu mungkin terlalu meremehkan
      Saya terutama melihat web research, dan Opus 4.7 mundur dibanding Opus 4.6 di BrowseComp, dan begitu juga dalam penggunaan nyata
      Opus 4.8 jauh lebih baik daripada 4.7 maupun 4.6, dan pencarian web adalah salah satu use case inti untuk chatbot
    • Rilis-rilis kecil seperti ini membuat saya bertanya-tanya apakah mereka ingin membiasakan pengguna dengan siklus pembaruan yang lebih bertahap
      Semacam: penyedia model lain memberi pembaruan besar tiap x bulan, tetapi kami memberi pembaruan bertahap tiap x/2 bulan
    • Saat mengganti model dari 4.6 ke 4.8 extra, saya sempat merasa seperti kena bug palsu ketika mematikan Adaptive, tetapi setelah dicoba lagi tampaknya sekarang bekerja sesuai maksud
      Yang lebih penting bagi saya adalah bagaimana CC merespons flag 4.6 terkait thinking yang “khusus” itu, dan saat ini tampaknya tidak menimpa konfigurasi saya
    • Saya berharap UI web-nya membaik lebih banyak. Dari sisi nilai, saya lebih menyukai Anthropic daripada OpenAI, jadi saya ingin memakai produknya, tetapi mode thinking di ChatGPT jauh lebih baik daripada claude.ai
      Saya berharap perubahan kali ini bisa membuatnya naik ke level yang mirip, tetapi setelah dicoba sendiri ternyata belum
      Kalau di ChatGPT, untuk pertanyaan fakta sederhana yang mestinya cukup dicari sebentar lalu dijawab, Claude dengan model baru dan thinking high malah berkata “Pertanyaan yang bagus!” lalu memberikan jawaban yang sepenuhnya karangan. Tidak seperti GPT, ia tidak menyadari sendiri bahwa perlu melakukan pencarian, dan untuk fakta dasar pun harus secara eksplisit disuruh mencari
  • Bagian Claude Mythos Preview yang menyebut “berencana meluncurkan jenis model baru dengan kecerdasan lebih tinggi daripada Opus” tampak lebih menarik daripada rilis 4.8
    Sebagai bagian dari Project Glasswing, sejumlah kecil organisasi sedang menggunakannya untuk pekerjaan keamanan siber, dan dikatakan bahwa model pada tingkat ini memerlukan pengaman siber yang lebih kuat sebelum dirilis ke publik

    • Daripada “lebih menarik”, ada kecurigaan luas bahwa ini adalah jenis kabar buruk yang ditimbulkan sendiri seperti “Mythos terlalu berbahaya sehingga aksesnya tidak bisa diberikan kepada publik”, yang terasa seperti pemasaran khas Dario
      Fakta bahwa IPO semakin dekat juga jelas akan tercermin dalam pernyataan publik. Kalau mau adil, itu memang bagian dari tanggung jawabnya
      Bisa jadi alasan penundaan modelnya bukan karena “sedang dibuat aman”, melainkan karena “mereka tidak tahu cara meng-host ini dalam skala besar, atau dengan biaya yang efisien”
      GPT 5.5 tampaknya sudah sama mahirnya dengan Mythos dalam menemukan kerentanan
      Terakhir, orang non-ahli sangat meremehkan pentingnya harness dalam performa model. OpenHands sudah ada jauh lebih lama daripada Claude Code, tetapi Claude Code mengubah permainan berkat cara orkestrasi bantuannya yang cerdas. Mythos kemungkinan besar juga lebih dari sekadar model biasa
    • Dengan begini, sepertinya akses ke model terbesar akan dicabut dari Claude Pro. Untuk memakai model yang lebih besar daripada Opus, tampaknya setidaknya akan diwajibkan langganan Claude Max
    • Yang lebih menarik justru bagian yang menyebut mereka “sedang mengembangkan dan merilis model berbiaya lebih rendah yang menawarkan banyak kemampuan yang sama seperti Opus”
      Saat dibandingkan dengan model pesaing dari Tiongkok saat ini, Sonnet dan Haiku tampak cukup tertinggal dalam rasio harga terhadap performa
    • Catatan rilis Opus 4.7 mengatakan bahwa kemampuan keamanan sibernya sengaja diturunkan https://www.anthropic.com/news/claude-opus-4-7
      Kalau begitu, apakah mereka juga melakukan hal yang sama pada Mythos, dan Mythos yang akan kita terima nanti adalah versi yang sudah dilemahkan di aspek itu?
      Lebih tepatnya, mungkin Mythos dibagi menjadi dua versi, dan yang versi menakutkan akan tetap membutuhkan banyak prosedur administratif
    • Ini terasa seperti isyarat bahwa kecuali Anda seorang miliarder atau perusahaan bernilai puluhan miliar dolar, Anda mungkin hanya akan mendapat sesuatu seperti perintah slash Claude Code yang dibatasi dan dilemahkan, misalnya /mythos-security-audit
      Semoga orang biasa tidak dikeluarkan dari akses dengan cara seperti itu
  • Saya mencoba membuat pelikan yang mengendarai sepeda di level thinking low dan high
    https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
    Hasil high jelas lebih baik. Tidak seperti low, bentuk rangka sepedanya benar
    Hasil Opus 4.7 untuk perbandingan ada di sini: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087

  • Tolok ukur coding favorit saya untuk model frontier adalah menyuruhnya membuat game strategi waktu nyata sederhana dalam satu file (js/html/css).
    Claude Code + Opus 4.8 dalam mode ultracode benar-benar berhasil melakukannya, dan ini hasil terbaik sejauh ini.
    https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
    Prompt-nya adalah: “Buat game RTS yang sederhana tetapi berfungsi seperti WarCraft, StarCraft, dan Command & Conquer lama. Pemain harus bisa membangun bangunan, membuat unit, mengumpulkan sumber daya, dan membuka seluruh peta. AI atau multiplayer tidak diperlukan. Gunakan grafis yang sederhana tetapi enak dilihat. Tanpa suara. Implementasikan semuanya dengan HTML/CSS/JS dan buat dalam satu file. Boleh menggunakan library atau framework js/css pihak ketiga melalui CDN.”

    • Saya penasaran apakah ada semacam papan peringkat untuk pengujian ini. Jika Opus 4.8 dan GPT 5.5 masing-masing dinilai dari 100, kira-kira berapa nilainya?
    • Kodenya hampir terlihat seperti kode yang diminifikasi. Nama variabelnya pendek dan formatnya tampak seperti berusaha meminimalkan spasi; apakah model menulisnya sendiri dalam bentuk sepadat itu?
    • Berguna sekali karena prompt-nya juga dibagikan. Saya juga sudah menguji Claude dengan menyuruhnya membuat hal serupa.
      Menarik juga bahwa gaya visualnya cukup mirip dengan yang dibuatkan untuk saya.
    • Saya suka benchmark ini. Kalau hasilnya diunggah ke GitHub Pages, orang-orang bisa langsung mencoba gamenya.
    • Saya penasaran di mana kumpulan aplikasi benchmark seperti ini disimpan. Secara khusus, saya ingin melihat perbedaan biaya relatif antar model untuk use case seperti ini.
  • Saya penasaran siapa yang menelusuri rilis-rilis seperti ini lalu mencoba memilih cherry-pick metrik acak yang kemungkinan dipilih perusahaan lain agar model mereka terlihat keren.
    Rasanya ada sekitar 8 juta benchmark. Setiap kali ada rilis, tiap model tampak memilih 5–10 secara acak dan menunjukkan seolah-olah mereka menang di semua kecuali satu, seakan-akan bukan sedang berpura-pura bahwa mereka tidak mengacak benchmark yang kemungkinan besar sudah di-benchmax.

    • https://arena.ai/leaderboard terasa seperti penyedia peringkat yang cukup bagus.
      Saya tidak tahu metodologinya secara persis, tetapi saat memakai model Claude/GPT untuk pemrograman sehari-hari, hasil yang mereka laporkan sesuai dengan kesan kualitatif saya.
    • Menarik bahwa kali ini mereka hanya memasukkan 6 metrik. Opus 4.7 punya 12, dan 4.6 punya 13.
      Dari metrik yang dilaporkan di 4.7, untuk 4.8 mereka menghapus BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU, dan SWE-bench Verified. Empat yang terakhir hampir selalu disebut pada rilis Opus sebelumnya.
    • Semua benchmark perlu disaring sampai tingkat tertentu. Saya sendiri jarang memakainya.
      Sebenarnya apa arti “5% lebih pintar”? Pengalaman penggunaan saya bisa saja berbeda. Lebih baik langsung mencobanya sendiri.
      Saya tidak berpikir Anthropic secara internal menargetkan perbaikan benchmark tertentu. Itu lebih merupakan cara memvisualisasikan kemajuan; di internal mereka kemungkinan ada metrik yang jauh lebih kompleks.
    • Terkait ini, saya penasaran apakah ada agregator benchmark yang mengumpulkan semua benchmark ke dalam satu kisi besar.
    • Setidaknya mereka seperti OpenAI dalam hal tidak berpura-pura tidak punya pesaing, dan memang menampilkan model pesaing di setiap benchmark.
  • Dari hasil awal ArtificialAnalysis.ai, GPT 5.5 masih tampak punya performa-per-harga yang lebih baik.
    OpenAI memakai output token sekitar 50% lebih sedikit untuk menyelesaikan tugas.
    https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b

    • Saya mencoba Codex setiap kali ada versi baru, tetapi rasanya tidak cocok untuk saya. Jadi ini jelas tidak berlaku untuk semua orang.
      Sepertinya Claude harus menjadi jauh lebih mahal dulu sebelum saya pindah.
  • Senang melihat evaluasi tentang kemahiran kreatif di halaman 102 system card.
    Dalam pekerjaan kami, kami meminta beberapa AI frontier untuk mencoba merancang API yang dibutuhkan, lalu membandingkan Opus 4.7, GPT-5.5, dan lainnya. Opus 4.7 menghasilkan desain API yang paling kreatif dan paling cerdas, yang menjadi kejutan menyenangkan, terutama karena GPT-5.5 unggul di banyak benchmark coding.
    Saya merasa belum ada benchmark umum yang mengukur “kreativitas” dan “orisinalitas”, dan benchmark semacam itu dalam beberapa hal mungkin bertentangan dengan IFBench yang umum.
    Meski begitu, ini kemampuan yang sangat penting dalam desain sistem. Senang melihat Anthropic peduli pada hal ini, dan semoga juga muncul benchmark publik agar model lain bisa dibandingkan.
    https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

    • Menurut pengalaman saya juga, 4.6 terasa seperti coder yang lebih baik daripada 4.7. 4.7 punya pemikiran strategis yang jauh lebih baik, dan secara keseluruhan mempertahankan insting arsitektur yang lebih baik daripada 5.5.
      5.5 jauh lebih baik dalam coding daripada keduanya, tetapi lebih mahal. Jadi saya membagi peran: 4.7 untuk perencanaan/arsitektur, 4.6 untuk coding, lalu 5.5 untuk mengkritik dan memperbaiki.
    • Saya juga merasakan hal yang mirip. Untuk tugas seperti perencanaan, strategi, dan arsitektur, Opus 4.7 jauh lebih baik daripada GPT-5.5.
      GPT terasa seperti robot yang menerima instruksi lalu menjalankannya apa adanya, sedangkan Opus kadang benar-benar memberi ide bagus dan bahkan membantah ide buruk, hampir seperti manusia.
      Jadi sekarang saya membaginya menjadi Opus untuk perencanaan/arsitektur/strategi, dan GPT untuk coding murni.
      Dalam coding bergaya agen, kelonggaran token yang bisa diterima GPT yang lebih besar juga membantu.
  • Sayangnya, tampaknya Claude Code benar-benar rusak karena rilis backend kali ini atau versi CC baru
    Error “thinking blocks tidak dapat dimodifikasi” sedang membuat sesi yang berjalan lama jadi brick: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified

    • Masalah ini juga terjadi di branch stable 4.7
      Saya sempat mengatasinya dengan menyuruh Claude membuat skrip pemulihan untuk membatalkan sesi yang ter-brick, tapi hasilnya bisa berbeda tergantung lingkungan
      https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
    • Sepertinya update CC tidak diuji sebelum dirilis. Tim internal yang memakai produk atau umpan balik publik yang akhirnya berperan sebagai pengujian
    • Entah membantu atau tidak, tapi dalam beberapa kasus ringan saya bisa memulihkan dan lanjut dengan /rewind
    • Saya juga sama. Kejadian seperti ini tepat di saat model baru sedang di-rollout jelas tidak terlihat bagus
    • Itu bagian dari daya tarik bekerja dengan Claude. Setiap kali ada sesuatu yang baru dirilis, semua milikmu ikut rusak
  • Dalam pengujian saya, Opus 4.8 sedikit lebih buruk, dan harganya hampir 2 kali lebih mahal daripada Opus 4.7
    Saya kaget karena gagal di pengujian ekstraksi data. Dari 3 kali, 2 kali benar, tapi sekali justru mengembalikan suatu nilai secara acak sebagai null
    Saya masih bisa memahami kalau ia lebih sering gagal pada tugas trivia/pengetahuan yang spesifik domain. Rasanya model-model makin banyak dilatih ke use case yang lebih agentic ketimbang kecerdasan umum
    https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/

    • Entah kenapa semuanya jadi 2 kali lipat. Biaya 2 kali, waktu respons rata-rata 2 kali, token penalaran dan output juga 2 kali
      Saya sedang memeriksa ulang test harness, tapi ini model pertama yang menunjukkan pola seperti ini, jadi menurut saya kecil kemungkinan masalahnya ada di sisi saya
      Edit: sepertinya harness-nya benar, dan performanya sama pada tugas coding murni: https://i.snipboard.io/5xbpzY.jpg
    • Bukankah di postingan blog tertulis bahwa harganya sama seperti 4.7?
      “Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
      Saya penasaran, biaya 2 kali lipat itu terlihat dari mana
    • Rilis model baru sekarang jadi cara baru untuk menaikkan harga wkwk