Anthropic merilis Claude Opus 4.8
(anthropic.com)Anthropic telah merilis Claude Opus 4.8, versi peningkatan dari model unggulan mereka, Claude Opus. Berdasarkan versi sebelumnya, 4.7, model ini meningkatkan performa benchmark dan memperkuat kemampuan kolaborasi, sementara harganya tetap sama.
Peningkatan utama dan fitur
- Peningkatan performa: Menunjukkan performa yang lebih unggul dibanding model sebelumnya maupun model pesaing seperti GPT-5.5 dalam coding, keterampilan agen, penalaran, dan tugas pengetahuan praktis secara menyeluruh.
- Peningkatan kejujuran (Honesty): Memperbaiki masalah AI yang membuat klaim tanpa dasar atau terlalu cepat menarik kesimpulan. Opus 4.8 menandai sendiri bagian yang tidak pasti, dan kemungkinan melewatkan cacat dalam kode menjadi sekitar 4 kali lebih rendah dibanding model sebelumnya.
- Kemampuan agen yang andal: Hasil uji awal menunjukkan bahwa saat menjalankan tugas kompleks multi-langkah, penilaiannya menjadi lebih tajam, serta menunjukkan kemampuan kolaborasi yang lebih baik seperti menangkap kesalahannya sendiri dan mengajukan keberatan ketika rencananya tidak valid.
- Efisiensi biaya: Kecepatan 'Fast Mode' meningkat 2,5 kali, dan biayanya menjadi 3 kali lebih murah dibanding model sebelumnya.
Fitur baru yang dirilis bersama
- Dynamic Workflows: Fitur research preview di Claude Code yang dapat menjalankan ratusan sub-agent paralel untuk menangani tugas kompleks seperti migrasi codebase skala besar.
- Effort Control: Pengguna dapat memilih tingkat upaya yang akan dicurahkan Claude untuk suatu tugas. Pada pengaturan tinggi, Claude berpikir lebih dalam untuk memberikan respons berkualitas tinggi, sedangkan pada pengaturan rendah, Claude merespons lebih cepat.
- Pembaruan Messages API: Kini entri sistem dapat dimasukkan ke dalam array pesan, sehingga instruksi dapat diperbarui di tengah pekerjaan tanpa merusak prompt cache.
Rencana ke depan
Anthropic sedang mengembangkan model yang memberikan performa kelas Opus dengan biaya lebih rendah, dan melalui Project Glasswing mereka menyiapkan kelas model baru dengan kecerdasan yang lebih tinggi daripada Opus (Claude Mythos). Saat ini model tersebut sedang menjalani pengujian keamanan di beberapa organisasi, dan dijadwalkan tersedia untuk semua pelanggan dalam beberapa minggu ke depan.
Harga dan panduan penggunaan
- Mode umum: input $5 / 1M token, output $25 / 1M token (sama seperti Opus 4.7)
- Fast Mode: input $10 / 1M token, output $50 / 1M token
- Nama model:
claude-opus-4-8
11 komentar
Karena sering bikin saya jadi trial and error terus, sepertinya GPT yang stabil memang lebih baik.
Saya sempat pakai Claude yang $200, lalu pindah ke GPT $100 + Claude $100,
mulai bulan depan saya cuma mau pakai Claude $20. Toh cuma untuk review jadi tidak terlalu banyak dibutuhkan lagi, dan kalau kurang saya juga sudah pakai AGY versi berbayar, jadi tinggal pakai itu aja haha
Kenapa Sonnet dan Haiku malah seperti ditinggalkan? Apa mereka terlalu cuma memikirkan persaingan dengan GPT?
Varian fast mode dikabarkan berjalan 2,5 kali lebih cepat dibanding sebelumnya, dengan biaya 3 kali lebih murah.
Saya menurunkan langganan Claude ke Pro dan sedang pakai GPT, tapi karena ada pekerjaan yang sedang dikerjakan saya coba minta ulasan, lalu kuota penggunaan Pro habis ludes hanya dalam 10 menit dan berhenti.
Luar biasa, Claude!
Sepanjang pagi, dalam kasus saya ada skill yang dipakai untuk merapikan rapat atau transkrip rekaman, jadi saya coba menggunakannya di 4.8 dengan effort diubah ke ultracode, dan hasilnya ternyata cukup bagus, lebih dari yang saya kira. Secara pribadi, kesan yang saya rasakan adalah karakternya mirip codex. Efisiensi token memang masih kalah dibanding codex, tetapi context window-nya lega, dan karena workflow, tampilan sub-agent juga sedikit berubah; bagian ini juga saya suka.
4.7 benar-benar terasa sampai sulit dipakai, jadi saya sangat berharap 4.8 kali ini sudah membaik.
Aku juga sempat berpikir jangan-jangan ini dirilis buru-buru karena banyak orang beralih ke ChatGPT/Codex..
Efek yang muncul kalau pakai
/effortitu menarik, wkwkSaya sempat mencari ungkapan "buah yang menggantung rendah" dalam terjemahan komentar Hacker News di bawah ini, dan menemukan teks aslinya: low hanging juice to squeeze out of smaller models << Jadi, ini bisa ditafsirkan kira-kira sebagai: masih banyak "buah yang mudah dipetik", yaitu potensi yang masih sangat melimpah dan bisa digali dengan relatif mudah dari model-model yang lebih kecil.
Sudahlah, kamu sudah makan banyak, Nak~
Komentar Hacker News
Sepertinya ini pertama kalinya ada kenaikan versi minor ketiga pada model frontier Anthropic
Di sini, kenaikan 0.5 muncul tidak berurutan dan lonjakan performanya juga besar, jadi saya anggap sebagai mayor. Contohnya Sonnet 3.5 dan Opus 4.5
Sekarang lini Opus 4.5 sudah punya penerus 4.6, 4.7, dan 4.8, dan bahkan menurut klaimnya pun tingkat peningkatan masing-masing cukup landai
Dari pengalaman memakai 4.6/4.7, dibandingkan dengan ingatan saya terhadap 4.5, saya tidak bisa benar-benar menangkap kemampuan apa yang membaik; kesannya terlalu samar untuk dinilai
Mungkin selera saya sudah jenuh, atau modelnya sudah lebih pintar daripada saya sehingga saya tidak akan lagi merasakan kemajuannya; di sisi lain, bisa juga peningkatannya memang bertahap tetapi cukup nyata sampai-sampai kalau workflow 4.7 saat ini dijalankan di 4.5 saya akan langsung sadar
Posisi lab juga tampak serba salah. Kalau memang ada produk yang lebih kuat, saya ingin mereka merilisnya agar bisa dipakai, tetapi jika tren seperti ini terus berlanjut, bahkan kalau ada peningkatan nyata sekalipun, pengguna akhir akan makin sulit merasakannya dan bisa menganggapnya sebagai pergantian yang terlalu sering tanpa imbal hasil
Buah yang paling mudah dipetik dari model kecil masih tersisa dalam skala beberapa orde besaran
Dalam 2–3 tahun, model 60–90B hampir pasti bisa melampaui level terbaik saat ini untuk tugas coding. Belum pasti rancangan persisnya seperti apa, dan kemungkinan tidak akan mudah
Sebaliknya, jauh lebih tidak pasti apakah peningkatannya akan cukup berarti untuk membenarkan pelatihan model 1.2T
Di sisi reasoning, melihat rilis GRAM baru-baru ini, ruang peningkatan reasoning yang bisa ditempelkan ke model kecil mungkin juga mencapai 4 orde besaran
Google, OpenAI, dan Anthropic bisa melatih model berbasis GRAM 30B hanya dalam hitungan hari, dan model ini mungkin bisa melakukan reasoning lokal lebih baik daripada model terbaik saat ini yang melampaui 1T parameter. Lalu jika diperbesar menjadi model MoE sekitar 600B, juga dalam hitungan hari, pengetahuan umum luasnya bisa menyamai model terbaik
Model dengan 1T+ parameter tidak bisa dilatih secepat itu. Seberapa besar peningkatan nyata dari GRAM adalah variabel besar, tetapi kecil kemungkinan dampaknya sepele atau tidak berarti
Model besar pada dasarnya sudah bisa memberi tahu hampir apa saja. Selama masih berupa LLM, model itu tidak akan bisa benar tentang semuanya
Tampaknya tidak banyak lagi yang bisa diperas dari kemampuan Gemini memberi tahu tinggi badan Ke$ha atau kapan terakhir kali Brittney Spears masuk penjara dengan akurat
Secara pribadi, saya merasa peningkatan produktivitas sejak rilis 4.5 lebih banyak datang dari perbaikan harness dan context window yang naik dari 200k ke 1M. Saya merasakannya di cc, cursor cli, codex, opencode, dan lain-lain
“Kecerdasan murni” model atau kemampuannya mengambil keputusan yang baik terasa stagnan sejak 4.5. Mungkin 4.6 sedikit lebih baik, tetapi sulit dibedakan dari efek in-context learning pada window 1M, sedangkan 4.7 bagi saya dan rekan-rekan malah terasa seperti mundur dalam hal kebijaksanaan, terus-menerus mengambil keputusan yang lebih buruk dan lebih malas
Saya kira di balik fitur kontrol baru yang terlihat oleh pengguna akhir, ada subkontrol internal yang jauh lebih rinci untuk melakukan penyesuaian meta per tipe pengguna
Yang saya maksud adalah kontrol usaha yang lebih granular, “dynamic workflow”, dan kontrol kecepatan seperti “fast mode”. Dikemas seperti fitur pengguna, tetapi juga terlihat seperti tuas backend untuk menyeimbangkan biaya, margin, ARR, pertumbuhan pengguna, dan retensi demi memenuhi metrik utama dalam laporan kuartalan pasca-IPO
Sejauh ini Opus 4.8 juga tampaknya bergerak ke arah itu. Terlalu lambat sampai tidak bisa dipakai, walau mungkin ini masalah rollout saat hari peluncuran. Pengujian penuh Opus 4.8 masih berlangsung
Datanya ada di https://gertlabs.com/rankings
Sikap “pengguna akan merasa Opus 4.8 adalah peningkatan yang landai tetapi terasa dibanding versi sebelumnya” terasa menyegarkan
Saya juga melihat bahwa adaptive thinking bisa dimatikan di UI web, dan itu bagus. Soalnya ada banyak kasus ketika thinking tidak bekerja dan membuat keluaran model jadi buruk
Syukurlah akhirnya bisa dimatikan. Kalau sebenarnya dari dulu memang bisa dimatikan kapan saja, agak memalukan juga sih
Saya terutama melihat web research, dan Opus 4.7 mundur dibanding Opus 4.6 di BrowseComp, dan begitu juga dalam penggunaan nyata
Opus 4.8 jauh lebih baik daripada 4.7 maupun 4.6, dan pencarian web adalah salah satu use case inti untuk chatbot
Semacam: penyedia model lain memberi pembaruan besar tiap x bulan, tetapi kami memberi pembaruan bertahap tiap x/2 bulan
Yang lebih penting bagi saya adalah bagaimana CC merespons flag 4.6 terkait thinking yang “khusus” itu, dan saat ini tampaknya tidak menimpa konfigurasi saya
Saya berharap perubahan kali ini bisa membuatnya naik ke level yang mirip, tetapi setelah dicoba sendiri ternyata belum
Kalau di ChatGPT, untuk pertanyaan fakta sederhana yang mestinya cukup dicari sebentar lalu dijawab, Claude dengan model baru dan thinking high malah berkata “Pertanyaan yang bagus!” lalu memberikan jawaban yang sepenuhnya karangan. Tidak seperti GPT, ia tidak menyadari sendiri bahwa perlu melakukan pencarian, dan untuk fakta dasar pun harus secara eksplisit disuruh mencari
Bagian Claude Mythos Preview yang menyebut “berencana meluncurkan jenis model baru dengan kecerdasan lebih tinggi daripada Opus” tampak lebih menarik daripada rilis 4.8
Sebagai bagian dari Project Glasswing, sejumlah kecil organisasi sedang menggunakannya untuk pekerjaan keamanan siber, dan dikatakan bahwa model pada tingkat ini memerlukan pengaman siber yang lebih kuat sebelum dirilis ke publik
Fakta bahwa IPO semakin dekat juga jelas akan tercermin dalam pernyataan publik. Kalau mau adil, itu memang bagian dari tanggung jawabnya
Bisa jadi alasan penundaan modelnya bukan karena “sedang dibuat aman”, melainkan karena “mereka tidak tahu cara meng-host ini dalam skala besar, atau dengan biaya yang efisien”
GPT 5.5 tampaknya sudah sama mahirnya dengan Mythos dalam menemukan kerentanan
Terakhir, orang non-ahli sangat meremehkan pentingnya harness dalam performa model. OpenHands sudah ada jauh lebih lama daripada Claude Code, tetapi Claude Code mengubah permainan berkat cara orkestrasi bantuannya yang cerdas. Mythos kemungkinan besar juga lebih dari sekadar model biasa
Saat dibandingkan dengan model pesaing dari Tiongkok saat ini, Sonnet dan Haiku tampak cukup tertinggal dalam rasio harga terhadap performa
Kalau begitu, apakah mereka juga melakukan hal yang sama pada Mythos, dan Mythos yang akan kita terima nanti adalah versi yang sudah dilemahkan di aspek itu?
Lebih tepatnya, mungkin Mythos dibagi menjadi dua versi, dan yang versi menakutkan akan tetap membutuhkan banyak prosedur administratif
/mythos-security-auditSemoga orang biasa tidak dikeluarkan dari akses dengan cara seperti itu
Saya mencoba membuat pelikan yang mengendarai sepeda di level thinking low dan high
https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
Hasil high jelas lebih baik. Tidak seperti low, bentuk rangka sepedanya benar
Hasil Opus 4.7 untuk perbandingan ada di sini: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087
Stang itu memutar rangka, bukan roda depan. Stang seharusnya dipasang segaris dengan roda depan
Semoga 4.9 membaca komentar saya
https://www.gianlucagimini.it/portfolio-item/velocipedia/
Manusia juga bisa sangat buruk dalam menggambar sepeda
https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
Tolok ukur coding favorit saya untuk model frontier adalah menyuruhnya membuat game strategi waktu nyata sederhana dalam satu file (js/html/css).
Claude Code + Opus 4.8 dalam mode ultracode benar-benar berhasil melakukannya, dan ini hasil terbaik sejauh ini.
https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
Prompt-nya adalah: “Buat game RTS yang sederhana tetapi berfungsi seperti WarCraft, StarCraft, dan Command & Conquer lama. Pemain harus bisa membangun bangunan, membuat unit, mengumpulkan sumber daya, dan membuka seluruh peta. AI atau multiplayer tidak diperlukan. Gunakan grafis yang sederhana tetapi enak dilihat. Tanpa suara. Implementasikan semuanya dengan HTML/CSS/JS dan buat dalam satu file. Boleh menggunakan library atau framework js/css pihak ketiga melalui CDN.”
Menarik juga bahwa gaya visualnya cukup mirip dengan yang dibuatkan untuk saya.
Saya penasaran siapa yang menelusuri rilis-rilis seperti ini lalu mencoba memilih cherry-pick metrik acak yang kemungkinan dipilih perusahaan lain agar model mereka terlihat keren.
Rasanya ada sekitar 8 juta benchmark. Setiap kali ada rilis, tiap model tampak memilih 5–10 secara acak dan menunjukkan seolah-olah mereka menang di semua kecuali satu, seakan-akan bukan sedang berpura-pura bahwa mereka tidak mengacak benchmark yang kemungkinan besar sudah di-benchmax.
Saya tidak tahu metodologinya secara persis, tetapi saat memakai model Claude/GPT untuk pemrograman sehari-hari, hasil yang mereka laporkan sesuai dengan kesan kualitatif saya.
Dari metrik yang dilaporkan di 4.7, untuk 4.8 mereka menghapus BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU, dan SWE-bench Verified. Empat yang terakhir hampir selalu disebut pada rilis Opus sebelumnya.
Sebenarnya apa arti “5% lebih pintar”? Pengalaman penggunaan saya bisa saja berbeda. Lebih baik langsung mencobanya sendiri.
Saya tidak berpikir Anthropic secara internal menargetkan perbaikan benchmark tertentu. Itu lebih merupakan cara memvisualisasikan kemajuan; di internal mereka kemungkinan ada metrik yang jauh lebih kompleks.
Dari hasil awal ArtificialAnalysis.ai, GPT 5.5 masih tampak punya performa-per-harga yang lebih baik.
OpenAI memakai output token sekitar 50% lebih sedikit untuk menyelesaikan tugas.
https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b
Sepertinya Claude harus menjadi jauh lebih mahal dulu sebelum saya pindah.
Senang melihat evaluasi tentang kemahiran kreatif di halaman 102 system card.
Dalam pekerjaan kami, kami meminta beberapa AI frontier untuk mencoba merancang API yang dibutuhkan, lalu membandingkan Opus 4.7, GPT-5.5, dan lainnya. Opus 4.7 menghasilkan desain API yang paling kreatif dan paling cerdas, yang menjadi kejutan menyenangkan, terutama karena GPT-5.5 unggul di banyak benchmark coding.
Saya merasa belum ada benchmark umum yang mengukur “kreativitas” dan “orisinalitas”, dan benchmark semacam itu dalam beberapa hal mungkin bertentangan dengan IFBench yang umum.
Meski begitu, ini kemampuan yang sangat penting dalam desain sistem. Senang melihat Anthropic peduli pada hal ini, dan semoga juga muncul benchmark publik agar model lain bisa dibandingkan.
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
5.5 jauh lebih baik dalam coding daripada keduanya, tetapi lebih mahal. Jadi saya membagi peran: 4.7 untuk perencanaan/arsitektur, 4.6 untuk coding, lalu 5.5 untuk mengkritik dan memperbaiki.
GPT terasa seperti robot yang menerima instruksi lalu menjalankannya apa adanya, sedangkan Opus kadang benar-benar memberi ide bagus dan bahkan membantah ide buruk, hampir seperti manusia.
Jadi sekarang saya membaginya menjadi Opus untuk perencanaan/arsitektur/strategi, dan GPT untuk coding murni.
Dalam coding bergaya agen, kelonggaran token yang bisa diterima GPT yang lebih besar juga membantu.
Sayangnya, tampaknya Claude Code benar-benar rusak karena rilis backend kali ini atau versi CC baru
Error “thinking blocks tidak dapat dimodifikasi” sedang membuat sesi yang berjalan lama jadi brick: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified
stable4.7Saya sempat mengatasinya dengan menyuruh Claude membuat skrip pemulihan untuk membatalkan sesi yang ter-brick, tapi hasilnya bisa berbeda tergantung lingkungan
https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
/rewindDalam pengujian saya, Opus 4.8 sedikit lebih buruk, dan harganya hampir 2 kali lebih mahal daripada Opus 4.7
Saya kaget karena gagal di pengujian ekstraksi data. Dari 3 kali, 2 kali benar, tapi sekali justru mengembalikan suatu nilai secara acak sebagai null
Saya masih bisa memahami kalau ia lebih sering gagal pada tugas trivia/pengetahuan yang spesifik domain. Rasanya model-model makin banyak dilatih ke use case yang lebih agentic ketimbang kecerdasan umum
https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/
Saya sedang memeriksa ulang test harness, tapi ini model pertama yang menunjukkan pola seperti ini, jadi menurut saya kecil kemungkinan masalahnya ada di sisi saya
Edit: sepertinya harness-nya benar, dan performanya sama pada tugas coding murni: https://i.snipboard.io/5xbpzY.jpg
“Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
Saya penasaran, biaya 2 kali lipat itu terlihat dari mana