- Model AI terbaru dari Anthropic dengan kemampuan coding dan ketahanan kerja jangka panjang yang ditingkatkan, serta mendukung jendela konteks 1M token dalam versi beta
- Mencatat skor kelas atas industri di benchmark utama, dengan keunggulan sekitar 144 poin Elo dibanding GPT-5.2
- Performa diperkuat untuk tugas yang berfokus pada pekerjaan nyata seperti code review·debugging, pemrosesan codebase skala besar, serta analisis keuangan·penulisan dokumen
- Fitur kontrol pengembang seperti Adaptive thinking, context compaction, dan pengaturan effort ditambahkan agar lebih mudah mengoperasikan agen yang berjalan jangka panjang
- Dalam evaluasi keselamatan juga menunjukkan hasil dengan tingkat kesalahan·penyalahgunaan·over-refusal yang rendah, sehingga dinilai sebagai model yang mencapai performa tinggi sekaligus keamanan
Peningkatan utama Claude Opus 4.6
- Opus 4.6 adalah model dengan peningkatan kemampuan perencanaan, persistensi agen, dan pengelolaan kualitas kode dibanding versi sebelumnya
- Bekerja lebih stabil pada codebase skala besar, dengan kemampuan deteksi dan perbaikan kesalahan mandiri yang diperkuat
- Jendela konteks 1M token (beta) memungkinkan pemrosesan tugas panjang dan kompleks
- Kegunaan untuk pekerjaan sehari-hari juga diperluas, mencakup analisis keuangan, riset, dokumen, spreadsheet, dan pembuatan presentasi
- Di lingkungan Cowork, model dapat menjalankan multitasking secara otonom dan menangani pekerjaan kompleks atas nama pengguna
Benchmark dan evaluasi performa
- Meraih skor tertinggi di Terminal-Bench 2.0, dan juga memimpin di Humanity’s Last Exam di antara semua model frontier
- Pada evaluasi GDPval-AA, performanya sekitar 144 poin Elo di atas GPT-5.2 dan 190 poin lebih tinggi dari Opus 4.5
- Juga mencatat performa terbaik pada tes BrowseComp, dengan kemampuan penelusuran informasi online yang ditingkatkan
- Pada MRCR v2 (1M variant) memperoleh skor 76%, peningkatan besar dibanding 18.5% milik Sonnet 4.5
- Kemampuan mempertahankan konteks panjang dan melacak informasi ditingkatkan sehingga fenomena context rot berkurang
Pengalaman penggunaan awal dan masukan mitra
- Dalam pengujian engineering internal, kemampuan memecahkan masalah kompleks dan penilaian meningkat
- Untuk masalah sulit, model mengulang pemikiran mendalam untuk menghasilkan hasil yang lebih baik
- Pada tugas sederhana, pemikiran berlebihan bisa menyebabkan keterlambatan sehingga dapat diatur dengan parameter
/effort
- Mitra awal menilai Opus 4.6 unggul dalam kemampuan eksekusi otonom, penanganan permintaan kompleks, dan dukungan kolaborasi tim
- Menunjukkan performa presisi dalam penelusuran codebase besar, menjalankan subtugas paralel, dan mengidentifikasi blocker
- Akurasi tinggi dalam analisis konten hukum, keuangan, dan teknis (misalnya BigLaw Bench 90.2%)
- Dalam pengujian nyata, memberikan hasil lebih baik daripada Opus 4.5 pada 38 dari 40 investigasi keamanan siber
- Ada laporan kasus migrasi jutaan baris kode selesai dalam setengah waktu
Penguatan keselamatan dan keamanan
- Dalam audit perilaku otomatis, rasio perilaku tidak selaras seperti penipuan, menjilat, dan kerja sama untuk penyalahgunaan tergolong rendah
- Menjadi model Claude dengan tingkat over-refusal terendah
- Dilakukan evaluasi keselamatan baru terkait kesejahteraan pengguna, penolakan permintaan berisiko, dan deteksi perilaku berbahaya terselubung
- Melalui riset interpretabilitas, penyebab kerja internal model dianalisis dan potensi masalah dideteksi
- Seiring penguatan kemampuan keamanan siber, diperkenalkan 6 probe keamanan baru untuk memperkuat deteksi penyalahgunaan
- Untuk pemanfaatan defensif, model membantu deteksi dan patch kerentanan open source, dengan rencana pemblokiran penyalahgunaan secara real-time di masa depan
Pembaruan produk dan API
- Di Claude Developer Platform, fitur berikut ditambahkan
- Adaptive thinking: model secara otomatis menentukan apakah perlu berpikir mendalam sesuai situasi
- Level effort: tersedia empat tahap low, medium, high (default), dan max
- Context compaction (beta): saat percakapan menjadi panjang, konteks lama diringkas dan digantikan
- Dukungan konteks 1M token (beta) dan 128k output token
- Opsi US-only inference tersedia (biaya 1.1x)
- Claude Code menambahkan fitur agent teams, memungkinkan beberapa agen berkolaborasi secara paralel
- Claude in Excel meningkatkan kemampuan penataan data tidak terstruktur dan penanganan perubahan multilangkah
- Claude in PowerPoint (research preview) mengenali template slide, font, dan layout untuk menjaga konsistensi brand
Akses dan harga
- Opus 4.6 langsung tersedia di claude.ai, API, dan platform cloud utama
- Nama model API adalah
claude-opus-4-6, dengan harga $5/$25 per million tokens, sama seperti sebelumnya
- Untuk prompt di atas 200k token, berlaku tarif premium ($10/$37.50 per million tokens)
Kesimpulan
- Claude Opus 4.6 menghadirkan lompatan besar dalam pemrosesan konteks jangka panjang, pekerjaan agen otonom, dan kemampuan penalaran tingkat lanjut
- Sebagai model yang memperkuat performa, keselamatan, dan kendali pengembang sekaligus, model ini menetapkan standar baru bagi alat AI untuk penggunaan praktis
7 komentar
Pakai Max sih, entah kenapa makin banyak token yang dipakai makin terasa puas... kalau nggak dipakai malah sayang...
Sepertinya postingan di Reddit tentang limit pelanggan yang habis dengan kecepatan kilat sedang membanjir.
Karena masih ada pekerjaan yang sedang saya lakukan juga, jadi saya tetap pakai 4.5 saja
Katanya, selama periode terbatas akan diberikan kredit penggunaan tambahan senilai $50. Hehe
Huh, pelit banget.. Anthropic tolong hamburkan token dong..!!
Wah akhirnya~~~~
Saya berharap Sonnet 5, ternyata yang keluar Opus 4.6 haha
Komentar Hacker News
Rangka sepedanya agak miring, tapi pelikan itu sendiri luar biasa
Gambarnya bisa dilihat di sini
Saya langsung menyadari kedua kaki pelikan ada di sisi yang sama, lalu mengecek di Wikipedia dan memastikan bahwa aslinya tidak begitu
Penasaran apakah mereka juga bereksperimen dengan mengubah prompt berulang kali untuk mendapatkan hasil yang lebih realistis
Mereka sering salah pada struktur rangka atau proporsi geometris
Tautan
GPT‑5.3 Codex menunjukkan performa dominan dengan 77,3% di Terminal Bench
Mengejutkan bahwa rekor itu pecah hanya dalam 35 menit
Apakah mungkin setelah rilis model dijalankan pada performa puncak lalu kemudian diturunkan demi penghematan biaya?
Saya ingin mencobanya sendiri lalu berbagi pendapat
Mungkin kita sudah mencapai kondisi benchmark yang jenuh
Ini ringkasan catatan rilis Claude Code
Berisi berbagai pembaruan seperti penambahan Opus 4.6, kolaborasi multi-agent, pencatatan memori otomatis, ringkasan percakapan parsial, dan peningkatan VSCode
Jika melihat dokumentasi fitur memori, konsepnya tampak mirip dengan Knowledge artifact milik Google Antigravity
Saya rasa ada dua hal yang tercampur dalam diskusi ini
Pertama adalah profitabilitas berbasis harga per token, kedua adalah ekonomi siklus hidup model
Biaya inferensi bisa saja menguntungkan, tetapi keseluruhan program model masih bisa merugi
Pertanyaan sebenarnya adalah “berapa lama model harus tetap kompetitif agar secara ekonomi masuk akal”
Meski bukan yang terbaik, kalau sudah cukup bagus dan biaya pindahnya tinggi, produk itu bisa menguasai pasar
Pada tahap awal, menanggung rugi untuk mengamankan pasar di domain tertentu (misalnya coding) bisa jadi langkah yang masuk akal
Tapi paket yang penggunaan-nya 20 kali lebih besar terasa diragukan keberlanjutannya
Saya tidak yakin “renaissance vibe-coding” saat ini bisa bertahan dengan struktur biaya seperti itu
Melihat laba-rugi per tahun kurang tepat untuk karakter perusahaan AI
Inilah yang menopang booming coding berbasis agen saat ini
Mungkin memang sedikit disubsidi, tetapi dalam jangka panjang kemungkinan naik sekitar 2 kali lipat
Adanya jendela konteks 1M adalah peningkatan yang luar biasa dan saya sangat senang dengannya
Saya masih belum benar-benar memahami strategi Anthropic
Pemasarannya seperti mengejar pasar umum, tetapi kekuatan nyatanya justru berpusat pada coding
Untuk riset umum atau penelusuran informasi, ChatGPT dan Gemini jauh lebih dalam dan ekspresif
Mereka memakai pemasaran yang menonjolkan “konstitusi” atau “hak asasi manusia”, tetapi justru terasa paling transaksional
Meski begitu, untuk coding hasilnya luar biasa sehingga saya tetap membayar untuk memakainya
Teman-teman nonteknis saya juga pindah dari ChatGPT ke Claude, dan saya belum melihat ada yang kembali lagi
Delapan bulan lalu rasanya hanya layak dipakai lewat API, tetapi sekarang sudah jauh lebih baik
Saya pengguna bahasa Ceko, dan Claude suka mengarang kata, sementara Grok kadang malah menjawab dalam bahasa Rusia
Untuk coding bagus, tetapi untuk percakapan umum tidak memungkinkan
Ia bagus untuk pekerjaan berbasis agen atau penggunaan alat, tetapi saya tidak memakainya untuk pertanyaan harian
Opus 4.6 tidak muncul saat instalasi, tetapi setelah menjalankan ulang perintah pemasangan, modelnya muncul (v2.1.32)
Panduan instalasi
Saya penasaran apakah biaya operasional AI/LLM benar-benar sedang turun
Konsep “tim agen” memang keren, tetapi kalau banyak model dijalankan sekaligus biayanya terasa terlalu besar sehingga sulit realistis
OpenAI menurunkan harga o3 menjadi 1/5 lewat optimasi engineering, dan perusahaan lain juga mendapat penghematan serupa
Pernyataan lama bahwa “mereka rugi di setiap permintaan” tidak sesuai fakta
Seluruh perusahaan bisa rugi karena biaya R&D dan pelatihan, tetapi penggunaan API itu sendiri menguntungkan
Model terbuka seperti DeepSeek pun tetap menghasilkan untung dengan harga yang jauh lebih rendah
Misalnya Claude 4 (sekitar 400B parameter) jauh lebih mahal daripada DeepSeek V3 (680B)
Input Claude $1/M, output $5/M vs input DeepSeek $0.4/M, output $1.2/M
Selisih ini ada karena Anthropic harus memulihkan biaya pelatihan
Harga DeepSeek, Harga Claude
Jika hanya melihat pendapatan inferensi memang untung, tetapi jika melihat total biaya belum tentu begitu
Saya memakainya untuk membantu coding, tetapi sering perlu koreksi arah
Meski begitu, tetap jauh lebih murah daripada mempekerjakan tenaga ahli
Frasa “We build Claude with Claude” cukup menarik
Meski dibersihkan otomatis setelah 60 hari tidak aktif, jumlahnya terus bertambah
Selain menunjukkan bias tertentu, frasa itu sendiri tidak banyak berarti
Memakai produk sendiri adalah cara terbaik untuk meningkatkan kualitas
Itulah sebabnya wrapper bermunculan seperti sekarang, dan rasanya suatu hari akan terjadi insiden keamanan
Mereka sedang memberikan tambahan kredit $50 agar orang mencoba Opus 4.6
Bisa langsung diambil dari halaman penggunaan
Kemungkinan mereka memperkirakan kenaikan penggunaan token atau memang ingin mempromosikan model ini