Claude Opus 4.6 Dirilis

(anthropic.com)

20 poin oleh GN⁺ 2026-02-06 | 9 komentar | Bagikan ke WhatsApp

Model AI terbaru dari Anthropic dengan kemampuan coding dan ketahanan kerja jangka panjang yang ditingkatkan, serta mendukung jendela konteks 1M token dalam versi beta
Mencatat skor kelas atas industri di benchmark utama, dengan keunggulan sekitar 144 poin Elo dibanding GPT-5.2
Performa diperkuat untuk tugas yang berfokus pada pekerjaan nyata seperti code review·debugging, pemrosesan codebase skala besar, serta analisis keuangan·penulisan dokumen
Fitur kontrol pengembang seperti Adaptive thinking, context compaction, dan pengaturan effort ditambahkan agar lebih mudah mengoperasikan agen yang berjalan jangka panjang
Dalam evaluasi keselamatan juga menunjukkan hasil dengan tingkat kesalahan·penyalahgunaan·over-refusal yang rendah, sehingga dinilai sebagai model yang mencapai performa tinggi sekaligus keamanan

Peningkatan utama Claude Opus 4.6

Opus 4.6 adalah model dengan peningkatan kemampuan perencanaan, persistensi agen, dan pengelolaan kualitas kode dibanding versi sebelumnya
- Bekerja lebih stabil pada codebase skala besar, dengan kemampuan deteksi dan perbaikan kesalahan mandiri yang diperkuat
- Jendela konteks 1M token (beta) memungkinkan pemrosesan tugas panjang dan kompleks
Kegunaan untuk pekerjaan sehari-hari juga diperluas, mencakup analisis keuangan, riset, dokumen, spreadsheet, dan pembuatan presentasi
Di lingkungan Cowork, model dapat menjalankan multitasking secara otonom dan menangani pekerjaan kompleks atas nama pengguna

Benchmark dan evaluasi performa

Meraih skor tertinggi di Terminal-Bench 2.0, dan juga memimpin di Humanity’s Last Exam di antara semua model frontier
Pada evaluasi GDPval-AA, performanya sekitar 144 poin Elo di atas GPT-5.2 dan 190 poin lebih tinggi dari Opus 4.5
Juga mencatat performa terbaik pada tes BrowseComp, dengan kemampuan penelusuran informasi online yang ditingkatkan
Pada MRCR v2 (1M variant) memperoleh skor 76%, peningkatan besar dibanding 18.5% milik Sonnet 4.5
Kemampuan mempertahankan konteks panjang dan melacak informasi ditingkatkan sehingga fenomena context rot berkurang

Pengalaman penggunaan awal dan masukan mitra

Dalam pengujian engineering internal, kemampuan memecahkan masalah kompleks dan penilaian meningkat
- Untuk masalah sulit, model mengulang pemikiran mendalam untuk menghasilkan hasil yang lebih baik
- Pada tugas sederhana, pemikiran berlebihan bisa menyebabkan keterlambatan sehingga dapat diatur dengan parameter /effort
Mitra awal menilai Opus 4.6 unggul dalam kemampuan eksekusi otonom, penanganan permintaan kompleks, dan dukungan kolaborasi tim
- Menunjukkan performa presisi dalam penelusuran codebase besar, menjalankan subtugas paralel, dan mengidentifikasi blocker
- Akurasi tinggi dalam analisis konten hukum, keuangan, dan teknis (misalnya BigLaw Bench 90.2%)
- Dalam pengujian nyata, memberikan hasil lebih baik daripada Opus 4.5 pada 38 dari 40 investigasi keamanan siber
- Ada laporan kasus migrasi jutaan baris kode selesai dalam setengah waktu

Penguatan keselamatan dan keamanan

Dalam audit perilaku otomatis, rasio perilaku tidak selaras seperti penipuan, menjilat, dan kerja sama untuk penyalahgunaan tergolong rendah
Menjadi model Claude dengan tingkat over-refusal terendah
Dilakukan evaluasi keselamatan baru terkait kesejahteraan pengguna, penolakan permintaan berisiko, dan deteksi perilaku berbahaya terselubung
Melalui riset interpretabilitas, penyebab kerja internal model dianalisis dan potensi masalah dideteksi
Seiring penguatan kemampuan keamanan siber, diperkenalkan 6 probe keamanan baru untuk memperkuat deteksi penyalahgunaan
Untuk pemanfaatan defensif, model membantu deteksi dan patch kerentanan open source, dengan rencana pemblokiran penyalahgunaan secara real-time di masa depan

Pembaruan produk dan API

Di Claude Developer Platform, fitur berikut ditambahkan
- Adaptive thinking: model secara otomatis menentukan apakah perlu berpikir mendalam sesuai situasi
- Level effort: tersedia empat tahap low, medium, high (default), dan max
- Context compaction (beta): saat percakapan menjadi panjang, konteks lama diringkas dan digantikan
- Dukungan konteks 1M token (beta) dan 128k output token
- Opsi US-only inference tersedia (biaya 1.1x)
Claude Code menambahkan fitur agent teams, memungkinkan beberapa agen berkolaborasi secara paralel
Claude in Excel meningkatkan kemampuan penataan data tidak terstruktur dan penanganan perubahan multilangkah
Claude in PowerPoint (research preview) mengenali template slide, font, dan layout untuk menjaga konsistensi brand

Akses dan harga

Opus 4.6 langsung tersedia di claude.ai, API, dan platform cloud utama
Nama model API adalah claude-opus-4-6, dengan harga $5/$25 per million tokens, sama seperti sebelumnya
Untuk prompt di atas 200k token, berlaku tarif premium ($10/$37.50 per million tokens)

Kesimpulan

Claude Opus 4.6 menghadirkan lompatan besar dalam pemrosesan konteks jangka panjang, pekerjaan agen otonom, dan kemampuan penalaran tingkat lanjut
Sebagai model yang memperkuat performa, keselamatan, dan kendali pengembang sekaligus, model ini menetapkan standar baru bagi alat AI untuk penggunaan praktis

9 komentar

heim2 2026-02-06

Pakai Max sih, entah kenapa makin banyak token yang dipakai makin terasa puas... kalau nggak dipakai malah sayang...

duse0001 2026-02-06

Ternyata kabar penurunan harga yang beredar di internet tidak diterapkan ya huhu

wegaia 2026-02-06

Sepertinya postingan di Reddit tentang limit pelanggan yang habis dengan kecepatan kilat sedang membanjir.
Karena masih ada pekerjaan yang sedang saya lakukan juga, jadi saya tetap pakai 4.5 saja

xguru 2026-02-06

Katanya, selama periode terbatas akan diberikan kredit penggunaan tambahan senilai $50. Hehe

duse0001 2026-02-06

Saya berharap jika harga API turun, batas mingguan akan ikut naik secara alami, tapi sayangnya tidak begitu T_T Batas mingguan paket 200 dolar tidak terlalu longgar..

princox 2026-02-06

Huh, pelit banget.. Anthropic tolong hamburkan token dong..!!

hmmhmmhm 2026-02-06

Wah akhirnya~~~~