Anthopic merilis Claude Opus 4.5
(anthropic.com)- Claude Opus 4.5 adalah model AI dengan performa kelas tertinggi untuk penulisan kode, eksekusi agen, dan penggunaan komputer
- Mencatat skor tertinggi pada pengujian rekayasa perangkat lunak dunia nyata (SWE-bench Verified), dengan efisiensi token dan kemampuan penalaran yang meningkat signifikan
- Harga diturunkan menjadi $5/$25 per 1 juta token, sehingga lebih banyak developer dan perusahaan dapat memanfaatkan kemampuan kelas Opus
- Parameter
effortbaru, manajemen konteks, dan peningkatan penggunaan alat menghadirkan upgrade besar untuk Claude Developer Platform dan Claude Code - Dengan penguatan keamanan dan alignment serta peningkatan pertahanan terhadap prompt injection, ini menjadi titik balik yang meningkatkan kepercayaan terhadap pemanfaatan AI di berbagai industri
Ringkasan Claude Opus 4.5
- Anthropic memperkenalkan Claude Opus 4.5, yang disebut sebagai model kelas dunia untuk coding, agen, dan penggunaan komputer
- Performa juga meningkat pada tugas sehari-hari seperti riset, slide, dan pemrosesan spreadsheet
- Dinilai sebagai tahap yang memperluas cakupan pekerjaan yang dapat dilakukan sistem AI
- Opus 4.5 mencatat skor tertinggi pada pengujian SWE-bench Verified
- Tersedia segera di aplikasi Anthropic, API, dan tiga platform cloud utama
- Nama model API:
claude-opus-4-5-20251101 - Harga: input $5 / output $25 (per 1 juta token)
- Nama model API:
Umpan balik dari pengguna awal dan pengujian
- Pengujian internal melaporkan peningkatan dalam penanganan masalah ambigu dan penyelesaian bug yang kompleks
- Pengguna awal dari berbagai perusahaan memberikan umpan balik berikut
- Kualitas kode meningkat dan penggunaan token berkurang hingga setengah
- Performa unggul dalam penalaran multilangkah, pekerjaan otonom jangka panjang, dan workflow agen
- Efisiensi meningkat lebih dari 15% dibanding Sonnet 4.5
- Memastikan kemungkinan implementasi agen AI yang mampu melakukan perbaikan diri
- Peningkatan performa di berbagai bidang seperti otomatisasi Excel, visualisasi 3D, code review, dan pembuatan cerita
- Dilaporkan kesalahan pemanggilan alat dan build error turun 50~75%, serta kecepatan meningkat
Evaluasi performa
- Dalam ujian rekayasa perangkat lunak internal Anthropic, model ini melampaui skor tertinggi kandidat manusia
- Mencatat performa terbaik dalam batas waktu 2 jam
- Kemampuan visi, penalaran, dan matematika meningkat secara menyeluruh, mencapai state of the art (SOTA) pada banyak benchmark
- Pengujian τ2-bench menunjukkan contoh pemecahan masalah kreatif
- Tidak mencoba mengakali kebijakan tiket pesawat yang tidak dapat diubah, tetapi menyelesaikannya lewat prosedur legal (upgrade kursi lalu mengubah jadwal)
- Meski dicatat sebagai gagal dalam benchmark, contoh ini disebut sebagai ilustrasi kemampuan penalaran kreatif
Peningkatan keamanan dan alignment
- Claude Opus 4.5 adalah model yang paling kuat alignment-nya di antara model yang pernah dirilis Anthropic
- Ketahanannya terhadap serangan prompt injection berada di tingkat tertinggi industri
- Menunjukkan hasil kuat bahkan pada benchmark serangan berat yang dikembangkan oleh Gray Swan
- Skor "concerning behavior" rendah, sehingga menurunkan kemungkinan penyalahgunaan berbahaya dan malfungsi otonom
- Evaluasi keamanan dan performa yang lebih rinci dimuat dalam Claude Opus 4.5 system card
Update Claude Developer Platform
- Opus 4.5 menghasilkan hasil yang lebih baik dengan token lebih sedikit
- Parameter
effortbaru memungkinkan penyesuaian keseimbangan antara kecepatan, biaya, dan performa- Pada tingkat effort menengah, performanya setara Sonnet 4.5 dengan pengurangan token output 76%
- Pada tingkat effort tertinggi, performa naik 4,3% dibanding Sonnet 4.5 dengan penghematan token 48%
- Fitur effort control, context compaction, dan penggunaan alat tingkat lanjut meningkatkan efisiensi pekerjaan jangka panjang
- Performa tugas agen meningkat 15% melalui manajemen konteks dan fitur memori
- Platform berkembang secara bertahap menuju struktur modular dan composable
Update produk
- Claude Code berbasis Opus 4.5 meningkatkan presisi dan eksekusi Plan Mode
- Sebelum eksekusi, sistem membuat file plan.md agar dapat ditinjau pengguna
- Mendukung eksekusi paralel multi-sesi di aplikasi desktop
- Aplikasi Claude mempertahankan konteks melalui fitur ringkasan otomatis untuk percakapan panjang
- Claude for Chrome tersedia untuk semua pengguna Max
- Claude for Excel memperluas beta ke pengguna Max, Team, dan Enterprise
- Batas penggunaan khusus Opus 4.5 ditingkatkan sehingga bisa dipakai untuk pekerjaan harian
Informasi tambahan
- Semua evaluasi (evals) dijalankan dengan rata-rata 5 kali menggunakan 64K thinking budget, 200K context window, dan pengaturan effort default (high)
- Beberapa pengujian seperti SWE-bench Verified dan Terminal Bench menggunakan pengaturan terpisah
- Riset terkait dan hasil detail dapat dilihat di Claude Opus 4.5 system card
Kabar terkait
- Claude terintegrasi ke Microsoft Foundry dan Microsoft 365 Copilot
- Microsoft·NVIDIA·Anthropic menandatangani kemitraan strategis
- Anthropic berencana membeli kapasitas komputasi Azure senilai $30 miliar dan menyiapkan kontrak tambahan hingga 1GW
- Bekerja sama dengan pemerintah Rwanda dan ALX untuk memperluas pendidikan AI di kawasan Afrika
2 komentar
Biaya komunikasi 5G, Netflix juga harus langganan, sekarang AI juga harus langganan T_T.
Komentar Hacker News
Inti dari pengumuman kali ini adalah penurunan harga Opus 4.5
$5/$25 per MTok berarti turun 3x dibanding Opus 4, sehingga kini bukan lagi “model yang hanya dipakai untuk hal penting”, melainkan model yang layak dipakai untuk workload produksi nyata
Mereka juga mengklaim ketahanan terhadap prompt injection berada di level SOTA; jika angka di system card tetap bertahan dalam pengujian agresif, ini sangat berarti bagi pihak yang menerapkan agen dengan akses ke berbagai tool
Namun, ungkapan “model yang paling selaras” terasa agak berlebihan, dan saya penasaran dengan hasil red team pihak ketiga
Batas khusus Opus dihapus, dan pengguna Max maupun Team Premium kini bisa memakai token di tingkat yang mirip seperti era Sonnet
Katanya batas penggunaan disesuaikan agar Opus 4.5 bisa dipakai untuk pekerjaan sehari-hari
Biaya rata-rata per thread tim Amp adalah sekitar $1.83 untuk Sonnet 4.5 dan $1.30 untuk Opus 4.5
Penghematan biaya yang lebih besar datang bukan dari harga token semata, melainkan dari berkurangnya kesalahan berkat peningkatan kecerdasan
Sepertinya fine-tuning yang disesuaikan untuk benchmark diperkuat, dan saya penasaran dengan performanya pada tes non-target seperti eqbench.com
Tampaknya istilah “keamanan” kini berevolusi ke makna yang berbeda
Mungkin ini terpisah dari ketahanan terhadap prompt injection
Model kali ini mungkin akan terasa revolusioner selama 2~4 minggu, lalu sepertinya akan datang “nerf”
Setelah itu, selama beberapa bulan orang-orang yang menunjukkan penurunan performa akan dianggap “masalah skill”, lalu setelah engineer mengumumkan bahwa mereka menemukan “beberapa bug”, Opus 4.7 akan keluar
Sekarang loyalitas saya diukur dalam satuan siklus nerf
Karena dari benchmark tidak ada bukti penurunan performa
Jika penurunan yang dirasakan manusia itu nyata, maka ini menunjukkan adanya faktor (x-factor) yang tidak tertangkap benchmark
Sejak generasi v2.5 tidak ada penurunan performa, dan saya curiga Anthropic mungkin melakukan penggantian model terkuantisasi
Pada kueri sekali jalan yang tidak terlalu bergantung pada konteks, penurunan performanya lebih kecil
Saya sudah mencoba Gemini 3 Pro di Cursor, dan hasilnya jauh lebih lemah daripada Sonnet 4.5
Ada masalah yang hanya bisa diselesaikan oleh Claude Code, dan Sonnet 4.5 juga bekerja sangat baik khususnya di dalam Cursor
Saya rasa keputusan Anthropic untuk mengambil strategi yang berfokus pada software engineering adalah langkah yang tepat
Ini model yang paling saya nantikan menuju 2026
str_replace_editorCursor tidak punya tool seperti ini, jadi muncullah perbedaan performa
Lihat tweet terkait di sini
Opus/Sonnet/GPT jauh lebih cocok untuk workflow berbasis agen
Azure GPT-4.1, Bedrock Sonnet 4, dan Perplexity jauh lebih stabil
Saya penasaran dengan pengalaman orang lain
Claude Opus 4.5 system card jauh lebih rinci dibanding blog pemasaran
Ini PDF 150 halaman, dan bagian tentang deception sangat menarik
Misalnya ada kasus di mana model menerima berita tentang pembubaran tim keamanan Anthropic, tetapi menyembunyikan informasi itu dari pengguna
Risiko terkait CBRN juga dibahas, dan Opus masih berada di level ASL-3, jadi belum termasuk risiko berskala besar
Saya menulis ringkasan blog tentang ini di sini
Hasil benchmark kali ini benar-benar kabar baik
Berkat ini saya bisa tetap mempertahankan Coding Agent yang sudah ada
Di lingkungan AI yang berubah cepat, makin sulit mengikuti tanpa FOMO, tetapi kali ini Anthropic kembali membuktikan daya saingnya
Kombinasi Sonnet dan Claude Code sudah cukup stabil, dan setelah 4.5 malah otomatis menjadi lebih baik
Godaan untuk pindah ke Codex saya abaikan saja
Walaupun Claude mungkin menghasilkan kode yang sedikit lebih baik, GPT memungkinkan permintaan tanpa batas, jadi kebebasan eksperimennya lebih besar
Opus memang kemajuan yang berarti, tetapi sepertinya bukan perubahan workflow yang mendasar
Semoga mereka bisa terus bertahan dengan baik dalam persaingan
Codex hanya saya pakai sementara saat terkena limit
Fitur tool tingkat lanjut di Opus 4.5 sangat mengesankan
Menurut dokumen Advanced Tool Use, model ini mendukung pencarian tool, pemanggilan secara terprogram, dan pembelajaran contoh in-context
Katanya definisi tool saja memakan 130 ribu token, cukup mengejutkan
Video demo game puzzle-nya juga menarik
Saya membaca ulasan Opus dari Simon Willison
Untuk kebanyakan tugas, kesenjangan tooling lebih besar daripada model itu sendiri
There model→Their modelJika melihat leaderboard ARC-AGI-2, perbandingan performa terhadap biaya antarmodel terlihat jelas
Opus 4.5 menunjukkan hasil yang hebat dibanding Gemini 3, dan Gemini 3 Deep Think masih di posisi pertama, tetapi biayanya lebih dari 30x
Saat OpenAI melampaui performa manusia di ARC-AGI-1 pada Desember 2024, biayanya $3.000 per tugas, sedangkan sekarang turun menjadi beberapa dolar saja, atau hemat 80x
Lihat leaderboard dan blog terkait
Jika keduanya diberi akses tool yang sama, kesenjangan antar model menjadi lebih kecil
Akhir-akhir ini terasa bahwa laju peningkatan LLM melambat
Peningkatan akurasi kecil, tetapi peningkatan efisiensi menurut saya besar
Belakangan ini Sonnet 4.5 terasa jadi lebih bodoh
Bahkan CSS sederhana pun tidak bisa ditangani dengan baik
Bagus sih Opus jadi 3x lebih murah, tetapi di langganan Claude Code Pro masih belum bisa dipakai
Dengan perintah
/model opusplan, Opus bisa dipakai di tahap perencanaan, tetapi strukturnya menghabiskan kredit, jadi kurang transparanPerbaikan CSS sederhana sampai memakan $0.95, terlalu mahal
Ke depannya saya akan coba beralih manual antara Opus dan Sonnet
Pada jam sibuk, penurunan performa tampaknya tak terhindarkan, jadi akan bagus jika ada fitur sinyal beban
Mungkin sengaja diturunkan untuk mempromosikan model baru, atau karena beban meningkat akibat pembagian kredit gratis sehingga mereka menjalankan versi terkuantisasi
Saya menyayangkan kurangnya transparansi dan kestabilan dari Anthropic
Awalnya saya kira hanya error sementara, tetapi rasanya memang ada yang berubah