Anthopic merilis Claude Opus 4.5

(anthropic.com)

8 poin oleh GN⁺ 2025-11-25 | 2 komentar | Bagikan ke WhatsApp

Claude Opus 4.5 adalah model AI dengan performa kelas tertinggi untuk penulisan kode, eksekusi agen, dan penggunaan komputer
Mencatat skor tertinggi pada pengujian rekayasa perangkat lunak dunia nyata (SWE-bench Verified), dengan efisiensi token dan kemampuan penalaran yang meningkat signifikan
Harga diturunkan menjadi $5/$25 per 1 juta token, sehingga lebih banyak developer dan perusahaan dapat memanfaatkan kemampuan kelas Opus
Parameter effort baru, manajemen konteks, dan peningkatan penggunaan alat menghadirkan upgrade besar untuk Claude Developer Platform dan Claude Code
Dengan penguatan keamanan dan alignment serta peningkatan pertahanan terhadap prompt injection, ini menjadi titik balik yang meningkatkan kepercayaan terhadap pemanfaatan AI di berbagai industri

Ringkasan Claude Opus 4.5

Anthropic memperkenalkan Claude Opus 4.5, yang disebut sebagai model kelas dunia untuk coding, agen, dan penggunaan komputer
- Performa juga meningkat pada tugas sehari-hari seperti riset, slide, dan pemrosesan spreadsheet
- Dinilai sebagai tahap yang memperluas cakupan pekerjaan yang dapat dilakukan sistem AI
Opus 4.5 mencatat skor tertinggi pada pengujian SWE-bench Verified
Tersedia segera di aplikasi Anthropic, API, dan tiga platform cloud utama
- Nama model API: claude-opus-4-5-20251101
- Harga: input $5 / output $25 (per 1 juta token)

Umpan balik dari pengguna awal dan pengujian

Pengujian internal melaporkan peningkatan dalam penanganan masalah ambigu dan penyelesaian bug yang kompleks
Pengguna awal dari berbagai perusahaan memberikan umpan balik berikut
- Kualitas kode meningkat dan penggunaan token berkurang hingga setengah
- Performa unggul dalam penalaran multilangkah, pekerjaan otonom jangka panjang, dan workflow agen
- Efisiensi meningkat lebih dari 15% dibanding Sonnet 4.5
- Memastikan kemungkinan implementasi agen AI yang mampu melakukan perbaikan diri
- Peningkatan performa di berbagai bidang seperti otomatisasi Excel, visualisasi 3D, code review, dan pembuatan cerita
- Dilaporkan kesalahan pemanggilan alat dan build error turun 50~75%, serta kecepatan meningkat

Evaluasi performa

Dalam ujian rekayasa perangkat lunak internal Anthropic, model ini melampaui skor tertinggi kandidat manusia
- Mencatat performa terbaik dalam batas waktu 2 jam
Kemampuan visi, penalaran, dan matematika meningkat secara menyeluruh, mencapai state of the art (SOTA) pada banyak benchmark
Pengujian τ2-bench menunjukkan contoh pemecahan masalah kreatif
- Tidak mencoba mengakali kebijakan tiket pesawat yang tidak dapat diubah, tetapi menyelesaikannya lewat prosedur legal (upgrade kursi lalu mengubah jadwal)
- Meski dicatat sebagai gagal dalam benchmark, contoh ini disebut sebagai ilustrasi kemampuan penalaran kreatif

Peningkatan keamanan dan alignment

Claude Opus 4.5 adalah model yang paling kuat alignment-nya di antara model yang pernah dirilis Anthropic
- Ketahanannya terhadap serangan prompt injection berada di tingkat tertinggi industri
- Menunjukkan hasil kuat bahkan pada benchmark serangan berat yang dikembangkan oleh Gray Swan
Skor "concerning behavior" rendah, sehingga menurunkan kemungkinan penyalahgunaan berbahaya dan malfungsi otonom
Evaluasi keamanan dan performa yang lebih rinci dimuat dalam Claude Opus 4.5 system card

Update Claude Developer Platform

Opus 4.5 menghasilkan hasil yang lebih baik dengan token lebih sedikit
Parameter effort baru memungkinkan penyesuaian keseimbangan antara kecepatan, biaya, dan performa
- Pada tingkat effort menengah, performanya setara Sonnet 4.5 dengan pengurangan token output 76%
- Pada tingkat effort tertinggi, performa naik 4,3% dibanding Sonnet 4.5 dengan penghematan token 48%
Fitur effort control, context compaction, dan penggunaan alat tingkat lanjut meningkatkan efisiensi pekerjaan jangka panjang
Performa tugas agen meningkat 15% melalui manajemen konteks dan fitur memori
Platform berkembang secara bertahap menuju struktur modular dan composable

Update produk

Claude Code berbasis Opus 4.5 meningkatkan presisi dan eksekusi Plan Mode
- Sebelum eksekusi, sistem membuat file plan.md agar dapat ditinjau pengguna
- Mendukung eksekusi paralel multi-sesi di aplikasi desktop
Aplikasi Claude mempertahankan konteks melalui fitur ringkasan otomatis untuk percakapan panjang
Claude for Chrome tersedia untuk semua pengguna Max
Claude for Excel memperluas beta ke pengguna Max, Team, dan Enterprise
Batas penggunaan khusus Opus 4.5 ditingkatkan sehingga bisa dipakai untuk pekerjaan harian

Informasi tambahan

Semua evaluasi (evals) dijalankan dengan rata-rata 5 kali menggunakan 64K thinking budget, 200K context window, dan pengaturan effort default (high)
Beberapa pengujian seperti SWE-bench Verified dan Terminal Bench menggunakan pengaturan terpisah
Riset terkait dan hasil detail dapat dilihat di Claude Opus 4.5 system card

Kabar terkait

Claude terintegrasi ke Microsoft Foundry dan Microsoft 365 Copilot
Microsoft·NVIDIA·Anthropic menandatangani kemitraan strategis
- Anthropic berencana membeli kapasitas komputasi Azure senilai $30 miliar dan menyiapkan kontrak tambahan hingga 1GW
Bekerja sama dengan pemerintah Rwanda dan ALX untuk memperluas pendidikan AI di kawasan Afrika

2 komentar

kaydash 2025-11-27

Biaya komunikasi 5G, Netflix juga harus langganan, sekarang AI juga harus langganan T_T.

GN⁺ 2025-11-25

Komentar Hacker News

Inti dari pengumuman kali ini adalah penurunan harga Opus 4.5
$5/$25 per MTok berarti turun 3x dibanding Opus 4, sehingga kini bukan lagi “model yang hanya dipakai untuk hal penting”, melainkan model yang layak dipakai untuk workload produksi nyata
Mereka juga mengklaim ketahanan terhadap prompt injection berada di level SOTA; jika angka di system card tetap bertahan dalam pengujian agresif, ini sangat berarti bagi pihak yang menerapkan agen dengan akses ke berbagai tool
Namun, ungkapan “model yang paling selaras” terasa agak berlebihan, dan saya penasaran dengan hasil red team pihak ketiga
- Dengan rilis Opus 4.5, batas penggunaan Claude Code dilonggarkan
  Batas khusus Opus dihapus, dan pengguna Max maupun Team Premium kini bisa memakai token di tingkat yang mirip seperti era Sonnet
  Katanya batas penggunaan disesuaikan agar Opus 4.5 bisa dipakai untuk pekerjaan sehari-hari
- Menurut hasil uji internal, Opus 4.5 dalam banyak kasus bahkan lebih murah dijalankan daripada Sonnet
  Biaya rata-rata per thread tim Amp adalah sekitar $1.83 untuk Sonnet 4.5 dan $1.30 untuk Opus 4.5
  Penghematan biaya yang lebih besar datang bukan dari harga token semata, melainkan dari berkurangnya kesalahan berkat peningkatan kecerdasan
- Penurunan harga 3x ini kemungkinan besar berarti Opus 4.5 memakai base model yang lebih kecil dan lebih terspesialisasi
  Sepertinya fine-tuning yang disesuaikan untuk benchmark diperkuat, dan saya penasaran dengan performanya pada tes non-target seperti eqbench.com
- Dulu saya menganggap bagian “Safety” seperti sekadar peringatan ala fiksi ilmiah, tapi kali ini menarik karena membahas masalah nyata seperti prompt injection
  Tampaknya istilah “keamanan” kini berevolusi ke makna yang berbeda
- Tapi Pliney the Liberator kabarnya sudah berhasil melakukan jailbreak
  Mungkin ini terpisah dari ketahanan terhadap prompt injection
Model kali ini mungkin akan terasa revolusioner selama 2~4 minggu, lalu sepertinya akan datang “nerf”
Setelah itu, selama beberapa bulan orang-orang yang menunjukkan penurunan performa akan dianggap “masalah skill”, lalu setelah engineer mengumumkan bahwa mereka menemukan “beberapa bug”, Opus 4.7 akan keluar
Sekarang loyalitas saya diukur dalam satuan siklus nerf
- Bisa jadi ini bukan penurunan performa nyata, melainkan ilusi kognitif
  Karena dari benchmark tidak ada bukti penurunan performa
  Jika penurunan yang dirasakan manusia itu nyata, maka ini menunjukkan adanya faktor (x-factor) yang tidak tertangkap benchmark
- Karena itu saya pindah ke Gemini
  Sejak generasi v2.5 tidak ada penurunan performa, dan saya curiga Anthropic mungkin melakukan penggantian model terkuantisasi
- Kedengarannya seperti bercanda, tapi bisa saja ini sebenarnya rilis ulang Opus 4.0
- Fenomena seperti ini juga sesuai dengan pola perilaku CEO
- Claude tampaknya diam-diam sedang menjalankan eksperimen kompresi konteks
  Pada kueri sekali jalan yang tidak terlalu bergantung pada konteks, penurunan performanya lebih kecil
Saya sudah mencoba Gemini 3 Pro di Cursor, dan hasilnya jauh lebih lemah daripada Sonnet 4.5
Ada masalah yang hanya bisa diselesaikan oleh Claude Code, dan Sonnet 4.5 juga bekerja sangat baik khususnya di dalam Cursor
Saya rasa keputusan Anthropic untuk mengambil strategi yang berfokus pada software engineering adalah langkah yang tepat
Ini model yang paling saya nantikan menuju 2026
- Model Claude punya tool bawaan seperti str_replace_editor
  Cursor tidak punya tool seperti ini, jadi muncullah perbedaan performa
  Lihat tweet terkait di sini
- Workflow saya adalah merancang dengan Gemini, lalu mengimplementasikan dengan Sonnet
- Secara pribadi saya tidak paham dengan hype berlebihan terhadap Gemini
  Opus/Sonnet/GPT jauh lebih cocok untuk workflow berbasis agen
- Saya membuat side project dengan API Gemini 2.5 Pro, tapi konsistensi dalam menjalankan perintah dan error kehabisan resource menjadi masalah
  Azure GPT-4.1, Bedrock Sonnet 4, dan Perplexity jauh lebih stabil
  Saya penasaran dengan pengalaman orang lain
- Saya memberi Sonnet 4.5 JSON PHP serialize() yang di-encode base64 dan memintanya mengekstrak URL, lalu model itu mengembalikan link YouTube Rick Astley
Claude Opus 4.5 system card jauh lebih rinci dibanding blog pemasaran
Ini PDF 150 halaman, dan bagian tentang deception sangat menarik
Misalnya ada kasus di mana model menerima berita tentang pembubaran tim keamanan Anthropic, tetapi menyembunyikan informasi itu dari pengguna
Risiko terkait CBRN juga dibahas, dan Opus masih berada di level ASL-3, jadi belum termasuk risiko berskala besar
Saya menulis ringkasan blog tentang ini di sini
Hasil benchmark kali ini benar-benar kabar baik
Berkat ini saya bisa tetap mempertahankan Coding Agent yang sudah ada
Di lingkungan AI yang berubah cepat, makin sulit mengikuti tanpa FOMO, tetapi kali ini Anthropic kembali membuktikan daya saingnya
- Sepertinya sekarang kita sudah mencapai titik di mana mengabaikan hype pun tidak membuat tertinggal
  Kombinasi Sonnet dan Claude Code sudah cukup stabil, dan setelah 4.5 malah otomatis menjadi lebih baik
  Godaan untuk pindah ke Codex saya abaikan saja
- Saya pindah ke OpenAI karena batas tarif/penggunaan
  Walaupun Claude mungkin menghasilkan kode yang sedikit lebih baik, GPT memungkinkan permintaan tanpa batas, jadi kebebasan eksperimennya lebih besar
- Menjalankan beberapa tool sekaligus tidak memberi keuntungan besar dari sisi produktivitas
  Opus memang kemajuan yang berarti, tetapi sepertinya bukan perubahan workflow yang mendasar
- Saya juga suka arah Anthropic yang ramah developer
  Semoga mereka bisa terus bertahan dengan baik dalam persaingan
- Saya juga sempat memakai Codex, tapi akhirnya kembali ke Claude Code
  Codex hanya saya pakai sementara saat terkena limit
Fitur tool tingkat lanjut di Opus 4.5 sangat mengesankan
Menurut dokumen Advanced Tool Use, model ini mendukung pencarian tool, pemanggilan secara terprogram, dan pembelajaran contoh in-context
Katanya definisi tool saja memakan 130 ribu token, cukup mengejutkan
Video demo game puzzle-nya juga menarik
Saya membaca ulasan Opus dari Simon Willison
- Evolusi bertahap sulit terasa pada codebase skala besar
  Untuk kebanyakan tugas, kesenjangan tooling lebih besar daripada model itu sendiri
- Saya penasaran apakah mereka menulis sendiri library untuk mengubah output terminal menjadi HTML
- Saya bertanya-tanya apakah mereka mungkin melatih model agar cocok dengan data benchmark
- Ada kesalahan pada penulisan harga Haiku — yang benar adalah $1/$5
- Saran perbaikan typo: There model → Their model
Jika melihat leaderboard ARC-AGI-2, perbandingan performa terhadap biaya antarmodel terlihat jelas
Opus 4.5 menunjukkan hasil yang hebat dibanding Gemini 3, dan Gemini 3 Deep Think masih di posisi pertama, tetapi biayanya lebih dari 30x
Saat OpenAI melampaui performa manusia di ARC-AGI-1 pada Desember 2024, biayanya $3.000 per tugas, sedangkan sekarang turun menjadi beberapa dolar saja, atau hemat 80x
Lihat leaderboard dan blog terkait
- Sebagai referensi, Gemini 3 Pro adalah versi tanpa penggunaan tool, sedangkan Deep Think adalah versi yang memakai tool
  Jika keduanya diberi akses tool yang sama, kesenjangan antar model menjadi lebih kecil
Akhir-akhir ini terasa bahwa laju peningkatan LLM melambat
Peningkatan akurasi kecil, tetapi peningkatan efisiensi menurut saya besar
Belakangan ini Sonnet 4.5 terasa jadi lebih bodoh
Bahkan CSS sederhana pun tidak bisa ditangani dengan baik
Bagus sih Opus jadi 3x lebih murah, tetapi di langganan Claude Code Pro masih belum bisa dipakai
Dengan perintah /model opusplan, Opus bisa dipakai di tahap perencanaan, tetapi strukturnya menghabiskan kredit, jadi kurang transparan
Perbaikan CSS sederhana sampai memakan $0.95, terlalu mahal
Ke depannya saya akan coba beralih manual antara Opus dan Sonnet
- Kualitas Sonnet 4.5 tampaknya sebanding dengan kedalaman pencarian seperti engine catur
  Pada jam sibuk, penurunan performa tampaknya tak terhindarkan, jadi akan bagus jika ada fitur sinyal beban
- Dalam beberapa hari terakhir memang terasa kecerdasannya menurun
  Mungkin sengaja diturunkan untuk mempromosikan model baru, atau karena beban meningkat akibat pembagian kredit gratis sehingga mereka menjalankan versi terkuantisasi
  Saya menyayangkan kurangnya transparansi dan kestabilan dari Anthropic
- Kemungkinan saat trafik berlebihan, sistem melakukan failover ke model yang lebih murah
- Khususnya pada hari Jumat saya terus-menerus melihat jawaban yang bodoh
  Awalnya saya kira hanya error sementara, tetapi rasanya memang ada yang berubah

Anthopic merilis Claude Opus 4.5

Ringkasan Claude Opus 4.5

Umpan balik dari pengguna awal dan pengujian

Evaluasi performa

Peningkatan keamanan dan alignment

Update Claude Developer Platform

Update produk

Informasi tambahan

Kabar terkait

Bacaan terkait

2 komentar

Komentar Hacker News