- Claude Opus 4.5 adalah model AI dengan performa kelas tertinggi untuk penulisan kode, eksekusi agen, dan penggunaan komputer
- Mencatat skor tertinggi pada pengujian rekayasa perangkat lunak dunia nyata (SWE-bench Verified), dengan efisiensi token dan kemampuan penalaran yang meningkat signifikan
- Harga diturunkan menjadi $5/$25 per 1 juta token, sehingga lebih banyak developer dan perusahaan dapat memanfaatkan kemampuan kelas Opus
- Parameter
effort baru, manajemen konteks, dan peningkatan penggunaan alat menghadirkan upgrade besar untuk Claude Developer Platform dan Claude Code
- Dengan penguatan keamanan dan alignment serta peningkatan pertahanan terhadap prompt injection, ini menjadi titik balik yang meningkatkan kepercayaan terhadap pemanfaatan AI di berbagai industri
Ringkasan Claude Opus 4.5
- Anthropic memperkenalkan Claude Opus 4.5, yang disebut sebagai model kelas dunia untuk coding, agen, dan penggunaan komputer
- Performa juga meningkat pada tugas sehari-hari seperti riset, slide, dan pemrosesan spreadsheet
- Dinilai sebagai tahap yang memperluas cakupan pekerjaan yang dapat dilakukan sistem AI
- Opus 4.5 mencatat skor tertinggi pada pengujian SWE-bench Verified
- Tersedia segera di aplikasi Anthropic, API, dan tiga platform cloud utama
- Nama model API:
claude-opus-4-5-20251101
- Harga: input $5 / output $25 (per 1 juta token)
Umpan balik dari pengguna awal dan pengujian
- Pengujian internal melaporkan peningkatan dalam penanganan masalah ambigu dan penyelesaian bug yang kompleks
- Pengguna awal dari berbagai perusahaan memberikan umpan balik berikut
- Kualitas kode meningkat dan penggunaan token berkurang hingga setengah
- Performa unggul dalam penalaran multilangkah, pekerjaan otonom jangka panjang, dan workflow agen
- Efisiensi meningkat lebih dari 15% dibanding Sonnet 4.5
- Memastikan kemungkinan implementasi agen AI yang mampu melakukan perbaikan diri
- Peningkatan performa di berbagai bidang seperti otomatisasi Excel, visualisasi 3D, code review, dan pembuatan cerita
- Dilaporkan kesalahan pemanggilan alat dan build error turun 50~75%, serta kecepatan meningkat
Evaluasi performa
- Dalam ujian rekayasa perangkat lunak internal Anthropic, model ini melampaui skor tertinggi kandidat manusia
- Mencatat performa terbaik dalam batas waktu 2 jam
- Kemampuan visi, penalaran, dan matematika meningkat secara menyeluruh, mencapai state of the art (SOTA) pada banyak benchmark
- Pengujian τ2-bench menunjukkan contoh pemecahan masalah kreatif
- Tidak mencoba mengakali kebijakan tiket pesawat yang tidak dapat diubah, tetapi menyelesaikannya lewat prosedur legal (upgrade kursi lalu mengubah jadwal)
- Meski dicatat sebagai gagal dalam benchmark, contoh ini disebut sebagai ilustrasi kemampuan penalaran kreatif
Peningkatan keamanan dan alignment
- Claude Opus 4.5 adalah model yang paling kuat alignment-nya di antara model yang pernah dirilis Anthropic
- Ketahanannya terhadap serangan prompt injection berada di tingkat tertinggi industri
- Menunjukkan hasil kuat bahkan pada benchmark serangan berat yang dikembangkan oleh Gray Swan
- Skor "concerning behavior" rendah, sehingga menurunkan kemungkinan penyalahgunaan berbahaya dan malfungsi otonom
- Evaluasi keamanan dan performa yang lebih rinci dimuat dalam Claude Opus 4.5 system card
Update Claude Developer Platform
- Opus 4.5 menghasilkan hasil yang lebih baik dengan token lebih sedikit
- Parameter
effort baru memungkinkan penyesuaian keseimbangan antara kecepatan, biaya, dan performa
- Pada tingkat effort menengah, performanya setara Sonnet 4.5 dengan pengurangan token output 76%
- Pada tingkat effort tertinggi, performa naik 4,3% dibanding Sonnet 4.5 dengan penghematan token 48%
- Fitur effort control, context compaction, dan penggunaan alat tingkat lanjut meningkatkan efisiensi pekerjaan jangka panjang
- Performa tugas agen meningkat 15% melalui manajemen konteks dan fitur memori
- Platform berkembang secara bertahap menuju struktur modular dan composable
Update produk
- Claude Code berbasis Opus 4.5 meningkatkan presisi dan eksekusi Plan Mode
- Sebelum eksekusi, sistem membuat file plan.md agar dapat ditinjau pengguna
- Mendukung eksekusi paralel multi-sesi di aplikasi desktop
- Aplikasi Claude mempertahankan konteks melalui fitur ringkasan otomatis untuk percakapan panjang
- Claude for Chrome tersedia untuk semua pengguna Max
- Claude for Excel memperluas beta ke pengguna Max, Team, dan Enterprise
- Batas penggunaan khusus Opus 4.5 ditingkatkan sehingga bisa dipakai untuk pekerjaan harian
Informasi tambahan
- Semua evaluasi (evals) dijalankan dengan rata-rata 5 kali menggunakan 64K thinking budget, 200K context window, dan pengaturan effort default (high)
- Beberapa pengujian seperti SWE-bench Verified dan Terminal Bench menggunakan pengaturan terpisah
- Riset terkait dan hasil detail dapat dilihat di Claude Opus 4.5 system card
Kabar terkait
- Claude terintegrasi ke Microsoft Foundry dan Microsoft 365 Copilot
- Microsoft·NVIDIA·Anthropic menandatangani kemitraan strategis
- Anthropic berencana membeli kapasitas komputasi Azure senilai $30 miliar dan menyiapkan kontrak tambahan hingga 1GW
- Bekerja sama dengan pemerintah Rwanda dan ALX untuk memperluas pendidikan AI di kawasan Afrika
Belum ada komentar.