8 poin oleh GN⁺ 2025-11-25 | 2 komentar | Bagikan ke WhatsApp
  • Claude Opus 4.5 adalah model AI dengan performa kelas tertinggi untuk penulisan kode, eksekusi agen, dan penggunaan komputer
  • Mencatat skor tertinggi pada pengujian rekayasa perangkat lunak dunia nyata (SWE-bench Verified), dengan efisiensi token dan kemampuan penalaran yang meningkat signifikan
  • Harga diturunkan menjadi $5/$25 per 1 juta token, sehingga lebih banyak developer dan perusahaan dapat memanfaatkan kemampuan kelas Opus
  • Parameter effort baru, manajemen konteks, dan peningkatan penggunaan alat menghadirkan upgrade besar untuk Claude Developer Platform dan Claude Code
  • Dengan penguatan keamanan dan alignment serta peningkatan pertahanan terhadap prompt injection, ini menjadi titik balik yang meningkatkan kepercayaan terhadap pemanfaatan AI di berbagai industri

Ringkasan Claude Opus 4.5

  • Anthropic memperkenalkan Claude Opus 4.5, yang disebut sebagai model kelas dunia untuk coding, agen, dan penggunaan komputer
    • Performa juga meningkat pada tugas sehari-hari seperti riset, slide, dan pemrosesan spreadsheet
    • Dinilai sebagai tahap yang memperluas cakupan pekerjaan yang dapat dilakukan sistem AI
  • Opus 4.5 mencatat skor tertinggi pada pengujian SWE-bench Verified
  • Tersedia segera di aplikasi Anthropic, API, dan tiga platform cloud utama
    • Nama model API: claude-opus-4-5-20251101
    • Harga: input $5 / output $25 (per 1 juta token)

Umpan balik dari pengguna awal dan pengujian

  • Pengujian internal melaporkan peningkatan dalam penanganan masalah ambigu dan penyelesaian bug yang kompleks
  • Pengguna awal dari berbagai perusahaan memberikan umpan balik berikut
    • Kualitas kode meningkat dan penggunaan token berkurang hingga setengah
    • Performa unggul dalam penalaran multilangkah, pekerjaan otonom jangka panjang, dan workflow agen
    • Efisiensi meningkat lebih dari 15% dibanding Sonnet 4.5
    • Memastikan kemungkinan implementasi agen AI yang mampu melakukan perbaikan diri
    • Peningkatan performa di berbagai bidang seperti otomatisasi Excel, visualisasi 3D, code review, dan pembuatan cerita
    • Dilaporkan kesalahan pemanggilan alat dan build error turun 50~75%, serta kecepatan meningkat

Evaluasi performa

  • Dalam ujian rekayasa perangkat lunak internal Anthropic, model ini melampaui skor tertinggi kandidat manusia
    • Mencatat performa terbaik dalam batas waktu 2 jam
  • Kemampuan visi, penalaran, dan matematika meningkat secara menyeluruh, mencapai state of the art (SOTA) pada banyak benchmark
  • Pengujian τ2-bench menunjukkan contoh pemecahan masalah kreatif
    • Tidak mencoba mengakali kebijakan tiket pesawat yang tidak dapat diubah, tetapi menyelesaikannya lewat prosedur legal (upgrade kursi lalu mengubah jadwal)
    • Meski dicatat sebagai gagal dalam benchmark, contoh ini disebut sebagai ilustrasi kemampuan penalaran kreatif

Peningkatan keamanan dan alignment

  • Claude Opus 4.5 adalah model yang paling kuat alignment-nya di antara model yang pernah dirilis Anthropic
    • Ketahanannya terhadap serangan prompt injection berada di tingkat tertinggi industri
    • Menunjukkan hasil kuat bahkan pada benchmark serangan berat yang dikembangkan oleh Gray Swan
  • Skor "concerning behavior" rendah, sehingga menurunkan kemungkinan penyalahgunaan berbahaya dan malfungsi otonom
  • Evaluasi keamanan dan performa yang lebih rinci dimuat dalam Claude Opus 4.5 system card

Update Claude Developer Platform

  • Opus 4.5 menghasilkan hasil yang lebih baik dengan token lebih sedikit
  • Parameter effort baru memungkinkan penyesuaian keseimbangan antara kecepatan, biaya, dan performa
    • Pada tingkat effort menengah, performanya setara Sonnet 4.5 dengan pengurangan token output 76%
    • Pada tingkat effort tertinggi, performa naik 4,3% dibanding Sonnet 4.5 dengan penghematan token 48%
  • Fitur effort control, context compaction, dan penggunaan alat tingkat lanjut meningkatkan efisiensi pekerjaan jangka panjang
  • Performa tugas agen meningkat 15% melalui manajemen konteks dan fitur memori
  • Platform berkembang secara bertahap menuju struktur modular dan composable

Update produk

  • Claude Code berbasis Opus 4.5 meningkatkan presisi dan eksekusi Plan Mode
    • Sebelum eksekusi, sistem membuat file plan.md agar dapat ditinjau pengguna
    • Mendukung eksekusi paralel multi-sesi di aplikasi desktop
  • Aplikasi Claude mempertahankan konteks melalui fitur ringkasan otomatis untuk percakapan panjang
  • Claude for Chrome tersedia untuk semua pengguna Max
  • Claude for Excel memperluas beta ke pengguna Max, Team, dan Enterprise
  • Batas penggunaan khusus Opus 4.5 ditingkatkan sehingga bisa dipakai untuk pekerjaan harian

Informasi tambahan

  • Semua evaluasi (evals) dijalankan dengan rata-rata 5 kali menggunakan 64K thinking budget, 200K context window, dan pengaturan effort default (high)
  • Beberapa pengujian seperti SWE-bench Verified dan Terminal Bench menggunakan pengaturan terpisah
  • Riset terkait dan hasil detail dapat dilihat di Claude Opus 4.5 system card

Kabar terkait

  • Claude terintegrasi ke Microsoft Foundry dan Microsoft 365 Copilot
  • Microsoft·NVIDIA·Anthropic menandatangani kemitraan strategis
    • Anthropic berencana membeli kapasitas komputasi Azure senilai $30 miliar dan menyiapkan kontrak tambahan hingga 1GW
  • Bekerja sama dengan pemerintah Rwanda dan ALX untuk memperluas pendidikan AI di kawasan Afrika

2 komentar

 
kaydash 2025-11-27

Biaya komunikasi 5G, Netflix juga harus langganan, sekarang AI juga harus langganan T_T.

 
GN⁺ 2025-11-25
Komentar Hacker News
  • Inti dari pengumuman kali ini adalah penurunan harga Opus 4.5
    $5/$25 per MTok berarti turun 3x dibanding Opus 4, sehingga kini bukan lagi “model yang hanya dipakai untuk hal penting”, melainkan model yang layak dipakai untuk workload produksi nyata
    Mereka juga mengklaim ketahanan terhadap prompt injection berada di level SOTA; jika angka di system card tetap bertahan dalam pengujian agresif, ini sangat berarti bagi pihak yang menerapkan agen dengan akses ke berbagai tool
    Namun, ungkapan “model yang paling selaras” terasa agak berlebihan, dan saya penasaran dengan hasil red team pihak ketiga

    • Dengan rilis Opus 4.5, batas penggunaan Claude Code dilonggarkan
      Batas khusus Opus dihapus, dan pengguna Max maupun Team Premium kini bisa memakai token di tingkat yang mirip seperti era Sonnet
      Katanya batas penggunaan disesuaikan agar Opus 4.5 bisa dipakai untuk pekerjaan sehari-hari
    • Menurut hasil uji internal, Opus 4.5 dalam banyak kasus bahkan lebih murah dijalankan daripada Sonnet
      Biaya rata-rata per thread tim Amp adalah sekitar $1.83 untuk Sonnet 4.5 dan $1.30 untuk Opus 4.5
      Penghematan biaya yang lebih besar datang bukan dari harga token semata, melainkan dari berkurangnya kesalahan berkat peningkatan kecerdasan
    • Penurunan harga 3x ini kemungkinan besar berarti Opus 4.5 memakai base model yang lebih kecil dan lebih terspesialisasi
      Sepertinya fine-tuning yang disesuaikan untuk benchmark diperkuat, dan saya penasaran dengan performanya pada tes non-target seperti eqbench.com
    • Dulu saya menganggap bagian “Safety” seperti sekadar peringatan ala fiksi ilmiah, tapi kali ini menarik karena membahas masalah nyata seperti prompt injection
      Tampaknya istilah “keamanan” kini berevolusi ke makna yang berbeda
    • Tapi Pliney the Liberator kabarnya sudah berhasil melakukan jailbreak
      Mungkin ini terpisah dari ketahanan terhadap prompt injection
  • Model kali ini mungkin akan terasa revolusioner selama 2~4 minggu, lalu sepertinya akan datang “nerf”
    Setelah itu, selama beberapa bulan orang-orang yang menunjukkan penurunan performa akan dianggap “masalah skill”, lalu setelah engineer mengumumkan bahwa mereka menemukan “beberapa bug”, Opus 4.7 akan keluar
    Sekarang loyalitas saya diukur dalam satuan siklus nerf

    • Bisa jadi ini bukan penurunan performa nyata, melainkan ilusi kognitif
      Karena dari benchmark tidak ada bukti penurunan performa
      Jika penurunan yang dirasakan manusia itu nyata, maka ini menunjukkan adanya faktor (x-factor) yang tidak tertangkap benchmark
    • Karena itu saya pindah ke Gemini
      Sejak generasi v2.5 tidak ada penurunan performa, dan saya curiga Anthropic mungkin melakukan penggantian model terkuantisasi
    • Kedengarannya seperti bercanda, tapi bisa saja ini sebenarnya rilis ulang Opus 4.0
    • Fenomena seperti ini juga sesuai dengan pola perilaku CEO
    • Claude tampaknya diam-diam sedang menjalankan eksperimen kompresi konteks
      Pada kueri sekali jalan yang tidak terlalu bergantung pada konteks, penurunan performanya lebih kecil
  • Saya sudah mencoba Gemini 3 Pro di Cursor, dan hasilnya jauh lebih lemah daripada Sonnet 4.5
    Ada masalah yang hanya bisa diselesaikan oleh Claude Code, dan Sonnet 4.5 juga bekerja sangat baik khususnya di dalam Cursor
    Saya rasa keputusan Anthropic untuk mengambil strategi yang berfokus pada software engineering adalah langkah yang tepat
    Ini model yang paling saya nantikan menuju 2026

    • Model Claude punya tool bawaan seperti str_replace_editor
      Cursor tidak punya tool seperti ini, jadi muncullah perbedaan performa
      Lihat tweet terkait di sini
    • Workflow saya adalah merancang dengan Gemini, lalu mengimplementasikan dengan Sonnet
    • Secara pribadi saya tidak paham dengan hype berlebihan terhadap Gemini
      Opus/Sonnet/GPT jauh lebih cocok untuk workflow berbasis agen
    • Saya membuat side project dengan API Gemini 2.5 Pro, tapi konsistensi dalam menjalankan perintah dan error kehabisan resource menjadi masalah
      Azure GPT-4.1, Bedrock Sonnet 4, dan Perplexity jauh lebih stabil
      Saya penasaran dengan pengalaman orang lain
    • Saya memberi Sonnet 4.5 JSON PHP serialize() yang di-encode base64 dan memintanya mengekstrak URL, lalu model itu mengembalikan link YouTube Rick Astley
  • Claude Opus 4.5 system card jauh lebih rinci dibanding blog pemasaran
    Ini PDF 150 halaman, dan bagian tentang deception sangat menarik
    Misalnya ada kasus di mana model menerima berita tentang pembubaran tim keamanan Anthropic, tetapi menyembunyikan informasi itu dari pengguna
    Risiko terkait CBRN juga dibahas, dan Opus masih berada di level ASL-3, jadi belum termasuk risiko berskala besar
    Saya menulis ringkasan blog tentang ini di sini

  • Hasil benchmark kali ini benar-benar kabar baik
    Berkat ini saya bisa tetap mempertahankan Coding Agent yang sudah ada
    Di lingkungan AI yang berubah cepat, makin sulit mengikuti tanpa FOMO, tetapi kali ini Anthropic kembali membuktikan daya saingnya

    • Sepertinya sekarang kita sudah mencapai titik di mana mengabaikan hype pun tidak membuat tertinggal
      Kombinasi Sonnet dan Claude Code sudah cukup stabil, dan setelah 4.5 malah otomatis menjadi lebih baik
      Godaan untuk pindah ke Codex saya abaikan saja
    • Saya pindah ke OpenAI karena batas tarif/penggunaan
      Walaupun Claude mungkin menghasilkan kode yang sedikit lebih baik, GPT memungkinkan permintaan tanpa batas, jadi kebebasan eksperimennya lebih besar
    • Menjalankan beberapa tool sekaligus tidak memberi keuntungan besar dari sisi produktivitas
      Opus memang kemajuan yang berarti, tetapi sepertinya bukan perubahan workflow yang mendasar
    • Saya juga suka arah Anthropic yang ramah developer
      Semoga mereka bisa terus bertahan dengan baik dalam persaingan
    • Saya juga sempat memakai Codex, tapi akhirnya kembali ke Claude Code
      Codex hanya saya pakai sementara saat terkena limit
  • Fitur tool tingkat lanjut di Opus 4.5 sangat mengesankan
    Menurut dokumen Advanced Tool Use, model ini mendukung pencarian tool, pemanggilan secara terprogram, dan pembelajaran contoh in-context
    Katanya definisi tool saja memakan 130 ribu token, cukup mengejutkan
    Video demo game puzzle-nya juga menarik

  • Saya membaca ulasan Opus dari Simon Willison

    • Evolusi bertahap sulit terasa pada codebase skala besar
      Untuk kebanyakan tugas, kesenjangan tooling lebih besar daripada model itu sendiri
    • Saya penasaran apakah mereka menulis sendiri library untuk mengubah output terminal menjadi HTML
    • Saya bertanya-tanya apakah mereka mungkin melatih model agar cocok dengan data benchmark
    • Ada kesalahan pada penulisan harga Haiku — yang benar adalah $1/$5
    • Saran perbaikan typo: There modelTheir model
  • Jika melihat leaderboard ARC-AGI-2, perbandingan performa terhadap biaya antarmodel terlihat jelas
    Opus 4.5 menunjukkan hasil yang hebat dibanding Gemini 3, dan Gemini 3 Deep Think masih di posisi pertama, tetapi biayanya lebih dari 30x
    Saat OpenAI melampaui performa manusia di ARC-AGI-1 pada Desember 2024, biayanya $3.000 per tugas, sedangkan sekarang turun menjadi beberapa dolar saja, atau hemat 80x
    Lihat leaderboard dan blog terkait

    • Sebagai referensi, Gemini 3 Pro adalah versi tanpa penggunaan tool, sedangkan Deep Think adalah versi yang memakai tool
      Jika keduanya diberi akses tool yang sama, kesenjangan antar model menjadi lebih kecil
  • Akhir-akhir ini terasa bahwa laju peningkatan LLM melambat
    Peningkatan akurasi kecil, tetapi peningkatan efisiensi menurut saya besar

  • Belakangan ini Sonnet 4.5 terasa jadi lebih bodoh
    Bahkan CSS sederhana pun tidak bisa ditangani dengan baik
    Bagus sih Opus jadi 3x lebih murah, tetapi di langganan Claude Code Pro masih belum bisa dipakai
    Dengan perintah /model opusplan, Opus bisa dipakai di tahap perencanaan, tetapi strukturnya menghabiskan kredit, jadi kurang transparan
    Perbaikan CSS sederhana sampai memakan $0.95, terlalu mahal
    Ke depannya saya akan coba beralih manual antara Opus dan Sonnet

    • Kualitas Sonnet 4.5 tampaknya sebanding dengan kedalaman pencarian seperti engine catur
      Pada jam sibuk, penurunan performa tampaknya tak terhindarkan, jadi akan bagus jika ada fitur sinyal beban
    • Dalam beberapa hari terakhir memang terasa kecerdasannya menurun
      Mungkin sengaja diturunkan untuk mempromosikan model baru, atau karena beban meningkat akibat pembagian kredit gratis sehingga mereka menjalankan versi terkuantisasi
      Saya menyayangkan kurangnya transparansi dan kestabilan dari Anthropic
    • Kemungkinan saat trafik berlebihan, sistem melakukan failover ke model yang lebih murah
    • Khususnya pada hari Jumat saya terus-menerus melihat jawaban yang bodoh
      Awalnya saya kira hanya error sementara, tetapi rasanya memang ada yang berubah