8 poin oleh GN⁺ 2025-11-25 | Belum ada komentar. | Bagikan ke WhatsApp
  • Claude Opus 4.5 adalah model AI dengan performa kelas tertinggi untuk penulisan kode, eksekusi agen, dan penggunaan komputer
  • Mencatat skor tertinggi pada pengujian rekayasa perangkat lunak dunia nyata (SWE-bench Verified), dengan efisiensi token dan kemampuan penalaran yang meningkat signifikan
  • Harga diturunkan menjadi $5/$25 per 1 juta token, sehingga lebih banyak developer dan perusahaan dapat memanfaatkan kemampuan kelas Opus
  • Parameter effort baru, manajemen konteks, dan peningkatan penggunaan alat menghadirkan upgrade besar untuk Claude Developer Platform dan Claude Code
  • Dengan penguatan keamanan dan alignment serta peningkatan pertahanan terhadap prompt injection, ini menjadi titik balik yang meningkatkan kepercayaan terhadap pemanfaatan AI di berbagai industri

Ringkasan Claude Opus 4.5

  • Anthropic memperkenalkan Claude Opus 4.5, yang disebut sebagai model kelas dunia untuk coding, agen, dan penggunaan komputer
    • Performa juga meningkat pada tugas sehari-hari seperti riset, slide, dan pemrosesan spreadsheet
    • Dinilai sebagai tahap yang memperluas cakupan pekerjaan yang dapat dilakukan sistem AI
  • Opus 4.5 mencatat skor tertinggi pada pengujian SWE-bench Verified
  • Tersedia segera di aplikasi Anthropic, API, dan tiga platform cloud utama
    • Nama model API: claude-opus-4-5-20251101
    • Harga: input $5 / output $25 (per 1 juta token)

Umpan balik dari pengguna awal dan pengujian

  • Pengujian internal melaporkan peningkatan dalam penanganan masalah ambigu dan penyelesaian bug yang kompleks
  • Pengguna awal dari berbagai perusahaan memberikan umpan balik berikut
    • Kualitas kode meningkat dan penggunaan token berkurang hingga setengah
    • Performa unggul dalam penalaran multilangkah, pekerjaan otonom jangka panjang, dan workflow agen
    • Efisiensi meningkat lebih dari 15% dibanding Sonnet 4.5
    • Memastikan kemungkinan implementasi agen AI yang mampu melakukan perbaikan diri
    • Peningkatan performa di berbagai bidang seperti otomatisasi Excel, visualisasi 3D, code review, dan pembuatan cerita
    • Dilaporkan kesalahan pemanggilan alat dan build error turun 50~75%, serta kecepatan meningkat

Evaluasi performa

  • Dalam ujian rekayasa perangkat lunak internal Anthropic, model ini melampaui skor tertinggi kandidat manusia
    • Mencatat performa terbaik dalam batas waktu 2 jam
  • Kemampuan visi, penalaran, dan matematika meningkat secara menyeluruh, mencapai state of the art (SOTA) pada banyak benchmark
  • Pengujian τ2-bench menunjukkan contoh pemecahan masalah kreatif
    • Tidak mencoba mengakali kebijakan tiket pesawat yang tidak dapat diubah, tetapi menyelesaikannya lewat prosedur legal (upgrade kursi lalu mengubah jadwal)
    • Meski dicatat sebagai gagal dalam benchmark, contoh ini disebut sebagai ilustrasi kemampuan penalaran kreatif

Peningkatan keamanan dan alignment

  • Claude Opus 4.5 adalah model yang paling kuat alignment-nya di antara model yang pernah dirilis Anthropic
    • Ketahanannya terhadap serangan prompt injection berada di tingkat tertinggi industri
    • Menunjukkan hasil kuat bahkan pada benchmark serangan berat yang dikembangkan oleh Gray Swan
  • Skor "concerning behavior" rendah, sehingga menurunkan kemungkinan penyalahgunaan berbahaya dan malfungsi otonom
  • Evaluasi keamanan dan performa yang lebih rinci dimuat dalam Claude Opus 4.5 system card

Update Claude Developer Platform

  • Opus 4.5 menghasilkan hasil yang lebih baik dengan token lebih sedikit
  • Parameter effort baru memungkinkan penyesuaian keseimbangan antara kecepatan, biaya, dan performa
    • Pada tingkat effort menengah, performanya setara Sonnet 4.5 dengan pengurangan token output 76%
    • Pada tingkat effort tertinggi, performa naik 4,3% dibanding Sonnet 4.5 dengan penghematan token 48%
  • Fitur effort control, context compaction, dan penggunaan alat tingkat lanjut meningkatkan efisiensi pekerjaan jangka panjang
  • Performa tugas agen meningkat 15% melalui manajemen konteks dan fitur memori
  • Platform berkembang secara bertahap menuju struktur modular dan composable

Update produk

  • Claude Code berbasis Opus 4.5 meningkatkan presisi dan eksekusi Plan Mode
    • Sebelum eksekusi, sistem membuat file plan.md agar dapat ditinjau pengguna
    • Mendukung eksekusi paralel multi-sesi di aplikasi desktop
  • Aplikasi Claude mempertahankan konteks melalui fitur ringkasan otomatis untuk percakapan panjang
  • Claude for Chrome tersedia untuk semua pengguna Max
  • Claude for Excel memperluas beta ke pengguna Max, Team, dan Enterprise
  • Batas penggunaan khusus Opus 4.5 ditingkatkan sehingga bisa dipakai untuk pekerjaan harian

Informasi tambahan

  • Semua evaluasi (evals) dijalankan dengan rata-rata 5 kali menggunakan 64K thinking budget, 200K context window, dan pengaturan effort default (high)
  • Beberapa pengujian seperti SWE-bench Verified dan Terminal Bench menggunakan pengaturan terpisah
  • Riset terkait dan hasil detail dapat dilihat di Claude Opus 4.5 system card

Kabar terkait

  • Claude terintegrasi ke Microsoft Foundry dan Microsoft 365 Copilot
  • Microsoft·NVIDIA·Anthropic menandatangani kemitraan strategis
    • Anthropic berencana membeli kapasitas komputasi Azure senilai $30 miliar dan menyiapkan kontrak tambahan hingga 1GW
  • Bekerja sama dengan pemerintah Rwanda dan ALX untuk memperluas pendidikan AI di kawasan Afrika

Belum ada komentar.

Belum ada komentar.