Claude Opus 4.7

(anthropic.com)

4 poin oleh GN⁺ 2026-04-17 | 1 komentar | Bagikan ke WhatsApp

Performa rekayasa perangkat lunak tingkat lanjut ditingkatkan sehingga mampu menangani tugas kompleks dan berdurasi panjang dengan konsistensi serta akurasi tinggi
Pengenalan visual dan pemahaman multimodal ditingkatkan sehingga dapat menganalisis informasi visual kompleks seperti gambar resolusi tinggi, diagram teknis, dan struktur kimia
Pengaman keamanan siber bawaan secara otomatis mendeteksi dan memblokir permintaan berisiko tinggi, sementara peneliti keamanan yang sah dapat bergabung dengan Cyber Verification Program
Fitur baru seperti kontrol Effort, Task Budget, dan perintah ultrareview meningkatkan efisiensi pekerjaan jangka panjang serta kemampuan verifikasi kualitas kode
Peningkatan performa 13% dibanding Opus 4.6 dan reliabilitas tinggi telah dicapai, dan Anthropic sedang menyiapkan rilis aman model kelas Mythos berdasarkan hal ini

Ikhtisar Claude Opus 4.7

Claude Opus 4.7 adalah model dengan performa rekayasa perangkat lunak tingkat lanjut yang jauh meningkat dibanding Opus 4.6, mampu menangani tugas kompleks dan berjalan lama dengan konsistensi serta akurasi tinggi
Pengguna kini dapat lebih mempercayai dan mendelegasikan tugas coding yang lebih sulit dibanding sebelumnya, dan model akan melaporkan hasil setelah melakukan verifikasi mandiri
Kemampuan pengenalan visual diperkuat sehingga menghasilkan kualitas dan kreativitas tinggi pada gambar resolusi tinggi, antarmuka, slide, dokumen, dan lainnya
Meski kemampuan umum masih di bawah Claude Mythos Preview milik Anthropic, model ini mencatat hasil lebih baik daripada Opus 4.6 di berbagai benchmark
Tersedia di seluruh lini produk Claude dan API, Amazon Bedrock, Google Cloud Vertex AI, dan Microsoft Foundry, dengan harga yang sama seperti Opus 4.6

Langkah terkait keamanan siber

Melalui Project Glasswing, Anthropic mengungkap risiko dan manfaat keamanan siber dari AI, membatasi rilis Mythos Preview, dan memutuskan untuk lebih dulu melakukan eksperimen keamanan pada model yang kurang kuat
Opus 4.7 adalah model pertama tersebut, dan mencakup pengaman yang secara otomatis mendeteksi serta memblokir permintaan keamanan siber yang dilarang atau berisiko tinggi
Berdasarkan data penerapan nyata, Anthropic sedang menyiapkan rilis yang lebih luas untuk model kelas Mythos di masa depan
Peneliti keamanan yang sah (analisis kerentanan, penetration testing, red team, dan sebagainya) dapat bergabung dalam Cyber Verification Program

Performa utama dan umpan balik pengguna

Pengujian awal mengonfirmasi kemampuan mendeteksi kesalahan logika sendiri dan meningkatkan kecepatan eksekusi
Menunjukkan performa unggul dalam workflow asinkron, CI/CD, dan pekerjaan otomasi jangka panjang, serta memberi pendekatan masalah dan opini yang mendalam, bukan sekadar menyetujui
Menghindari penalaran keliru saat data tidak lengkap dan tidak terjebak pada jebakan data yang tidak konsisten
Pada 93 benchmark coding, ada peningkatan 13% dibanding Opus 4.6, termasuk menyelesaikan 4 tugas tambahan yang sebelumnya tidak terselesaikan
Menunjukkan konsistensi kelas tertinggi dalam efisiensi tugas multilangkah; pada modul keuangan, model ini meraih skor 0.813, melampaui Opus 4.6 (0.767)
Pemahaman multimodal meningkat sehingga interpretasi struktur kimia dan diagram teknis kompleks menjadi lebih baik
Kemampuan menjalankan tugas jangka panjang secara otonom diperkuat, memungkinkan pemecahan masalah yang konsisten selama berjam-jam
Sejumlah perusahaan seperti Replit, Harvey, Hex, Notion, Databricks, dan Vercel melaporkan peningkatan pada kualitas kode, akurasi pemanggilan tool, dan reliabilitas workflow jangka panjang
Sebagai contoh nyata, model ini mengembangkan mesin sintesis suara berbasis Rust secara sepenuhnya otonom dan memverifikasi sendiri kecocokannya dengan model referensi Python

Peningkatan utama dalam pengujian awal

Akurasi interpretasi perintah
- Opus 4.7 menafsirkan instruksi secara harfiah dan mematuhinya jauh lebih ketat dibanding model sebelumnya
- Prompt lama dapat menghasilkan keluaran yang tidak terduga, sehingga penyesuaian ulang prompt diperlukan
Dukungan multimodal yang diperkuat
- Dapat memproses gambar hingga resolusi 2.576 piksel (sekitar 3,75 MP)
- Cocok untuk tugas yang memanfaatkan informasi visual detail seperti analisis diagram kompleks dan ekstraksi data berbasis screenshot
Performa pada pekerjaan nyata
- Menawarkan profesionalisme dan konsistensi yang lebih tinggi daripada Opus 4.6 dalam analisis keuangan, presentasi, dan pemodelan
- Pada evaluasi eksternal GDPval-AA, model ini juga mencatat performa kelas atas di bidang kerja berbasis pengetahuan seperti keuangan dan hukum
Pemanfaatan memori
- Menggunakan memori berbasis file system secara efisien untuk mengingat dan menggunakan kembali konteks pekerjaan lintas beberapa sesi

Evaluasi keamanan dan alignment

Secara keseluruhan menunjukkan profil keamanan yang mirip dengan Opus 4.6, dengan tingkat masalah yang rendah pada penipuan, sanjungan, dan kerja sama untuk penyalahgunaan
Kejujuran dan ketahanan terhadap malicious prompt injection meningkat, tetapi sedikit melemah di beberapa area tertentu (misalnya saran berlebihan terkait obat-obatan)
Hasil evaluasi menyimpulkan bahwa model ini “secara umum ter-align dengan baik dan dapat dipercaya, tetapi belum sepenuhnya ideal”
Mythos Preview masih dinilai sebagai model dengan alignment terbaik

Fitur rilis tambahan

Penguatan kontrol Effort
- Ditambahkan level baru xhigh di antara high dan max, memungkinkan penyesuaian lebih rinci antara kemampuan penalaran dan latensi
- Di Claude Code, level Effort default dinaikkan menjadi xhigh
Claude Platform(API)
- Bersamaan dengan dukungan gambar resolusi tinggi, fitur Task Budget tersedia dalam beta publik, memungkinkan penyesuaian prioritas penggunaan token pada pekerjaan jangka panjang
Claude Code
- Perintah baru /ultrareview menjalankan sesi peninjauan perubahan kode dan deteksi bug
- Pengguna Pro dan Max mendapat 3 kali ultrareview gratis
- Auto Mode diperluas ke pengguna Max untuk mengurangi proses persetujuan selama pekerjaan jangka panjang dan memungkinkan eksekusi tanpa interupsi

Migrasi dari Opus 4.6 ke 4.7

Opus 4.7 dapat di-upgrade secara langsung, tetapi perlu memperhatikan perubahan penggunaan token
- Karena tokenizer baru, input yang sama dapat dikonversi menjadi sekitar 1,0~1,35 kali lebih banyak token
- Pada level Effort tinggi, model melakukan lebih banyak penalaran sehingga token output dapat meningkat
Penggunaan token dapat dikendalikan melalui parameter Effort, Task Budget, dan desain prompt yang ringkas
Pengujian internal mengonfirmasi peningkatan efisiensi di seluruh level Effort
Metode upgrade yang lebih rinci tersedia di Migration Guide

1 komentar

GN⁺ 2026-04-17

Opini Hacker News

Aku merasa konsep adaptive thinking yang baru diperkenalkan sangat membingungkan
Sebelumnya aku menulis kode dengan mode thinking budget / effort, tapi sekarang perilakunya benar-benar berbeda
Bahkan setelah membaca dokumentasi resmi, aku masih belum benar-benar paham
Selain itu, di 4.7 ringkasan reasoning yang bisa dibaca manusia tidak keluar secara default. Kita harus menambahkan opsi "display": "summarized" sendiri
Saat ini aku sedang menjalankan proyek Pelican, dan terus mentok karena cara thinking yang baru
- Jawaban Boris terhadap bug report-ku adalah “sepertinya adaptive thinking tidak bekerja dengan benar”, tapi setelah itu tidak ada kabar lagi
  Lihat thread terkait
  Setelah adaptive thinking dimatikan dan effort dinaikkan, hasilnya kembali seperti dulu
  Tapi jawaban seperti “di evaluasi internal kami ini bekerja dengan baik” tidak cukup. Banyak pengguna melaporkan masalah yang sama
- Ada yang bercanda bahwa kalimat “ingin menghasilkan pelican yang bagus” terdengar seperti p-hacking (manipulasi statistik). Di sini p adalah p dari pelican, jadi permainan kata
- Claude Opus 4.6 memberiku banyak hasil yang benar-benar lucu
  screenshot
- Di Claude Code, tampaknya ditambahkan opsi command line tidak resmi --thinking-display summarized
  Pengguna VS Code bisa membuat wrapper script yang berisi exec "$@" --thinking-display summarized lalu memasukkannya ke pengaturan claudeCode.claudeProcessWrapper untuk melihat lagi ringkasan reasoning
- Aku jadi penasaran apakah sekarang Claude tidak lagi menampilkan seluruh reasoning dan hanya menunjukkan ringkasannya
  Dulu mengungkap CoT (Chain of Thought) LLM dianggap inti dari keselamatan, tapi sepertinya arah kebijakannya berubah
Tokenizer baru di Opus 4.7 meningkatkan efisiensi pemrosesan teks, tetapi input dipetakan menjadi 1.0~1.35x lebih banyak token
Karena itu aku justru merasa output proyek caveman lebih enak dibaca
repo caveman
- caveman pada dasarnya hampir seperti proyek bercanda
  Sebagian besar konteks dipakai untuk membaca file dan reasoning, jadi penghematan token nyata bahkan tidak sampai 1%. Malah bisa membuat model bingung
- caveman memang seru, tapi kalau benar-benar ingin menghemat token, headroom lebih baik
  mac app, versi CLI
- Aku pernah bereksperimen menghapus 100~1000 kata bahasa Inggris paling umum dari prompt
  Aku pikir kata-kata umum itu mungkin noise, tapi perbedaan hasilnya hampir tidak ada
  Aku ingin membandingkannya langsung dengan caveman
- Ada yang mengusulkan pendekatan seperti rtk-ai/rtk
- Dalam benchmark minyak & gas internal-ku, Opus 4.7 mencetak 80%, lebih tinggi dari Opus 4.6 (64%) dan GPT-5.4 (76%)
  Ini berkat berkurangnya penggunaan token reasoning. Ini menunjukkan bahwa membandingkan biaya model hanya dari harga token saja sekarang sudah tidak terlalu bermakna
Setelah melihat pengumuman bahwa Anthropic merilis Opus 4.7 sebagai model dengan pembatasan keamanan siber, aku merasa ini strategi yang gagal
Menyensor pengetahuan keamanan sambil ingin mengembangkan software yang aman adalah kontradiksi
Kecuali semua perusahaan AI memakai kebijakan yang sama, efektivitasnya juga kecil. Pada akhirnya pendekatan ini sepertinya akan ditinggalkan
- Aku bukan pakar keamanan, tapi saat membangun proyek open source aku butuh AI yang membantu verifikasi kerentanan
  Namun pembatasan seperti ini justru mengarah pada sentralisasi keamanan, jadi sulit dianggap sebagai peningkatan keamanan yang nyata
- Aku merasa pengaman berlebihan di tahap pelatihan justru menggerus kecerdasan umum
  Seperti orang yang IQ-nya turun 10% ketika disuruh berdiri di depan whiteboard saat wawancara, model juga jadi tertekan
- Sekarang model terlalu pintar untuk hacking, tapi masih belum cukup untuk pekerjaan ekonomis, sebuah keadaan yang aneh
  Jadi arahnya tampak seperti “dibuat bodoh secara selektif”. Rasanya eksperimen itu memang sedang dilakukan
- Dalam jangka pendek, menurutku ini langkah yang lumayan
  Penyerang hanya perlu berhasil sekali, sedangkan pembela harus berhasil setiap saat, jadi ini bisa membeli waktu
Karena penurunan kualitas 4.6 minggu lalu, aku akhirnya pindah ke Codex
4.6 bahkan tidak melakukan web search dan menghabiskan 17K token untuk omong kosong. Contoh parallel processing juga diimplementasikan sepenuhnya salah
- Aku juga membatalkan langganan Pro karena alasan yang sama
  Penggunaan token tiba-tiba meledak, dan respons dukungan yang tidak peduli menjadi pukulan terakhir
  Bug masih bisa dimaklumi, tapi cara memperlakukan pelanggan sulit diterima
  Setelah pindah ke Codex, setidaknya pekerjaan berjalan, itu saja
- Banyak orang bilang OpenAI akan runtuh karena kelebihan compute, tapi sekarang justru jadi keunggulan strategis
  Codex menggandakan batas penggunaan untuk menyerap pelanggan Claude, dan PR-nya juga jauh lebih baik
  90% masalah Claude tampaknya berasal dari kekurangan compute
- Ini teori konspirasiku, tapi rasanya performa sengaja diturunkan sebelum rilis model baru agar versi berikutnya terlihat lebih baik
  AI harus selalu tampak “sedang maju”, karena stagnasi berarti matinya hype
- Aku sudah mencoba Codex, tapi untuk kebutuhanku jauh lebih inferior
  Memang cepat, tapi tidak ada gunanya mengeluarkan kode berkualitas rendah dengan lebih cepat
  Gemini CLI lebih lambat dan kualitasnya juga lebih buruk
  Codex cenderung menjilat dengan mengatakan “sempurna” meski ada bug, jadi berbahaya
- Meski begitu, Codex tetap mendapat tempat di toolkit-ku
  Kemampuan eksekusinya sangat kuat, dan OpenAI berbicara lewat hasil tanpa banyak marketing
  Rasanya seperti Google masa awal yang menang lewat kualitas produk
Filter keamanan siber Opus 4.7 menjadi terlalu ketat sampai riset yang legal pun terblokir
Bahkan ketika guideline program diambil langsung dari web, tetap diblokir sebagai “permintaan berbahaya”
Kalau begini terus, aku akan pindah ke Codex
- Sekarang bahkan mungkin akan diminta Identity Verification
  Seperti di panduan resmi, akses ke sebagian fitur memerlukan proses verifikasi
- Di API memang muncul error “Usage Policy violation” bersama link pendaftaran Cyber Verification Program
  Karena ini, semua riset yang sedang berjalan jadi terhenti
- Aku pernah diblokir di tengah sesi, padahal input-nya tetap sama
  Mungkin model mendeteksi langkah di reasoning internalnya sendiri sebagai sesuatu yang tampak “ofensif”
  Saat bug hunting bergerak ke tahap yang makin ofensif, filter tampaknya mulai aktif
  Kini kita hidup di dunia di mana pelanggaran kebijakan adalah segfault baru
- Yang lebih parah, bahkan saat menulis kodeku sendiri, model kadang mengeluarkan kalimat seperti “ini bukan malware” dengan sendirinya
  Hanya karena ada kata tertentu, reaksinya jadi berlebihan
  Sekarang rasanya aku harus minta izin ke AI apakah proyekku berbahaya atau tidak. Aku berencana membatalkan langganan
- Bahkan tugas sederhana mengirim PDF ke printer pun ditolak
Thread ini adalah pelajaran bagus untuk para founder
Ini menunjukkan betapa banyak keluhan yang bisa diredam hanya dengan sedikit komunikasi yang jujur
Dari posisiku yang mengunci aplikasi di Opus 4.5, sekarang bahkan sulit membedakan apakah ini masalah model atau masalah harness
- Di thread seperti ini selalu ada takhayul bahwa “Anthropic men-nerf modelnya”
  Kadang memang cuma sedang apes saja
- Jika model memang sengaja diperlambat karena beban, penting untuk menjelaskannya secara terang
  Dengan begitu aku bisa mengatur jam kerja dan menjalankan pekerjaan berat di malam hari
- Opus 4.5 sangat konsisten, tapi 4.6 naik turun
- Aku pengembang pemula dan sedang belajar perbedaan antar model
  Dalam situasi sekacau ini, menurutku bijak memakai model broker atau lapisan perantara seperti Copilot
- Karena ketidakstabilan seperti ini, pengguna jadi makin paranoid
  Rasanya perlu ada layanan seperti “AI standar” yang selalu menyediakan model yang sama
Berdasarkan hasil benchmark privat tim kami, Opus 4.7 lebih strategis dan lebih cerdas daripada 4.6/4.5
Hampir setara dengan GPT-5.4, dan dalam sesi agentic yang menggunakan tools malah menunjukkan performa terbaik
link benchmark
Namun ada sedikit regresi dalam pemrosesan konteks. Kami sedang menambahkan benchmark untuk memvisualisasikannya
- Ada yang penasaran mengapa tingkat keberhasilan Opus 4.7 lebih rendah daripada Sonnet 4.6, tetapi persentil rata-ratanya justru lebih tinggi
- Ada juga pertanyaan apakah 4.6 atau 4.5 mengalami regresi performa setelah rilis awal
Belakangan ini kepercayaan terhadap Anthropic menurun
Merilis 4.7 tepat setelah downgrade 4.6 terasa mengkhawatirkan
Sekarang yang dibutuhkan adalah komunikasi yang transparan
- Inti masalahnya adalah kekurangan compute
  OpenAI berinvestasi pada compute sejak awal, dan sekarang itu menjadi keuntungan besar
- Mungkin performa Opus menurun karena mereka sedang melatih Mythos
  Bisa jadi mereka sedang melakukan distillation Mythos ke Opus 4.7
- Ada yang bertanya mengapa Claude berbasis Bedrock juga ikut melambat
  Mungkin penyebabnya update harness
- Integrasi verifikasi Persona ID menjadi pukulan terakhir. Setelah itu aku pergi
- Sulit membayangkan apakah bisa terus bertahan dengan cara seperti ini
Akhir-akhir ini komentar “aku pindah ke Codex” meningkat tajam
Tapi setelah dipakai langsung, Codex masih belum menyamai Claude
Komentar promosi seperti ini justru hanya mengikis kepercayaan
- Tetapi pada kenyataannya banyak developer memang lebih memilih Codex
  Perusahaanku juga memakai kedua model, tapi sekarang aku hampir selalu memakai Codex
  Menurutku kecepatan dan hasilnya lebih baik
- Aku juga sempat menjalankan pilot singkat, dan Codex menyelesaikan masalah lebih dari 4x lebih cepat daripada Claude
  Namun kualitas respons Claude lebih baik. Kelebihan dan kekurangannya sangat jelas
- Saat diberi tugas refactoring yang sama, Codex butuh 5 menit, Claude 20 menit
  Tapi Codex menghasilkan sesuatu yang “secara teknis benar, tapi secara manusia aneh”
  Jadi aku memakai Claude untuk menulis spesifikasi dan Codex untuk mengeksekusi
- Ada sindiran “Java yang terbaik”, bahwa perdebatan seperti ini pada akhirnya tidak beda dengan perang bahasa pemrograman
- Ada kritik bahwa OpenAI sedang memperbesar pangsa pasar dengan strategi subsidi berlebihan
  Pada akhirnya orang curiga harga nanti akan dinaikkan
Kebijakan pembatasan keamanan Opus 4.7 bisa berakibat fatal
Untuk meneliti serangan dan mempertahankannya dibutuhkan kemampuan yang simetris, dan memblokir itu berbahaya
- Kemungkinan ini langkah untuk product positioning Mythos
- Sekarang, untuk melakukan riset keamanan yang legal, orang malah harus menipu model
- Jika kebijakan seperti ini terus berlanjut, aku akan meninggalkan platform
- Ada yang merasa istilah “fatal” terlalu berlebihan, sambil bertanya dari mana tepatnya asimetri itu berasal
- Pada akhirnya terasa seperti kita sedang menuju masa ketika hanya software yang disetujui Anthropic atau pemerintah yang diakui aman

Claude Opus 4.7

Ikhtisar Claude Opus 4.7

Langkah terkait keamanan siber

Performa utama dan umpan balik pengguna

Peningkatan utama dalam pengujian awal

Akurasi interpretasi perintah

Dukungan multimodal yang diperkuat

Performa pada pekerjaan nyata

Pemanfaatan memori

Evaluasi keamanan dan alignment

Fitur rilis tambahan

Penguatan kontrol Effort

Claude Platform(API)

Claude Code

Migrasi dari Opus 4.6 ke 4.7

Bacaan terkait

1 komentar

Opini Hacker News