- Performa rekayasa perangkat lunak tingkat lanjut ditingkatkan sehingga mampu menangani tugas kompleks dan berdurasi panjang dengan konsistensi serta akurasi tinggi
- Pengenalan visual dan pemahaman multimodal ditingkatkan sehingga dapat menganalisis informasi visual kompleks seperti gambar resolusi tinggi, diagram teknis, dan struktur kimia
- Pengaman keamanan siber bawaan secara otomatis mendeteksi dan memblokir permintaan berisiko tinggi, sementara peneliti keamanan yang sah dapat bergabung dengan Cyber Verification Program
- Fitur baru seperti kontrol Effort, Task Budget, dan perintah ultrareview meningkatkan efisiensi pekerjaan jangka panjang serta kemampuan verifikasi kualitas kode
- Peningkatan performa 13% dibanding Opus 4.6 dan reliabilitas tinggi telah dicapai, dan Anthropic sedang menyiapkan rilis aman model kelas Mythos berdasarkan hal ini
Ikhtisar Claude Opus 4.7
- Claude Opus 4.7 adalah model dengan performa rekayasa perangkat lunak tingkat lanjut yang jauh meningkat dibanding Opus 4.6, mampu menangani tugas kompleks dan berjalan lama dengan konsistensi serta akurasi tinggi
- Pengguna kini dapat lebih mempercayai dan mendelegasikan tugas coding yang lebih sulit dibanding sebelumnya, dan model akan melaporkan hasil setelah melakukan verifikasi mandiri
- Kemampuan pengenalan visual diperkuat sehingga menghasilkan kualitas dan kreativitas tinggi pada gambar resolusi tinggi, antarmuka, slide, dokumen, dan lainnya
- Meski kemampuan umum masih di bawah Claude Mythos Preview milik Anthropic, model ini mencatat hasil lebih baik daripada Opus 4.6 di berbagai benchmark
- Tersedia di seluruh lini produk Claude dan API, Amazon Bedrock, Google Cloud Vertex AI, dan Microsoft Foundry, dengan harga yang sama seperti Opus 4.6
Langkah terkait keamanan siber
- Melalui Project Glasswing, Anthropic mengungkap risiko dan manfaat keamanan siber dari AI, membatasi rilis Mythos Preview, dan memutuskan untuk lebih dulu melakukan eksperimen keamanan pada model yang kurang kuat
- Opus 4.7 adalah model pertama tersebut, dan mencakup pengaman yang secara otomatis mendeteksi serta memblokir permintaan keamanan siber yang dilarang atau berisiko tinggi
- Berdasarkan data penerapan nyata, Anthropic sedang menyiapkan rilis yang lebih luas untuk model kelas Mythos di masa depan
- Peneliti keamanan yang sah (analisis kerentanan, penetration testing, red team, dan sebagainya) dapat bergabung dalam Cyber Verification Program
Performa utama dan umpan balik pengguna
- Pengujian awal mengonfirmasi kemampuan mendeteksi kesalahan logika sendiri dan meningkatkan kecepatan eksekusi
- Menunjukkan performa unggul dalam workflow asinkron, CI/CD, dan pekerjaan otomasi jangka panjang, serta memberi pendekatan masalah dan opini yang mendalam, bukan sekadar menyetujui
- Menghindari penalaran keliru saat data tidak lengkap dan tidak terjebak pada jebakan data yang tidak konsisten
- Pada 93 benchmark coding, ada peningkatan 13% dibanding Opus 4.6, termasuk menyelesaikan 4 tugas tambahan yang sebelumnya tidak terselesaikan
- Menunjukkan konsistensi kelas tertinggi dalam efisiensi tugas multilangkah; pada modul keuangan, model ini meraih skor 0.813, melampaui Opus 4.6 (0.767)
- Pemahaman multimodal meningkat sehingga interpretasi struktur kimia dan diagram teknis kompleks menjadi lebih baik
- Kemampuan menjalankan tugas jangka panjang secara otonom diperkuat, memungkinkan pemecahan masalah yang konsisten selama berjam-jam
- Sejumlah perusahaan seperti Replit, Harvey, Hex, Notion, Databricks, dan Vercel melaporkan peningkatan pada kualitas kode, akurasi pemanggilan tool, dan reliabilitas workflow jangka panjang
- Sebagai contoh nyata, model ini mengembangkan mesin sintesis suara berbasis Rust secara sepenuhnya otonom dan memverifikasi sendiri kecocokannya dengan model referensi Python
Peningkatan utama dalam pengujian awal
-
Akurasi interpretasi perintah
- Opus 4.7 menafsirkan instruksi secara harfiah dan mematuhinya jauh lebih ketat dibanding model sebelumnya
- Prompt lama dapat menghasilkan keluaran yang tidak terduga, sehingga penyesuaian ulang prompt diperlukan
-
Dukungan multimodal yang diperkuat
- Dapat memproses gambar hingga resolusi 2.576 piksel (sekitar 3,75 MP)
- Cocok untuk tugas yang memanfaatkan informasi visual detail seperti analisis diagram kompleks dan ekstraksi data berbasis screenshot
-
Performa pada pekerjaan nyata
- Menawarkan profesionalisme dan konsistensi yang lebih tinggi daripada Opus 4.6 dalam analisis keuangan, presentasi, dan pemodelan
- Pada evaluasi eksternal GDPval-AA, model ini juga mencatat performa kelas atas di bidang kerja berbasis pengetahuan seperti keuangan dan hukum
-
Pemanfaatan memori
- Menggunakan memori berbasis file system secara efisien untuk mengingat dan menggunakan kembali konteks pekerjaan lintas beberapa sesi
Evaluasi keamanan dan alignment
- Secara keseluruhan menunjukkan profil keamanan yang mirip dengan Opus 4.6, dengan tingkat masalah yang rendah pada penipuan, sanjungan, dan kerja sama untuk penyalahgunaan
- Kejujuran dan ketahanan terhadap malicious prompt injection meningkat, tetapi sedikit melemah di beberapa area tertentu (misalnya saran berlebihan terkait obat-obatan)
- Hasil evaluasi menyimpulkan bahwa model ini “secara umum ter-align dengan baik dan dapat dipercaya, tetapi belum sepenuhnya ideal”
- Mythos Preview masih dinilai sebagai model dengan alignment terbaik
Fitur rilis tambahan
-
Penguatan kontrol Effort
- Ditambahkan level baru
xhigh di antara high dan max, memungkinkan penyesuaian lebih rinci antara kemampuan penalaran dan latensi
- Di Claude Code, level Effort default dinaikkan menjadi
xhigh
-
Claude Platform(API)
- Bersamaan dengan dukungan gambar resolusi tinggi, fitur Task Budget tersedia dalam beta publik, memungkinkan penyesuaian prioritas penggunaan token pada pekerjaan jangka panjang
-
Claude Code
- Perintah baru
/ultrareview menjalankan sesi peninjauan perubahan kode dan deteksi bug
- Pengguna Pro dan Max mendapat 3 kali ultrareview gratis
- Auto Mode diperluas ke pengguna Max untuk mengurangi proses persetujuan selama pekerjaan jangka panjang dan memungkinkan eksekusi tanpa interupsi
Migrasi dari Opus 4.6 ke 4.7
- Opus 4.7 dapat di-upgrade secara langsung, tetapi perlu memperhatikan perubahan penggunaan token
- Karena tokenizer baru, input yang sama dapat dikonversi menjadi sekitar 1,0~1,35 kali lebih banyak token
- Pada level Effort tinggi, model melakukan lebih banyak penalaran sehingga token output dapat meningkat
- Penggunaan token dapat dikendalikan melalui parameter Effort, Task Budget, dan desain prompt yang ringkas
- Pengujian internal mengonfirmasi peningkatan efisiensi di seluruh level Effort
- Metode upgrade yang lebih rinci tersedia di Migration Guide
1 komentar
Opini Hacker News
Aku merasa konsep adaptive thinking yang baru diperkenalkan sangat membingungkan
Sebelumnya aku menulis kode dengan mode thinking budget / effort, tapi sekarang perilakunya benar-benar berbeda
Bahkan setelah membaca dokumentasi resmi, aku masih belum benar-benar paham
Selain itu, di 4.7 ringkasan reasoning yang bisa dibaca manusia tidak keluar secara default. Kita harus menambahkan opsi
"display": "summarized"sendiriSaat ini aku sedang menjalankan proyek Pelican, dan terus mentok karena cara thinking yang baru
Lihat thread terkait
Setelah adaptive thinking dimatikan dan effort dinaikkan, hasilnya kembali seperti dulu
Tapi jawaban seperti “di evaluasi internal kami ini bekerja dengan baik” tidak cukup. Banyak pengguna melaporkan masalah yang sama
screenshot
--thinking-display summarizedPengguna VS Code bisa membuat wrapper script yang berisi
exec "$@" --thinking-display summarizedlalu memasukkannya ke pengaturanclaudeCode.claudeProcessWrapperuntuk melihat lagi ringkasan reasoningDulu mengungkap CoT (Chain of Thought) LLM dianggap inti dari keselamatan, tapi sepertinya arah kebijakannya berubah
Tokenizer baru di Opus 4.7 meningkatkan efisiensi pemrosesan teks, tetapi input dipetakan menjadi 1.0~1.35x lebih banyak token
Karena itu aku justru merasa output proyek caveman lebih enak dibaca
repo caveman
Sebagian besar konteks dipakai untuk membaca file dan reasoning, jadi penghematan token nyata bahkan tidak sampai 1%. Malah bisa membuat model bingung
mac app, versi CLI
Aku pikir kata-kata umum itu mungkin noise, tapi perbedaan hasilnya hampir tidak ada
Aku ingin membandingkannya langsung dengan caveman
Ini berkat berkurangnya penggunaan token reasoning. Ini menunjukkan bahwa membandingkan biaya model hanya dari harga token saja sekarang sudah tidak terlalu bermakna
Setelah melihat pengumuman bahwa Anthropic merilis Opus 4.7 sebagai model dengan pembatasan keamanan siber, aku merasa ini strategi yang gagal
Menyensor pengetahuan keamanan sambil ingin mengembangkan software yang aman adalah kontradiksi
Kecuali semua perusahaan AI memakai kebijakan yang sama, efektivitasnya juga kecil. Pada akhirnya pendekatan ini sepertinya akan ditinggalkan
Namun pembatasan seperti ini justru mengarah pada sentralisasi keamanan, jadi sulit dianggap sebagai peningkatan keamanan yang nyata
Seperti orang yang IQ-nya turun 10% ketika disuruh berdiri di depan whiteboard saat wawancara, model juga jadi tertekan
Jadi arahnya tampak seperti “dibuat bodoh secara selektif”. Rasanya eksperimen itu memang sedang dilakukan
Penyerang hanya perlu berhasil sekali, sedangkan pembela harus berhasil setiap saat, jadi ini bisa membeli waktu
Karena penurunan kualitas 4.6 minggu lalu, aku akhirnya pindah ke Codex
4.6 bahkan tidak melakukan web search dan menghabiskan 17K token untuk omong kosong. Contoh parallel processing juga diimplementasikan sepenuhnya salah
Penggunaan token tiba-tiba meledak, dan respons dukungan yang tidak peduli menjadi pukulan terakhir
Bug masih bisa dimaklumi, tapi cara memperlakukan pelanggan sulit diterima
Setelah pindah ke Codex, setidaknya pekerjaan berjalan, itu saja
Codex menggandakan batas penggunaan untuk menyerap pelanggan Claude, dan PR-nya juga jauh lebih baik
90% masalah Claude tampaknya berasal dari kekurangan compute
AI harus selalu tampak “sedang maju”, karena stagnasi berarti matinya hype
Memang cepat, tapi tidak ada gunanya mengeluarkan kode berkualitas rendah dengan lebih cepat
Gemini CLI lebih lambat dan kualitasnya juga lebih buruk
Codex cenderung menjilat dengan mengatakan “sempurna” meski ada bug, jadi berbahaya
Kemampuan eksekusinya sangat kuat, dan OpenAI berbicara lewat hasil tanpa banyak marketing
Rasanya seperti Google masa awal yang menang lewat kualitas produk
Filter keamanan siber Opus 4.7 menjadi terlalu ketat sampai riset yang legal pun terblokir
Bahkan ketika guideline program diambil langsung dari web, tetap diblokir sebagai “permintaan berbahaya”
Kalau begini terus, aku akan pindah ke Codex
Seperti di panduan resmi, akses ke sebagian fitur memerlukan proses verifikasi
Karena ini, semua riset yang sedang berjalan jadi terhenti
Mungkin model mendeteksi langkah di reasoning internalnya sendiri sebagai sesuatu yang tampak “ofensif”
Saat bug hunting bergerak ke tahap yang makin ofensif, filter tampaknya mulai aktif
Kini kita hidup di dunia di mana pelanggaran kebijakan adalah segfault baru
Hanya karena ada kata tertentu, reaksinya jadi berlebihan
Sekarang rasanya aku harus minta izin ke AI apakah proyekku berbahaya atau tidak. Aku berencana membatalkan langganan
Thread ini adalah pelajaran bagus untuk para founder
Ini menunjukkan betapa banyak keluhan yang bisa diredam hanya dengan sedikit komunikasi yang jujur
Dari posisiku yang mengunci aplikasi di Opus 4.5, sekarang bahkan sulit membedakan apakah ini masalah model atau masalah harness
Kadang memang cuma sedang apes saja
Dengan begitu aku bisa mengatur jam kerja dan menjalankan pekerjaan berat di malam hari
Dalam situasi sekacau ini, menurutku bijak memakai model broker atau lapisan perantara seperti Copilot
Rasanya perlu ada layanan seperti “AI standar” yang selalu menyediakan model yang sama
Berdasarkan hasil benchmark privat tim kami, Opus 4.7 lebih strategis dan lebih cerdas daripada 4.6/4.5
Hampir setara dengan GPT-5.4, dan dalam sesi agentic yang menggunakan tools malah menunjukkan performa terbaik
link benchmark
Namun ada sedikit regresi dalam pemrosesan konteks. Kami sedang menambahkan benchmark untuk memvisualisasikannya
Belakangan ini kepercayaan terhadap Anthropic menurun
Merilis 4.7 tepat setelah downgrade 4.6 terasa mengkhawatirkan
Sekarang yang dibutuhkan adalah komunikasi yang transparan
OpenAI berinvestasi pada compute sejak awal, dan sekarang itu menjadi keuntungan besar
Bisa jadi mereka sedang melakukan distillation Mythos ke Opus 4.7
Mungkin penyebabnya update harness
Akhir-akhir ini komentar “aku pindah ke Codex” meningkat tajam
Tapi setelah dipakai langsung, Codex masih belum menyamai Claude
Komentar promosi seperti ini justru hanya mengikis kepercayaan
Perusahaanku juga memakai kedua model, tapi sekarang aku hampir selalu memakai Codex
Menurutku kecepatan dan hasilnya lebih baik
Namun kualitas respons Claude lebih baik. Kelebihan dan kekurangannya sangat jelas
Tapi Codex menghasilkan sesuatu yang “secara teknis benar, tapi secara manusia aneh”
Jadi aku memakai Claude untuk menulis spesifikasi dan Codex untuk mengeksekusi
Pada akhirnya orang curiga harga nanti akan dinaikkan
Kebijakan pembatasan keamanan Opus 4.7 bisa berakibat fatal
Untuk meneliti serangan dan mempertahankannya dibutuhkan kemampuan yang simetris, dan memblokir itu berbahaya