3 poin oleh GN⁺ 3 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Performa rekayasa perangkat lunak tingkat lanjut ditingkatkan sehingga mampu menangani tugas kompleks dan berdurasi panjang dengan konsistensi serta akurasi tinggi
  • Pengenalan visual dan pemahaman multimodal ditingkatkan sehingga dapat menganalisis informasi visual kompleks seperti gambar resolusi tinggi, diagram teknis, dan struktur kimia
  • Pengaman keamanan siber bawaan secara otomatis mendeteksi dan memblokir permintaan berisiko tinggi, sementara peneliti keamanan yang sah dapat bergabung dengan Cyber Verification Program
  • Fitur baru seperti kontrol Effort, Task Budget, dan perintah ultrareview meningkatkan efisiensi pekerjaan jangka panjang serta kemampuan verifikasi kualitas kode
  • Peningkatan performa 13% dibanding Opus 4.6 dan reliabilitas tinggi telah dicapai, dan Anthropic sedang menyiapkan rilis aman model kelas Mythos berdasarkan hal ini

Ikhtisar Claude Opus 4.7

  • Claude Opus 4.7 adalah model dengan performa rekayasa perangkat lunak tingkat lanjut yang jauh meningkat dibanding Opus 4.6, mampu menangani tugas kompleks dan berjalan lama dengan konsistensi serta akurasi tinggi
  • Pengguna kini dapat lebih mempercayai dan mendelegasikan tugas coding yang lebih sulit dibanding sebelumnya, dan model akan melaporkan hasil setelah melakukan verifikasi mandiri
  • Kemampuan pengenalan visual diperkuat sehingga menghasilkan kualitas dan kreativitas tinggi pada gambar resolusi tinggi, antarmuka, slide, dokumen, dan lainnya
  • Meski kemampuan umum masih di bawah Claude Mythos Preview milik Anthropic, model ini mencatat hasil lebih baik daripada Opus 4.6 di berbagai benchmark
  • Tersedia di seluruh lini produk Claude dan API, Amazon Bedrock, Google Cloud Vertex AI, dan Microsoft Foundry, dengan harga yang sama seperti Opus 4.6

Langkah terkait keamanan siber

  • Melalui Project Glasswing, Anthropic mengungkap risiko dan manfaat keamanan siber dari AI, membatasi rilis Mythos Preview, dan memutuskan untuk lebih dulu melakukan eksperimen keamanan pada model yang kurang kuat
  • Opus 4.7 adalah model pertama tersebut, dan mencakup pengaman yang secara otomatis mendeteksi serta memblokir permintaan keamanan siber yang dilarang atau berisiko tinggi
  • Berdasarkan data penerapan nyata, Anthropic sedang menyiapkan rilis yang lebih luas untuk model kelas Mythos di masa depan
  • Peneliti keamanan yang sah (analisis kerentanan, penetration testing, red team, dan sebagainya) dapat bergabung dalam Cyber Verification Program

Performa utama dan umpan balik pengguna

  • Pengujian awal mengonfirmasi kemampuan mendeteksi kesalahan logika sendiri dan meningkatkan kecepatan eksekusi
  • Menunjukkan performa unggul dalam workflow asinkron, CI/CD, dan pekerjaan otomasi jangka panjang, serta memberi pendekatan masalah dan opini yang mendalam, bukan sekadar menyetujui
  • Menghindari penalaran keliru saat data tidak lengkap dan tidak terjebak pada jebakan data yang tidak konsisten
  • Pada 93 benchmark coding, ada peningkatan 13% dibanding Opus 4.6, termasuk menyelesaikan 4 tugas tambahan yang sebelumnya tidak terselesaikan
  • Menunjukkan konsistensi kelas tertinggi dalam efisiensi tugas multilangkah; pada modul keuangan, model ini meraih skor 0.813, melampaui Opus 4.6 (0.767)
  • Pemahaman multimodal meningkat sehingga interpretasi struktur kimia dan diagram teknis kompleks menjadi lebih baik
  • Kemampuan menjalankan tugas jangka panjang secara otonom diperkuat, memungkinkan pemecahan masalah yang konsisten selama berjam-jam
  • Sejumlah perusahaan seperti Replit, Harvey, Hex, Notion, Databricks, dan Vercel melaporkan peningkatan pada kualitas kode, akurasi pemanggilan tool, dan reliabilitas workflow jangka panjang
  • Sebagai contoh nyata, model ini mengembangkan mesin sintesis suara berbasis Rust secara sepenuhnya otonom dan memverifikasi sendiri kecocokannya dengan model referensi Python

Peningkatan utama dalam pengujian awal

  • Akurasi interpretasi perintah

    • Opus 4.7 menafsirkan instruksi secara harfiah dan mematuhinya jauh lebih ketat dibanding model sebelumnya
    • Prompt lama dapat menghasilkan keluaran yang tidak terduga, sehingga penyesuaian ulang prompt diperlukan
  • Dukungan multimodal yang diperkuat

    • Dapat memproses gambar hingga resolusi 2.576 piksel (sekitar 3,75 MP)
    • Cocok untuk tugas yang memanfaatkan informasi visual detail seperti analisis diagram kompleks dan ekstraksi data berbasis screenshot
  • Performa pada pekerjaan nyata

    • Menawarkan profesionalisme dan konsistensi yang lebih tinggi daripada Opus 4.6 dalam analisis keuangan, presentasi, dan pemodelan
    • Pada evaluasi eksternal GDPval-AA, model ini juga mencatat performa kelas atas di bidang kerja berbasis pengetahuan seperti keuangan dan hukum
  • Pemanfaatan memori

    • Menggunakan memori berbasis file system secara efisien untuk mengingat dan menggunakan kembali konteks pekerjaan lintas beberapa sesi

Evaluasi keamanan dan alignment

  • Secara keseluruhan menunjukkan profil keamanan yang mirip dengan Opus 4.6, dengan tingkat masalah yang rendah pada penipuan, sanjungan, dan kerja sama untuk penyalahgunaan
  • Kejujuran dan ketahanan terhadap malicious prompt injection meningkat, tetapi sedikit melemah di beberapa area tertentu (misalnya saran berlebihan terkait obat-obatan)
  • Hasil evaluasi menyimpulkan bahwa model ini “secara umum ter-align dengan baik dan dapat dipercaya, tetapi belum sepenuhnya ideal
  • Mythos Preview masih dinilai sebagai model dengan alignment terbaik

Fitur rilis tambahan

  • Penguatan kontrol Effort

    • Ditambahkan level baru xhigh di antara high dan max, memungkinkan penyesuaian lebih rinci antara kemampuan penalaran dan latensi
    • Di Claude Code, level Effort default dinaikkan menjadi xhigh
  • Claude Platform(API)

    • Bersamaan dengan dukungan gambar resolusi tinggi, fitur Task Budget tersedia dalam beta publik, memungkinkan penyesuaian prioritas penggunaan token pada pekerjaan jangka panjang
  • Claude Code

    • Perintah baru /ultrareview menjalankan sesi peninjauan perubahan kode dan deteksi bug
    • Pengguna Pro dan Max mendapat 3 kali ultrareview gratis
    • Auto Mode diperluas ke pengguna Max untuk mengurangi proses persetujuan selama pekerjaan jangka panjang dan memungkinkan eksekusi tanpa interupsi

Migrasi dari Opus 4.6 ke 4.7

  • Opus 4.7 dapat di-upgrade secara langsung, tetapi perlu memperhatikan perubahan penggunaan token
    • Karena tokenizer baru, input yang sama dapat dikonversi menjadi sekitar 1,0~1,35 kali lebih banyak token
    • Pada level Effort tinggi, model melakukan lebih banyak penalaran sehingga token output dapat meningkat
  • Penggunaan token dapat dikendalikan melalui parameter Effort, Task Budget, dan desain prompt yang ringkas
  • Pengujian internal mengonfirmasi peningkatan efisiensi di seluruh level Effort
  • Metode upgrade yang lebih rinci tersedia di Migration Guide

1 komentar

 
GN⁺ 3 hari lalu
Opini Hacker News
  • Aku merasa konsep adaptive thinking yang baru diperkenalkan sangat membingungkan
    Sebelumnya aku menulis kode dengan mode thinking budget / effort, tapi sekarang perilakunya benar-benar berbeda
    Bahkan setelah membaca dokumentasi resmi, aku masih belum benar-benar paham
    Selain itu, di 4.7 ringkasan reasoning yang bisa dibaca manusia tidak keluar secara default. Kita harus menambahkan opsi "display": "summarized" sendiri
    Saat ini aku sedang menjalankan proyek Pelican, dan terus mentok karena cara thinking yang baru

    • Jawaban Boris terhadap bug report-ku adalah “sepertinya adaptive thinking tidak bekerja dengan benar”, tapi setelah itu tidak ada kabar lagi
      Lihat thread terkait
      Setelah adaptive thinking dimatikan dan effort dinaikkan, hasilnya kembali seperti dulu
      Tapi jawaban seperti “di evaluasi internal kami ini bekerja dengan baik” tidak cukup. Banyak pengguna melaporkan masalah yang sama
    • Ada yang bercanda bahwa kalimat “ingin menghasilkan pelican yang bagus” terdengar seperti p-hacking (manipulasi statistik). Di sini p adalah p dari pelican, jadi permainan kata
    • Claude Opus 4.6 memberiku banyak hasil yang benar-benar lucu
      screenshot
    • Di Claude Code, tampaknya ditambahkan opsi command line tidak resmi --thinking-display summarized
      Pengguna VS Code bisa membuat wrapper script yang berisi exec "$@" --thinking-display summarized lalu memasukkannya ke pengaturan claudeCode.claudeProcessWrapper untuk melihat lagi ringkasan reasoning
    • Aku jadi penasaran apakah sekarang Claude tidak lagi menampilkan seluruh reasoning dan hanya menunjukkan ringkasannya
      Dulu mengungkap CoT (Chain of Thought) LLM dianggap inti dari keselamatan, tapi sepertinya arah kebijakannya berubah
  • Tokenizer baru di Opus 4.7 meningkatkan efisiensi pemrosesan teks, tetapi input dipetakan menjadi 1.0~1.35x lebih banyak token
    Karena itu aku justru merasa output proyek caveman lebih enak dibaca
    repo caveman

    • caveman pada dasarnya hampir seperti proyek bercanda
      Sebagian besar konteks dipakai untuk membaca file dan reasoning, jadi penghematan token nyata bahkan tidak sampai 1%. Malah bisa membuat model bingung
    • caveman memang seru, tapi kalau benar-benar ingin menghemat token, headroom lebih baik
      mac app, versi CLI
    • Aku pernah bereksperimen menghapus 100~1000 kata bahasa Inggris paling umum dari prompt
      Aku pikir kata-kata umum itu mungkin noise, tapi perbedaan hasilnya hampir tidak ada
      Aku ingin membandingkannya langsung dengan caveman
    • Ada yang mengusulkan pendekatan seperti rtk-ai/rtk
    • Dalam benchmark minyak & gas internal-ku, Opus 4.7 mencetak 80%, lebih tinggi dari Opus 4.6 (64%) dan GPT-5.4 (76%)
      Ini berkat berkurangnya penggunaan token reasoning. Ini menunjukkan bahwa membandingkan biaya model hanya dari harga token saja sekarang sudah tidak terlalu bermakna
  • Setelah melihat pengumuman bahwa Anthropic merilis Opus 4.7 sebagai model dengan pembatasan keamanan siber, aku merasa ini strategi yang gagal
    Menyensor pengetahuan keamanan sambil ingin mengembangkan software yang aman adalah kontradiksi
    Kecuali semua perusahaan AI memakai kebijakan yang sama, efektivitasnya juga kecil. Pada akhirnya pendekatan ini sepertinya akan ditinggalkan

    • Aku bukan pakar keamanan, tapi saat membangun proyek open source aku butuh AI yang membantu verifikasi kerentanan
      Namun pembatasan seperti ini justru mengarah pada sentralisasi keamanan, jadi sulit dianggap sebagai peningkatan keamanan yang nyata
    • Aku merasa pengaman berlebihan di tahap pelatihan justru menggerus kecerdasan umum
      Seperti orang yang IQ-nya turun 10% ketika disuruh berdiri di depan whiteboard saat wawancara, model juga jadi tertekan
    • Sekarang model terlalu pintar untuk hacking, tapi masih belum cukup untuk pekerjaan ekonomis, sebuah keadaan yang aneh
      Jadi arahnya tampak seperti “dibuat bodoh secara selektif”. Rasanya eksperimen itu memang sedang dilakukan
    • Dalam jangka pendek, menurutku ini langkah yang lumayan
      Penyerang hanya perlu berhasil sekali, sedangkan pembela harus berhasil setiap saat, jadi ini bisa membeli waktu
  • Karena penurunan kualitas 4.6 minggu lalu, aku akhirnya pindah ke Codex
    4.6 bahkan tidak melakukan web search dan menghabiskan 17K token untuk omong kosong. Contoh parallel processing juga diimplementasikan sepenuhnya salah

    • Aku juga membatalkan langganan Pro karena alasan yang sama
      Penggunaan token tiba-tiba meledak, dan respons dukungan yang tidak peduli menjadi pukulan terakhir
      Bug masih bisa dimaklumi, tapi cara memperlakukan pelanggan sulit diterima
      Setelah pindah ke Codex, setidaknya pekerjaan berjalan, itu saja
    • Banyak orang bilang OpenAI akan runtuh karena kelebihan compute, tapi sekarang justru jadi keunggulan strategis
      Codex menggandakan batas penggunaan untuk menyerap pelanggan Claude, dan PR-nya juga jauh lebih baik
      90% masalah Claude tampaknya berasal dari kekurangan compute
    • Ini teori konspirasiku, tapi rasanya performa sengaja diturunkan sebelum rilis model baru agar versi berikutnya terlihat lebih baik
      AI harus selalu tampak “sedang maju”, karena stagnasi berarti matinya hype
    • Aku sudah mencoba Codex, tapi untuk kebutuhanku jauh lebih inferior
      Memang cepat, tapi tidak ada gunanya mengeluarkan kode berkualitas rendah dengan lebih cepat
      Gemini CLI lebih lambat dan kualitasnya juga lebih buruk
      Codex cenderung menjilat dengan mengatakan “sempurna” meski ada bug, jadi berbahaya
    • Meski begitu, Codex tetap mendapat tempat di toolkit-ku
      Kemampuan eksekusinya sangat kuat, dan OpenAI berbicara lewat hasil tanpa banyak marketing
      Rasanya seperti Google masa awal yang menang lewat kualitas produk
  • Filter keamanan siber Opus 4.7 menjadi terlalu ketat sampai riset yang legal pun terblokir
    Bahkan ketika guideline program diambil langsung dari web, tetap diblokir sebagai “permintaan berbahaya”
    Kalau begini terus, aku akan pindah ke Codex

    • Sekarang bahkan mungkin akan diminta Identity Verification
      Seperti di panduan resmi, akses ke sebagian fitur memerlukan proses verifikasi
    • Di API memang muncul error “Usage Policy violation” bersama link pendaftaran Cyber Verification Program
      Karena ini, semua riset yang sedang berjalan jadi terhenti
    • Aku pernah diblokir di tengah sesi, padahal input-nya tetap sama
      Mungkin model mendeteksi langkah di reasoning internalnya sendiri sebagai sesuatu yang tampak “ofensif”
      Saat bug hunting bergerak ke tahap yang makin ofensif, filter tampaknya mulai aktif
      Kini kita hidup di dunia di mana pelanggaran kebijakan adalah segfault baru
    • Yang lebih parah, bahkan saat menulis kodeku sendiri, model kadang mengeluarkan kalimat seperti “ini bukan malware” dengan sendirinya
      Hanya karena ada kata tertentu, reaksinya jadi berlebihan
      Sekarang rasanya aku harus minta izin ke AI apakah proyekku berbahaya atau tidak. Aku berencana membatalkan langganan
    • Bahkan tugas sederhana mengirim PDF ke printer pun ditolak
  • Thread ini adalah pelajaran bagus untuk para founder
    Ini menunjukkan betapa banyak keluhan yang bisa diredam hanya dengan sedikit komunikasi yang jujur
    Dari posisiku yang mengunci aplikasi di Opus 4.5, sekarang bahkan sulit membedakan apakah ini masalah model atau masalah harness

    • Di thread seperti ini selalu ada takhayul bahwa “Anthropic men-nerf modelnya”
      Kadang memang cuma sedang apes saja
    • Jika model memang sengaja diperlambat karena beban, penting untuk menjelaskannya secara terang
      Dengan begitu aku bisa mengatur jam kerja dan menjalankan pekerjaan berat di malam hari
    • Opus 4.5 sangat konsisten, tapi 4.6 naik turun
    • Aku pengembang pemula dan sedang belajar perbedaan antar model
      Dalam situasi sekacau ini, menurutku bijak memakai model broker atau lapisan perantara seperti Copilot
    • Karena ketidakstabilan seperti ini, pengguna jadi makin paranoid
      Rasanya perlu ada layanan seperti “AI standar” yang selalu menyediakan model yang sama
  • Berdasarkan hasil benchmark privat tim kami, Opus 4.7 lebih strategis dan lebih cerdas daripada 4.6/4.5
    Hampir setara dengan GPT-5.4, dan dalam sesi agentic yang menggunakan tools malah menunjukkan performa terbaik
    link benchmark
    Namun ada sedikit regresi dalam pemrosesan konteks. Kami sedang menambahkan benchmark untuk memvisualisasikannya

    • Ada yang penasaran mengapa tingkat keberhasilan Opus 4.7 lebih rendah daripada Sonnet 4.6, tetapi persentil rata-ratanya justru lebih tinggi
    • Ada juga pertanyaan apakah 4.6 atau 4.5 mengalami regresi performa setelah rilis awal
  • Belakangan ini kepercayaan terhadap Anthropic menurun
    Merilis 4.7 tepat setelah downgrade 4.6 terasa mengkhawatirkan
    Sekarang yang dibutuhkan adalah komunikasi yang transparan

    • Inti masalahnya adalah kekurangan compute
      OpenAI berinvestasi pada compute sejak awal, dan sekarang itu menjadi keuntungan besar
    • Mungkin performa Opus menurun karena mereka sedang melatih Mythos
      Bisa jadi mereka sedang melakukan distillation Mythos ke Opus 4.7
    • Ada yang bertanya mengapa Claude berbasis Bedrock juga ikut melambat
      Mungkin penyebabnya update harness
    • Integrasi verifikasi Persona ID menjadi pukulan terakhir. Setelah itu aku pergi
    • Sulit membayangkan apakah bisa terus bertahan dengan cara seperti ini
  • Akhir-akhir ini komentar “aku pindah ke Codex” meningkat tajam
    Tapi setelah dipakai langsung, Codex masih belum menyamai Claude
    Komentar promosi seperti ini justru hanya mengikis kepercayaan

    • Tetapi pada kenyataannya banyak developer memang lebih memilih Codex
      Perusahaanku juga memakai kedua model, tapi sekarang aku hampir selalu memakai Codex
      Menurutku kecepatan dan hasilnya lebih baik
    • Aku juga sempat menjalankan pilot singkat, dan Codex menyelesaikan masalah lebih dari 4x lebih cepat daripada Claude
      Namun kualitas respons Claude lebih baik. Kelebihan dan kekurangannya sangat jelas
    • Saat diberi tugas refactoring yang sama, Codex butuh 5 menit, Claude 20 menit
      Tapi Codex menghasilkan sesuatu yang “secara teknis benar, tapi secara manusia aneh”
      Jadi aku memakai Claude untuk menulis spesifikasi dan Codex untuk mengeksekusi
    • Ada sindiran “Java yang terbaik”, bahwa perdebatan seperti ini pada akhirnya tidak beda dengan perang bahasa pemrograman
    • Ada kritik bahwa OpenAI sedang memperbesar pangsa pasar dengan strategi subsidi berlebihan
      Pada akhirnya orang curiga harga nanti akan dinaikkan
  • Kebijakan pembatasan keamanan Opus 4.7 bisa berakibat fatal
    Untuk meneliti serangan dan mempertahankannya dibutuhkan kemampuan yang simetris, dan memblokir itu berbahaya

    • Kemungkinan ini langkah untuk product positioning Mythos
    • Sekarang, untuk melakukan riset keamanan yang legal, orang malah harus menipu model
    • Jika kebijakan seperti ini terus berlanjut, aku akan meninggalkan platform
    • Ada yang merasa istilah “fatal” terlalu berlebihan, sambil bertanya dari mana tepatnya asimetri itu berasal
    • Pada akhirnya terasa seperti kita sedang menuju masa ketika hanya software yang disetujui Anthropic atau pemerintah yang diakui aman