20 poin oleh GN⁺ 2026-02-06 | 7 komentar | Bagikan ke WhatsApp
  • Model AI terbaru dari Anthropic dengan kemampuan coding dan ketahanan kerja jangka panjang yang ditingkatkan, serta mendukung jendela konteks 1M token dalam versi beta
  • Mencatat skor kelas atas industri di benchmark utama, dengan keunggulan sekitar 144 poin Elo dibanding GPT-5.2
  • Performa diperkuat untuk tugas yang berfokus pada pekerjaan nyata seperti code review·debugging, pemrosesan codebase skala besar, serta analisis keuangan·penulisan dokumen
  • Fitur kontrol pengembang seperti Adaptive thinking, context compaction, dan pengaturan effort ditambahkan agar lebih mudah mengoperasikan agen yang berjalan jangka panjang
  • Dalam evaluasi keselamatan juga menunjukkan hasil dengan tingkat kesalahan·penyalahgunaan·over-refusal yang rendah, sehingga dinilai sebagai model yang mencapai performa tinggi sekaligus keamanan

Peningkatan utama Claude Opus 4.6

  • Opus 4.6 adalah model dengan peningkatan kemampuan perencanaan, persistensi agen, dan pengelolaan kualitas kode dibanding versi sebelumnya
    • Bekerja lebih stabil pada codebase skala besar, dengan kemampuan deteksi dan perbaikan kesalahan mandiri yang diperkuat
    • Jendela konteks 1M token (beta) memungkinkan pemrosesan tugas panjang dan kompleks
  • Kegunaan untuk pekerjaan sehari-hari juga diperluas, mencakup analisis keuangan, riset, dokumen, spreadsheet, dan pembuatan presentasi
  • Di lingkungan Cowork, model dapat menjalankan multitasking secara otonom dan menangani pekerjaan kompleks atas nama pengguna

Benchmark dan evaluasi performa

  • Meraih skor tertinggi di Terminal-Bench 2.0, dan juga memimpin di Humanity’s Last Exam di antara semua model frontier
  • Pada evaluasi GDPval-AA, performanya sekitar 144 poin Elo di atas GPT-5.2 dan 190 poin lebih tinggi dari Opus 4.5
  • Juga mencatat performa terbaik pada tes BrowseComp, dengan kemampuan penelusuran informasi online yang ditingkatkan
  • Pada MRCR v2 (1M variant) memperoleh skor 76%, peningkatan besar dibanding 18.5% milik Sonnet 4.5
  • Kemampuan mempertahankan konteks panjang dan melacak informasi ditingkatkan sehingga fenomena context rot berkurang

Pengalaman penggunaan awal dan masukan mitra

  • Dalam pengujian engineering internal, kemampuan memecahkan masalah kompleks dan penilaian meningkat
    • Untuk masalah sulit, model mengulang pemikiran mendalam untuk menghasilkan hasil yang lebih baik
    • Pada tugas sederhana, pemikiran berlebihan bisa menyebabkan keterlambatan sehingga dapat diatur dengan parameter /effort
  • Mitra awal menilai Opus 4.6 unggul dalam kemampuan eksekusi otonom, penanganan permintaan kompleks, dan dukungan kolaborasi tim
    • Menunjukkan performa presisi dalam penelusuran codebase besar, menjalankan subtugas paralel, dan mengidentifikasi blocker
    • Akurasi tinggi dalam analisis konten hukum, keuangan, dan teknis (misalnya BigLaw Bench 90.2%)
    • Dalam pengujian nyata, memberikan hasil lebih baik daripada Opus 4.5 pada 38 dari 40 investigasi keamanan siber
    • Ada laporan kasus migrasi jutaan baris kode selesai dalam setengah waktu

Penguatan keselamatan dan keamanan

  • Dalam audit perilaku otomatis, rasio perilaku tidak selaras seperti penipuan, menjilat, dan kerja sama untuk penyalahgunaan tergolong rendah
  • Menjadi model Claude dengan tingkat over-refusal terendah
  • Dilakukan evaluasi keselamatan baru terkait kesejahteraan pengguna, penolakan permintaan berisiko, dan deteksi perilaku berbahaya terselubung
  • Melalui riset interpretabilitas, penyebab kerja internal model dianalisis dan potensi masalah dideteksi
  • Seiring penguatan kemampuan keamanan siber, diperkenalkan 6 probe keamanan baru untuk memperkuat deteksi penyalahgunaan
  • Untuk pemanfaatan defensif, model membantu deteksi dan patch kerentanan open source, dengan rencana pemblokiran penyalahgunaan secara real-time di masa depan

Pembaruan produk dan API

  • Di Claude Developer Platform, fitur berikut ditambahkan
    • Adaptive thinking: model secara otomatis menentukan apakah perlu berpikir mendalam sesuai situasi
    • Level effort: tersedia empat tahap low, medium, high (default), dan max
    • Context compaction (beta): saat percakapan menjadi panjang, konteks lama diringkas dan digantikan
    • Dukungan konteks 1M token (beta) dan 128k output token
    • Opsi US-only inference tersedia (biaya 1.1x)
  • Claude Code menambahkan fitur agent teams, memungkinkan beberapa agen berkolaborasi secara paralel
  • Claude in Excel meningkatkan kemampuan penataan data tidak terstruktur dan penanganan perubahan multilangkah
  • Claude in PowerPoint (research preview) mengenali template slide, font, dan layout untuk menjaga konsistensi brand

Akses dan harga

  • Opus 4.6 langsung tersedia di claude.ai, API, dan platform cloud utama
  • Nama model API adalah claude-opus-4-6, dengan harga $5/$25 per million tokens, sama seperti sebelumnya
  • Untuk prompt di atas 200k token, berlaku tarif premium ($10/$37.50 per million tokens)

Kesimpulan

  • Claude Opus 4.6 menghadirkan lompatan besar dalam pemrosesan konteks jangka panjang, pekerjaan agen otonom, dan kemampuan penalaran tingkat lanjut
  • Sebagai model yang memperkuat performa, keselamatan, dan kendali pengembang sekaligus, model ini menetapkan standar baru bagi alat AI untuk penggunaan praktis

7 komentar

 
heim2 2026-02-06

Pakai Max sih, entah kenapa makin banyak token yang dipakai makin terasa puas... kalau nggak dipakai malah sayang...

 
wegaia 2026-02-06

Sepertinya postingan di Reddit tentang limit pelanggan yang habis dengan kecepatan kilat sedang membanjir.
Karena masih ada pekerjaan yang sedang saya lakukan juga, jadi saya tetap pakai 4.5 saja

 
princox 2026-02-06

Huh, pelit banget.. Anthropic tolong hamburkan token dong..!!

 
hmmhmmhm 2026-02-06

Wah akhirnya~~~~

 
princox 2026-02-06

Saya berharap Sonnet 5, ternyata yang keluar Opus 4.6 haha

 
GN⁺ 2026-02-06
Komentar Hacker News
  • Rangka sepedanya agak miring, tapi pelikan itu sendiri luar biasa
    Gambarnya bisa dilihat di sini

    • Jadi penasaran apakah model ini overfitting pada gambar pelikan
    • Penasaran apakah pilihan kata seperti “generate” memengaruhi hasil model
      Saya langsung menyadari kedua kaki pelikan ada di sisi yang sama, lalu mengecek di Wikipedia dan memastikan bahwa aslinya tidak begitu
      Penasaran apakah mereka juga bereksperimen dengan mengubah prompt berulang kali untuk mendapatkan hasil yang lebih realistis
    • Sebenarnya kebanyakan orang juga tidak bisa menggambar sepeda dengan benar
      Mereka sering salah pada struktur rangka atau proporsi geometris
    • Ada juga versi animasinya
      Tautan
    • Saya rasa pada akhirnya akan datang saat output seperti ini dimasukkan kembali ke pelatihan model dan jadi bisa lolos benchmark
  • GPT‑5.3 Codex menunjukkan performa dominan dengan 77,3% di Terminal Bench
    Mengejutkan bahwa rekor itu pecah hanya dalam 35 menit

    • Karena performa model berubah tergantung waktu dan beban server, saya ragu apakah keandalan benchmark seperti ini bisa dipercaya
      Apakah mungkin setelah rilis model dijalankan pada performa puncak lalu kemudian diturunkan demi penghematan biaya?
    • Karena tidak ada laporan benchmark yang luas, saya bertanya-tanya apakah ini sudah berubah menjadi benchmaxxing
      Saya ingin mencobanya sendiri lalu berbagi pendapat
    • Kenaikan skor 10 poin adalah perubahan besar, jadi saya penasaran apakah akan terasa juga perbedaan kualitas dalam penggunaan nyata
      Mungkin kita sudah mencapai kondisi benchmark yang jenuh
    • Claude swe-bench ada di 80,8 sementara Codex 56,8, jadi secara keseluruhan Claude 4.6 masih tampak lebih unggul
  • Ini ringkasan catatan rilis Claude Code
    Berisi berbagai pembaruan seperti penambahan Opus 4.6, kolaborasi multi-agent, pencatatan memori otomatis, ringkasan percakapan parsial, dan peningkatan VSCode

    • Bagian “Claude secara otomatis mencatat dan memanggil ingatan saat bekerja” terasa menarik
      Jika melihat dokumentasi fitur memori, konsepnya tampak mirip dengan Knowledge artifact milik Google Antigravity
  • Saya rasa ada dua hal yang tercampur dalam diskusi ini
    Pertama adalah profitabilitas berbasis harga per token, kedua adalah ekonomi siklus hidup model
    Biaya inferensi bisa saja menguntungkan, tetapi keseluruhan program model masih bisa merugi
    Pertanyaan sebenarnya adalah “berapa lama model harus tetap kompetitif agar secara ekonomi masuk akal”

    • Perlu mengingat “worse is better
      Meski bukan yang terbaik, kalau sudah cukup bagus dan biaya pindahnya tinggi, produk itu bisa menguasai pasar
      Pada tahap awal, menanggung rugi untuk mengamankan pasar di domain tertentu (misalnya coding) bisa jadi langkah yang masuk akal
    • Berdasarkan paket harga API, sepertinya memang ada sedikit keuntungan
      Tapi paket yang penggunaan-nya 20 kali lebih besar terasa diragukan keberlanjutannya
      Saya tidak yakin “renaissance vibe-coding” saat ini bisa bertahan dengan struktur biaya seperti itu
    • Seperti yang dikatakan Dario di podcast, model itu menguntungkan jika dilihat sepanjang masa hidupnya
      Melihat laba-rugi per tahun kurang tepat untuk karakter perusahaan AI
    • Yang benar-benar menarik adalah apakah “paket $200/bulan disubsidi”
      Inilah yang menopang booming coding berbasis agen saat ini
      Mungkin memang sedikit disubsidi, tetapi dalam jangka panjang kemungkinan naik sekitar 2 kali lipat
  • Adanya jendela konteks 1M adalah peningkatan yang luar biasa dan saya sangat senang dengannya

  • Saya masih belum benar-benar memahami strategi Anthropic
    Pemasarannya seperti mengejar pasar umum, tetapi kekuatan nyatanya justru berpusat pada coding
    Untuk riset umum atau penelusuran informasi, ChatGPT dan Gemini jauh lebih dalam dan ekspresif
    Mereka memakai pemasaran yang menonjolkan “konstitusi” atau “hak asasi manusia”, tetapi justru terasa paling transaksional
    Meski begitu, untuk coding hasilnya luar biasa sehingga saya tetap membayar untuk memakainya

    • Di luar kode, Claude juga bekerja cukup baik dalam percakapan umum
      Teman-teman nonteknis saya juga pindah dari ChatGPT ke Claude, dan saya belum melihat ada yang kembali lagi
      Delapan bulan lalu rasanya hanya layak dipakai lewat API, tetapi sekarang sudah jauh lebih baik
    • Dalam bahasa selain Inggris, kualitasnya turun drastis
      Saya pengguna bahasa Ceko, dan Claude suka mengarang kata, sementara Grok kadang malah menjawab dalam bahasa Rusia
      Untuk coding bagus, tetapi untuk percakapan umum tidak memungkinkan
    • Model ini tidak terasa cocok untuk penggunaan sehari-hari
      Ia bagus untuk pekerjaan berbasis agen atau penggunaan alat, tetapi saya tidak memakainya untuk pertanyaan harian
  • Opus 4.6 tidak muncul saat instalasi, tetapi setelah menjalankan ulang perintah pemasangan, modelnya muncul (v2.1.32)
    Panduan instalasi

    • Sudah saya pakai sekarang
  • Saya penasaran apakah biaya operasional AI/LLM benar-benar sedang turun
    Konsep “tim agen” memang keren, tetapi kalau banyak model dijalankan sekaligus biayanya terasa terlalu besar sehingga sulit realistis

    • Biaya per token memang terus turun
      OpenAI menurunkan harga o3 menjadi 1/5 lewat optimasi engineering, dan perusahaan lain juga mendapat penghematan serupa
      Pernyataan lama bahwa “mereka rugi di setiap permintaan” tidak sesuai fakta
    • Rumor itu terus berulang, tetapi menurut saya biaya inferensi per unit tidak mungkin lebih rendah daripada harga pokok
      Seluruh perusahaan bisa rugi karena biaya R&D dan pelatihan, tetapi penggunaan API itu sendiri menguntungkan
      Model terbuka seperti DeepSeek pun tetap menghasilkan untung dengan harga yang jauh lebih rendah
    • Jika melihat data aktual, rasanya mustahil mereka rugi
      Misalnya Claude 4 (sekitar 400B parameter) jauh lebih mahal daripada DeepSeek V3 (680B)
      Input Claude $1/M, output $5/M vs input DeepSeek $0.4/M, output $1.2/M
      Selisih ini ada karena Anthropic harus memulihkan biaya pelatihan
      Harga DeepSeek, Harga Claude
    • Perhitungan laba-rugi yang sebenarnya memang sulit, karena ada banyak ketidakpastian seperti depresiasi dan umur model
      Jika hanya melihat pendapatan inferensi memang untung, tetapi jika melihat total biaya belum tentu begitu
    • Tingkat pemanfaatan agen AI masih rendah
      Saya memakainya untuk membantu coding, tetapi sering perlu koreksi arah
      Meski begitu, tetap jauh lebih murah daripada mempekerjakan tenaga ahli
  • Frasa “We build Claude with Claude” cukup menarik

    • Claude Code memiliki lebih dari 6000 isu terbuka
      Meski dibersihkan otomatis setelah 60 hari tidak aktif, jumlahnya terus bertambah
    • Menurut saya ini produk yang sangat sukses
      Selain menunjukkan bias tertentu, frasa itu sendiri tidak banyak berarti
    • Saya melihat ini sebagai contoh pentingnya dogfooding
      Memakai produk sendiri adalah cara terbaik untuk meningkatkan kualitas
    • Sandboxing di CC hampir terasa seperti lelucon
      Itulah sebabnya wrapper bermunculan seperti sekarang, dan rasanya suatu hari akan terjadi insiden keamanan
    • Jadi ini menjelaskan kenapa Claude Code punya struktur aplikasi React yang ditampilkan lewat terminal
  • Mereka sedang memberikan tambahan kredit $50 agar orang mencoba Opus 4.6
    Bisa langsung diambil dari halaman penggunaan
    Kemungkinan mereka memperkirakan kenaikan penggunaan token atau memang ingin mempromosikan model ini