7 poin oleh GN⁺ 2025-08-06 | 1 komentar | Bagikan ke WhatsApp
  • Claude Opus 4.1 adalah versi upgrade yang memperkuat coding praktis, kerja agentic, dan kemampuan penalaran
  • Merekam kinerja kode tertinggi 74,5% di SWE-bench Verified, serta menunjukkan hasil unggul pada debugging presisi untuk basis kode berskala besar, refaktor multi-file dan lain-lain
  • Menerima apresiasi dari Rakuten, GitHub, Windsurf, dan pengguna nyata lain untuk akurasi revisi kode, efisiensi pada debugging harian, dan peningkatan yang jelas pada benchmark pengembang junior
  • Menampilkan performa yang semakin matang di lingkungan pengembangan nyata untuk refaktor multi-file dan revisi kode terperinci
  • Bagi pengguna Opus 4 sebelumnya, dapat langsung digunakan tanpa biaya tambahan di API, Claude Code, Amazon Bedrock, Google Vertex AI

Fitur Utama Claude Opus 4.1

  • Dibandingkan Claude Opus 4, performa meningkat pada pekerjaan agentic, penulisan kode nyata, dan tugas penalaran kompleks
  • Dalam beberapa minggu ke depan, akan ada peningkatan berskala lebih besar dari model

Peningkatan Utama

  • SWE-bench Verified mencapai kinerja kode 74,5%
    • Kemampuan riset mendalam dan analisis data, terutama pelacakan detail dan pencarian berbasis agentic, menunjukkan peningkatan yang sangat menonjol
    • Pada benchmark berbasis kode nyata untuk menyelesaikan bug di repositori open source berskala besar, mencatat performa yang baik
  • Refaktor multi-file, debugging presisi di dalam basis kode besar, dan pekerjaan pengembang dunia nyata lainnya dioptimalkan
    • Di GitHub, Opus 4.1 menunjukkan peningkatan performa dibanding Opus 4 di hampir semua fitur, dengan hasil paling menonjol pada tugas refaktor kode multi-file
    • Rakuten Group menilai Opus 4.1 karena mampu memperbaiki hanya bagian yang benar-benar dibutuhkan di basis kode yang sangat besar sambil mempertahankan gaya, tanpa modifikasi berlebihan atau masuknya bug
    • Perusahaan Windsurf menunjukkan bahwa pada benchmark pengembang junior internal, Opus 4.1 tampil satu deviasi standar lebih baik dibandingkan Opus 4, dan menilai lonjakan ini sebanding dengan upgrade dari Sonnet 3.7 ke Sonnet 4

Perbandingan Kinerja per Kategori Utama

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • Opus 4 sebelumnya: 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • → Mencatat akurasi tertinggi pada pekerjaan perbaikan kode open source nyata
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (tertinggi)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Graduate-level reasoning (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (tertinggi)
    • Gemini 2.5 Pro: 86.4% (tertinggi)
  • Agentic tool use (TAU-bench)
    • Skenario Retail: Claude Opus 4.1 82.4% (tertinggi), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Skenario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro tidak menyediakan skor untuk bagian ini
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (tertinggi)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: tidak tersedia
  • Visual reasoning (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (tertinggi)
    • Gemini 2.5 Pro: 82% (tertinggi)
  • High school math competition (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (tertinggi)
    • Gemini 2.5 Pro: 88% (tertinggi)
  • Ringkasan Tabel Benchmark

    • Claude Opus 4.1 menunjukkan tren meningkat konsisten di semua area dibanding generasi sebelumnya, dan mencatat skor tertinggi pada benchmark berorientasi praktis seperti otomasi kode nyata, refaktor multi-file, QA multibahasa, dan penggunaan alat
    • Pada area matematika, visual reasoning, dan GPQA, OpenAI o3 serta Gemini 2.5 Pro masih unggul di beberapa kategori, tetapi pada produktivitas kode nyata dan QA multibahasa, Claude Opus 4.1 yang paling menonjol
    • Pada skenario Airline (Agentic tool use) terjadi sedikit penurunan, sedangkan visual reasoning dan matematika masih sedikit di bawah model lain

Lingkungan Penggunaan dan Deployment Nyata

  • Untuk pengguna Opus 4 yang sudah ada, disarankan upgrade langsung di API ke claude-opus-4-1-20250805
  • Dapat dipasang dan dimanfaatkan melalui berbagai jalur seperti API, Claude Code, Amazon Bedrock, Google Vertex AI
  • Harga sama seperti Opus 4, dan bagi pengguna lama disarankan upgrade segera
  • Sistem card, deskripsi model, harga, dokumentasi resmi, serta metode evaluasi dan detail benchmark juga dirilis

Rencana ke Depan

  • Opus 4.1 adalah upgrade ringan yang mencerminkan perkembangan terbaru di bidang coding dan penalaran, dengan lompatan lebih besar diperkirakan akan diumumkan dalam beberapa minggu ke depan
  • Perbaikan performa yang berkelanjutan dan perluasan fitur akan dilakukan dengan mengadopsi masukan pengguna

Referensi

  • Data sumber perbandingan terbaru dengan model seperti OpenAI o3 dan Gemini 2.5 Pro, hasil benchmark, serta status penggunaan extended reasoning per model ditampilkan secara transparan

1 komentar

 
GN⁺ 2025-08-06
Opini Hacker News
  • Tiga laboratorium utama mengumumkan sesuatu hampir bersamaan dengan selisih beberapa jam, rasanya seperti plot gila di anime.

    • Inilah alasan tim PR itu ada: menjadi sorotan di halaman depan HN atau situs berita itu sangat penting; meski tidak menjadi nomor satu, saya rasa menyebarkan fokus perhatian dari pesaing itu wajib.
    • Kalau melihat rumor GPT-5, menurutku ini masih di awal Agustus.
    • Aneh rasanya hidup di zaman seperti ini.
    • Terasa seperti mereka menunggu kompetitor meluncurkan dulu, lalu merilis serentak agar pasar yang memutuskan apa yang paling bagus.
    • Ini jelas kebetulan.
  • Opus 4(.1) benar-benar mahal tautan. Sonnet juga sekitar US$5 per jam kalau pakai OpenRouter + Codename Goose tautan. Yang mengejutkan, Sonnet 3.5 tautan juga harganya sama. Gemini Flash tautan memang relatif paling masuk akal, tapi biasanya masih berputar-putar tanpa bisa ambil keputusan yang benar. OpenAI tidak jelek, tapi masih belum menyaingi performa Claude; ya, Claude kalau menekan CTRL-C di tengah menghasilkan error 400 dari API, jadi kurang nyaman. Saya menganggap efisiensi harga penting, dan value untuk ku paling bagus justru OpenAI ChatGPT 4.1 mini tautan; tidak ada pemborosan token yang gak penting, dan API-nya selalu bekerja dengan baik. Kadang memang membuat saya bingung, tapi umumnya bisa menyelesaikan.

    • Model besar untuk query level model, model kecil untuk pertanyaan konteks; Opus juga bisa dipakai murah kalau dipakai sesuai niche.
    • Kalau dipakai lewat langganan Claude Code, biayanya lebih masuk akal. Saya berlangganan Max dan meski pakai Claude Code seharian, dalam dua minggu terakhir cuma dua kali mencapai batas penggunaan.
    • Setiap kali saya bandingkan harga, API Claude selalu yang paling murah. Kalau konteks cache dimanfaatkan dengan benar, biaya input bisa turun hampir 90%. Itu sesuatu yang besar.
    • Saya juga mau menyebut ada alternatif seperti GLM 4.5, Kimi K2, Qwen Coder 3, dan Gemini Pro 2.5.
  • Opus diklaim unggul di hampir semua aspek coding, tapi saya justru merasa Sonnet jauh lebih baik saat dipakai. Apakah ada yang sudah pindah penuh dari Sonnet ke Opus, atau sekadar pakai Opus untuk pekerjaan tertentu saja?

    • Mungkin Opus lebih unggul secara teknis, tapi dalam praktik bedanya tidak terasa banyak. Menyelesaikan implementasi kompleks sekaligus dengan satu kali LLM itu hampir mustahil—terlalu banyak yang harus dijelaskan, dan pada akhirnya saya harus menggali sendiri sampai menemukan jawaban yang tersembunyi di dalam kode. Meski Opus bisa memberi jawaban yang tampak meyakinkan, saya tetap harus memahami kenapa output itu muncul dan kenapa itu benar untuk konteks saya. Akhirnya pekerjaan saya mayoritas berjalan bertahap dalam potongan-potongan kecil, jadi Sonnet sudah cukup.
    • Ketika Sonnet tiba-tiba ‘aneh’ (satu-dua kali sehari), beralih ke Opus terasa menyelesaikan masalah dengan cepat. Tentu ini pengalaman non-ilmiah, dan bisa jadi model apa pun yang diganti pun sama efeknya.
    • Saya rasa “Sonnet lebih baik” jadi perbincangan karena tidak ada dasar ilmiah. Bahwa model lebih besar biasanya lebih baik adalah hal yang sudah jelas sehingga orang tidak perlu menyebutnya; sebaliknya, “model kecil juga bisa lebih baik” terdengar seperti nasihat, jadi lebih sering terlihat. Saya cek ini kemarin dan pendapat orang-orang berbeda-beda. Yang bisa disimpulkan: di paket Max, tidak perlu terlalu cemas kalau berpindah dari Opus ke Sonnet sebentar.
    • Opus terasa lebih baik untuk pemecahan masalah yang kompleks dan multi-langkah atau kerjaan panjang yang butuh pelacakan konteks. Jadi saya pakai Opus hanya untuk kasus sulit, sisanya dengan Sonnet; biasanya itu cukup dan batas token juga jauh jarang ketemu.
    • Dalam kasus saya yang pakai paket Max, Opus menghasilkan kualitas sedikit lebih baik dari Sonnet, tapi itu berlaku saat Opus bisa dipakai. Lucunya, bahkan di paket Max pun batas pemakaian cepat tercapai—kemarin pagi sampai beberapa menit setelah mulai kerja saya sudah kena limit.
  • Opus 4.1 terasa sama tidak guna-nya dengan Opus 4, malah seolah menghabiskan token lebih cepat. Akan sangat membantu jika ada cara melihat konsumsi penggunaan. Setidaknya Sonnet 4 masih bisa dipakai, tapi output-nya makin buram. Hari ini aku merasa membuang waktu pagi di Claude Code; saya berpikir seharusnya langsung kerjanya sendiri dari awal akan lebih baik.

    • Saya juga merasakan performa Sonnet menurun perlahan: penjelasannya jadi panjang, banyak bertele-tele, cenderung membuat semuanya jadi daftar, bahkan terlalu sering mengiyakan jadi ada kesan jadi “terlalu asyik setuju” terhadap pesaing.
    • Kayaknya ini karena proyek saya membesar. Mengikuti dari proyek 2 ribu baris menjadi lebih dari 100 ribu baris, itu wajar kalau terasa sulit.
    • Opus 4.1 baru langsung mencoba membuat seluruh aplikasi web di percakapan pertama, dan berbeda dari robot yang dulu kaku, ia lebih cepat menangkap konteks, lalu menanyakan hal yang tepat tentang sistem dan menyelesaikan penulisan dokumentasi update. Dulu saya harus mengulang penjelasan yang sama di tiap chat sampai kesal, sekarang tidak. Tapi kecepatan konsumsi token jelas jadi lebih cepat, jadi sekarang sulit ngobrol berjam-jam seperti sebelumnya; asalkan tugas terakhir selesai sebelum token habis, saya senang.
    • Untuk kalimat “pagi ini dibuang di Claude Code”, jadi cocok juga dengan Welcome to the machine.
  • Tayangan ulang Claude Plays Pokemon dengan model baru dimulai tautan, sebelumnya beberapa minggu terjebak di tempat tersembunyi Team Rocket.

  • Artikel bilang “model akan jauh membaik dalam beberapa minggu.” Sonnet 4 paling cocok untuk produk kami, tapi saya ingin mencoba Haiku 4 (atau 4.1) karena lebih murah. Menariknya, tak ada satu pun mention tentang Haiku 4 dari Anthropic di update ini.

  • Hari ini adalah hari terburuk yang pernah saya lalui sambil pakai Claude. Bener-bener rusak. Saya tidak tahu apakah karena deploy hari ini, tapi di dokumen keluar kata-kata kasar dan bug-nya tidak kunjung beres meski saya bolak-balik beberapa jam.

  • Bagian yang paling menarik perhatian saya dari artikel tadi adalah klaim “model akan meningkat signifikan dalam beberapa minggu”.

    • Menurut saya ini terdengar seperti upaya menahan orang agar tidak langsung lari ke GPT5.
  • Update ini, kalau menurut standar mereka sendiri, hampir tidak banyak peningkatan. Bukan berarti buruk, tapi sepertinya tidak ada yang akan benar-benar merasakan bedanya.

    • Mungkin ini mostly soal vibe, tapi saya pikir vibe juga faktor penting. Tidak ada di benchmark resmi, tapi Opus 4.1 dilaporkan naik sekitar 1 standar deviasi di benchmark developer junior dibanding Opus 4, yang katanya setara lonjakan dari Sonnet 3.7 ke Sonnet 4.
    • Saya belum menguji dengan baik, tapi tidak terlihat perbedaan yang jelas pada kualitas output; yang terasa memang lebih patuh pada dokumen atau instruksi yang diberikan. Tapi saya belum bisa mengukurnya secara kuantitatif maupun objektif. Opus 4.1 tidak hanya menemukan informasi tersembunyi (Needles-in-the-Haystack), tapi juga mengikuti aspek-aspek tersebut meski tidak diminta secara eksplisit.
    • Karena itu saya rasa nama versinya jadi 4.1, bukan 4.5.
    • Kesan saya, mereka menyisakan ruang untuk meluncurkan 10 model lagi. Kalau benchmark sudah 100%, memang tak perlu model baru, jadi ada nuansa marketing di mana angka-angkanya sengaja disetel. Soalnya dataset latih tetap menyelesaikan masalah yang sama, jadi tentu saja akan lemah di pertanyaan yang benar-benar baru.
    • Menarik juga, di gambar nilai, yang di-highlight cuma Opus 4.1. Hanya sekitar separuh benchmark yang Opus 4.1 dapat skor tertinggi; sisanya tidak, bahkan ada yang lebih rendah dari Opus 4.0, sementara skor model kompetitor tidak ditampilkan sama sekali.
  • Selama harga Opus dan Sonnet sama-sama mahal, saya rasa konsumsi Opus tetap tidak akan menyalip Sonnet. Kalau lihat ranking OpenRouter, gabungan Sonnet 3.7 dan 4 sekarang memproses token 17x lebih banyak daripada Opus 4.