Anthropic merilis Claude Opus 4.1
(anthropic.com)- Claude Opus 4.1 adalah versi upgrade yang memperkuat coding praktis, kerja agentic, dan kemampuan penalaran
- Merekam kinerja kode tertinggi 74,5% di SWE-bench Verified, serta menunjukkan hasil unggul pada debugging presisi untuk basis kode berskala besar, refaktor multi-file dan lain-lain
- Menerima apresiasi dari Rakuten, GitHub, Windsurf, dan pengguna nyata lain untuk akurasi revisi kode, efisiensi pada debugging harian, dan peningkatan yang jelas pada benchmark pengembang junior
- Menampilkan performa yang semakin matang di lingkungan pengembangan nyata untuk refaktor multi-file dan revisi kode terperinci
- Bagi pengguna Opus 4 sebelumnya, dapat langsung digunakan tanpa biaya tambahan di API, Claude Code, Amazon Bedrock, Google Vertex AI
Fitur Utama Claude Opus 4.1
- Dibandingkan Claude Opus 4, performa meningkat pada pekerjaan agentic, penulisan kode nyata, dan tugas penalaran kompleks
- Dalam beberapa minggu ke depan, akan ada peningkatan berskala lebih besar dari model
Peningkatan Utama
- SWE-bench Verified mencapai kinerja kode 74,5%
- Kemampuan riset mendalam dan analisis data, terutama pelacakan detail dan pencarian berbasis agentic, menunjukkan peningkatan yang sangat menonjol
- Pada benchmark berbasis kode nyata untuk menyelesaikan bug di repositori open source berskala besar, mencatat performa yang baik
- Refaktor multi-file, debugging presisi di dalam basis kode besar, dan pekerjaan pengembang dunia nyata lainnya dioptimalkan
- Di GitHub, Opus 4.1 menunjukkan peningkatan performa dibanding Opus 4 di hampir semua fitur, dengan hasil paling menonjol pada tugas refaktor kode multi-file
- Rakuten Group menilai Opus 4.1 karena mampu memperbaiki hanya bagian yang benar-benar dibutuhkan di basis kode yang sangat besar sambil mempertahankan gaya, tanpa modifikasi berlebihan atau masuknya bug
- Perusahaan Windsurf menunjukkan bahwa pada benchmark pengembang junior internal, Opus 4.1 tampil satu deviasi standar lebih baik dibandingkan Opus 4, dan menilai lonjakan ini sebanding dengan upgrade dari Sonnet 3.7 ke Sonnet 4
Perbandingan Kinerja per Kategori Utama
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Opus 4 sebelumnya: 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Mencatat akurasi tertinggi pada pekerjaan perbaikan kode open source nyata
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (tertinggi)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (tertinggi)
- Gemini 2.5 Pro: 86.4% (tertinggi)
- Agentic tool use (TAU-bench)
- Skenario Retail: Claude Opus 4.1 82.4% (tertinggi), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Skenario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro tidak menyediakan skor untuk bagian ini
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (tertinggi)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: tidak tersedia
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (tertinggi)
- Gemini 2.5 Pro: 82% (tertinggi)
- High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (tertinggi)
- Gemini 2.5 Pro: 88% (tertinggi)
-
Ringkasan Tabel Benchmark
- Claude Opus 4.1 menunjukkan tren meningkat konsisten di semua area dibanding generasi sebelumnya, dan mencatat skor tertinggi pada benchmark berorientasi praktis seperti otomasi kode nyata, refaktor multi-file, QA multibahasa, dan penggunaan alat
- Pada area matematika, visual reasoning, dan GPQA, OpenAI o3 serta Gemini 2.5 Pro masih unggul di beberapa kategori, tetapi pada produktivitas kode nyata dan QA multibahasa, Claude Opus 4.1 yang paling menonjol
- Pada skenario Airline (Agentic tool use) terjadi sedikit penurunan, sedangkan visual reasoning dan matematika masih sedikit di bawah model lain
Lingkungan Penggunaan dan Deployment Nyata
- Untuk pengguna Opus 4 yang sudah ada, disarankan upgrade langsung di API ke
claude-opus-4-1-20250805 - Dapat dipasang dan dimanfaatkan melalui berbagai jalur seperti API, Claude Code, Amazon Bedrock, Google Vertex AI
- Harga sama seperti Opus 4, dan bagi pengguna lama disarankan upgrade segera
- Sistem card, deskripsi model, harga, dokumentasi resmi, serta metode evaluasi dan detail benchmark juga dirilis
Rencana ke Depan
- Opus 4.1 adalah upgrade ringan yang mencerminkan perkembangan terbaru di bidang coding dan penalaran, dengan lompatan lebih besar diperkirakan akan diumumkan dalam beberapa minggu ke depan
- Perbaikan performa yang berkelanjutan dan perluasan fitur akan dilakukan dengan mengadopsi masukan pengguna
Referensi
- Data sumber perbandingan terbaru dengan model seperti OpenAI o3 dan Gemini 2.5 Pro, hasil benchmark, serta status penggunaan extended reasoning per model ditampilkan secara transparan
1 komentar
Opini Hacker News
Tiga laboratorium utama mengumumkan sesuatu hampir bersamaan dengan selisih beberapa jam, rasanya seperti plot gila di anime.
Opus 4(.1) benar-benar mahal tautan. Sonnet juga sekitar US$5 per jam kalau pakai OpenRouter + Codename Goose tautan. Yang mengejutkan, Sonnet 3.5 tautan juga harganya sama. Gemini Flash tautan memang relatif paling masuk akal, tapi biasanya masih berputar-putar tanpa bisa ambil keputusan yang benar. OpenAI tidak jelek, tapi masih belum menyaingi performa Claude; ya, Claude kalau menekan CTRL-C di tengah menghasilkan error 400 dari API, jadi kurang nyaman. Saya menganggap efisiensi harga penting, dan value untuk ku paling bagus justru OpenAI ChatGPT 4.1 mini tautan; tidak ada pemborosan token yang gak penting, dan API-nya selalu bekerja dengan baik. Kadang memang membuat saya bingung, tapi umumnya bisa menyelesaikan.
Opus diklaim unggul di hampir semua aspek coding, tapi saya justru merasa Sonnet jauh lebih baik saat dipakai. Apakah ada yang sudah pindah penuh dari Sonnet ke Opus, atau sekadar pakai Opus untuk pekerjaan tertentu saja?
Opus 4.1 terasa sama tidak guna-nya dengan Opus 4, malah seolah menghabiskan token lebih cepat. Akan sangat membantu jika ada cara melihat konsumsi penggunaan. Setidaknya Sonnet 4 masih bisa dipakai, tapi output-nya makin buram. Hari ini aku merasa membuang waktu pagi di Claude Code; saya berpikir seharusnya langsung kerjanya sendiri dari awal akan lebih baik.
Tayangan ulang Claude Plays Pokemon dengan model baru dimulai tautan, sebelumnya beberapa minggu terjebak di tempat tersembunyi Team Rocket.
Artikel bilang “model akan jauh membaik dalam beberapa minggu.” Sonnet 4 paling cocok untuk produk kami, tapi saya ingin mencoba Haiku 4 (atau 4.1) karena lebih murah. Menariknya, tak ada satu pun mention tentang Haiku 4 dari Anthropic di update ini.
Hari ini adalah hari terburuk yang pernah saya lalui sambil pakai Claude. Bener-bener rusak. Saya tidak tahu apakah karena deploy hari ini, tapi di dokumen keluar kata-kata kasar dan bug-nya tidak kunjung beres meski saya bolak-balik beberapa jam.
Bagian yang paling menarik perhatian saya dari artikel tadi adalah klaim “model akan meningkat signifikan dalam beberapa minggu”.
Update ini, kalau menurut standar mereka sendiri, hampir tidak banyak peningkatan. Bukan berarti buruk, tapi sepertinya tidak ada yang akan benar-benar merasakan bedanya.
Selama harga Opus dan Sonnet sama-sama mahal, saya rasa konsumsi Opus tetap tidak akan menyalip Sonnet. Kalau lihat ranking OpenRouter, gabungan Sonnet 3.7 dan 4 sekarang memproses token 17x lebih banyak daripada Opus 4.