- Claude Opus 4.1 adalah versi upgrade yang memperkuat coding praktis, kerja agentic, dan kemampuan penalaran
- Merekam kinerja kode tertinggi 74,5% di SWE-bench Verified, serta menunjukkan hasil unggul pada debugging presisi untuk basis kode berskala besar, refaktor multi-file dan lain-lain
- Menerima apresiasi dari Rakuten, GitHub, Windsurf, dan pengguna nyata lain untuk akurasi revisi kode, efisiensi pada debugging harian, dan peningkatan yang jelas pada benchmark pengembang junior
- Menampilkan performa yang semakin matang di lingkungan pengembangan nyata untuk refaktor multi-file dan revisi kode terperinci
- Bagi pengguna Opus 4 sebelumnya, dapat langsung digunakan tanpa biaya tambahan di API, Claude Code, Amazon Bedrock, Google Vertex AI
Fitur Utama Claude Opus 4.1
- Dibandingkan Claude Opus 4, performa meningkat pada pekerjaan agentic, penulisan kode nyata, dan tugas penalaran kompleks
- Dalam beberapa minggu ke depan, akan ada peningkatan berskala lebih besar dari model
Peningkatan Utama
- SWE-bench Verified mencapai kinerja kode 74,5%
- Kemampuan riset mendalam dan analisis data, terutama pelacakan detail dan pencarian berbasis agentic, menunjukkan peningkatan yang sangat menonjol
- Pada benchmark berbasis kode nyata untuk menyelesaikan bug di repositori open source berskala besar, mencatat performa yang baik
- Refaktor multi-file, debugging presisi di dalam basis kode besar, dan pekerjaan pengembang dunia nyata lainnya dioptimalkan
- Di GitHub, Opus 4.1 menunjukkan peningkatan performa dibanding Opus 4 di hampir semua fitur, dengan hasil paling menonjol pada tugas refaktor kode multi-file
- Rakuten Group menilai Opus 4.1 karena mampu memperbaiki hanya bagian yang benar-benar dibutuhkan di basis kode yang sangat besar sambil mempertahankan gaya, tanpa modifikasi berlebihan atau masuknya bug
- Perusahaan Windsurf menunjukkan bahwa pada benchmark pengembang junior internal, Opus 4.1 tampil satu deviasi standar lebih baik dibandingkan Opus 4, dan menilai lonjakan ini sebanding dengan upgrade dari Sonnet 3.7 ke Sonnet 4
Perbandingan Kinerja per Kategori Utama
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Opus 4 sebelumnya: 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Mencatat akurasi tertinggi pada pekerjaan perbaikan kode open source nyata
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (tertinggi)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (tertinggi)
- Gemini 2.5 Pro: 86.4% (tertinggi)
- Agentic tool use (TAU-bench)
- Skenario Retail: Claude Opus 4.1 82.4% (tertinggi), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Skenario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro tidak menyediakan skor untuk bagian ini
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (tertinggi)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: tidak tersedia
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (tertinggi)
- Gemini 2.5 Pro: 82% (tertinggi)
- High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (tertinggi)
- Gemini 2.5 Pro: 88% (tertinggi)
-
Ringkasan Tabel Benchmark
- Claude Opus 4.1 menunjukkan tren meningkat konsisten di semua area dibanding generasi sebelumnya, dan mencatat skor tertinggi pada benchmark berorientasi praktis seperti otomasi kode nyata, refaktor multi-file, QA multibahasa, dan penggunaan alat
- Pada area matematika, visual reasoning, dan GPQA, OpenAI o3 serta Gemini 2.5 Pro masih unggul di beberapa kategori, tetapi pada produktivitas kode nyata dan QA multibahasa, Claude Opus 4.1 yang paling menonjol
- Pada skenario Airline (Agentic tool use) terjadi sedikit penurunan, sedangkan visual reasoning dan matematika masih sedikit di bawah model lain
Lingkungan Penggunaan dan Deployment Nyata
- Untuk pengguna Opus 4 yang sudah ada, disarankan upgrade langsung di API ke
claude-opus-4-1-20250805
- Dapat dipasang dan dimanfaatkan melalui berbagai jalur seperti API, Claude Code, Amazon Bedrock, Google Vertex AI
- Harga sama seperti Opus 4, dan bagi pengguna lama disarankan upgrade segera
- Sistem card, deskripsi model, harga, dokumentasi resmi, serta metode evaluasi dan detail benchmark juga dirilis
Rencana ke Depan
- Opus 4.1 adalah upgrade ringan yang mencerminkan perkembangan terbaru di bidang coding dan penalaran, dengan lompatan lebih besar diperkirakan akan diumumkan dalam beberapa minggu ke depan
- Perbaikan performa yang berkelanjutan dan perluasan fitur akan dilakukan dengan mengadopsi masukan pengguna
Referensi
- Data sumber perbandingan terbaru dengan model seperti OpenAI o3 dan Gemini 2.5 Pro, hasil benchmark, serta status penggunaan extended reasoning per model ditampilkan secara transparan
Belum ada komentar.