Anthropic merilis Claude Opus 4.7 - verifikasi mandiri, visi resolusi tinggi 3,3x, coding naik 13%
(anthropic.com)Anthropic telah merilis model flagship Claude Opus 4.7.
- Menempati peringkat 1 di SWE-bench Verified 87.6% (+6.8pp) dan SWE-bench Pro 64.3%, mengungguli GPT-5.4(57.7%)
- Mencapai GPQA Diamond 94.2%, Terminal-Bench 2.0 69.4%, dan Finance Agent 64.4%
- Naik 13% pada benchmark coding dibanding Opus 4.6, dengan tingkat penyelesaian tugas production meningkat 3x
- Fitur Self-Verification baru: merancang dan menjalankan tahap verifikasi sendiri sebelum menyelesaikan tugas
- Visi resolusi tinggi 3,3x (hingga 2,576px), dengan tokenizer baru
- Level effort
xhighditambahkan, penalaran agentic meningkat 14%, error tool turun menjadi 1/3 - Harga sama seperti Opus 4.6 ($5/$25 per MTok)
- Anthropic secara langsung mengakui performanya masih di bawah model tertutup Mythos
Juga tersedia di Amazon Bedrock, Google Cloud Vertex AI, dan Microsoft Foundry.
1 komentar
OPUS 4.7 > GPT 5.4 > OPUS 4.6