Ulasan Simon Willison tentang Claude 4.5 Opus

(simonwillison.net)

8 poin oleh laeyoung 2025-11-26 | 2 komentar | Bagikan ke WhatsApp

Claude Opus 4.5, dan alasan evaluasi LLM baru semakin sulit

Harganya sangat memuaskan

Input seharga $5 per satu juta dolar, output $25 per satu juta dolar
Jauh lebih murah dibanding Opus sebelumnya yang $15/$75
Juga kompetitif dibanding keluarga produk GPT-5.1 ($1.25/$10) dan Gemini 3 Pro ($2/$12, atau $4/$18 jika membeli lebih dari 200 ribu token)

Peningkatan menarik di Opus 4.5

Opus 4.5 menambahkan parameter effort baru yang secara default disetel ke tinggi
Mendukung Computer use yang ditingkatkan, khususnya menyediakan zoom sehingga Anda bisa meminta alat untuk memeriksa area layar yang diperbesar
Blok pemikiran dari giliran bantuan sebelumnya kini secara default dipertahankan dalam konteks model, berbeda dari sebelumnya

Sulitnya evaluasi

Semakin sulit membedakan performa LLM terdepan
Pada benchmark seperti SWE-bench Verified, model-model menunjukkan selisih hanya beberapa poin persentase satu digit
Namun hal itu tidak menjelaskan hasil seperti apa atau perbedaan apa yang akan muncul saat benar-benar mencoba menyelesaikan masalah nyata
Untuk saat ini, menggambar pelikan yang mengendarai sepeda masih berlanjut.

2 komentar

youknowone 2025-11-26

Terjemahan: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

Anthropic menampilkan grafik benchmark Opus 4.5

Jika digambar begitu saja, tingginya hampir sama, jadi rentang 0-70 pada sumbu Y grafik itu dipersingkat.