Ulasan Simon Willison tentang Claude 4.5 Opus
(simonwillison.net)Claude Opus 4.5, dan alasan evaluasi LLM baru semakin sulit
Harganya sangat memuaskan
- Input seharga $5 per satu juta dolar, output $25 per satu juta dolar
- Jauh lebih murah dibanding Opus sebelumnya yang $15/$75
- Juga kompetitif dibanding keluarga produk GPT-5.1 ($1.25/$10) dan Gemini 3 Pro ($2/$12, atau $4/$18 jika membeli lebih dari 200 ribu token)
Peningkatan menarik di Opus 4.5
- Opus 4.5 menambahkan parameter
effortbaru yang secara default disetel ke tinggi - Mendukung
Computer useyang ditingkatkan, khususnya menyediakan zoom sehingga Anda bisa meminta alat untuk memeriksa area layar yang diperbesar - Blok pemikiran dari giliran bantuan sebelumnya kini secara default dipertahankan dalam konteks model, berbeda dari sebelumnya
Sulitnya evaluasi
- Semakin sulit membedakan performa LLM terdepan
- Pada benchmark seperti SWE-bench Verified, model-model menunjukkan selisih hanya beberapa poin persentase satu digit
- Namun hal itu tidak menjelaskan hasil seperti apa atau perbedaan apa yang akan muncul saat benar-benar mencoba menyelesaikan masalah nyata
- Untuk saat ini, menggambar pelikan yang mengendarai sepeda masih berlanjut.
Belum ada komentar.