8 poin oleh laeyoung 2025-11-26 | Belum ada komentar. | Bagikan ke WhatsApp

Claude Opus 4.5, dan alasan evaluasi LLM baru semakin sulit

Harganya sangat memuaskan

  • Input seharga $5 per satu juta dolar, output $25 per satu juta dolar
  • Jauh lebih murah dibanding Opus sebelumnya yang $15/$75
  • Juga kompetitif dibanding keluarga produk GPT-5.1 ($1.25/$10) dan Gemini 3 Pro ($2/$12, atau $4/$18 jika membeli lebih dari 200 ribu token)

Peningkatan menarik di Opus 4.5

  • Opus 4.5 menambahkan parameter effort baru yang secara default disetel ke tinggi
  • Mendukung Computer use yang ditingkatkan, khususnya menyediakan zoom sehingga Anda bisa meminta alat untuk memeriksa area layar yang diperbesar
  • Blok pemikiran dari giliran bantuan sebelumnya kini secara default dipertahankan dalam konteks model, berbeda dari sebelumnya

Sulitnya evaluasi

  • Semakin sulit membedakan performa LLM terdepan
  • Pada benchmark seperti SWE-bench Verified, model-model menunjukkan selisih hanya beberapa poin persentase satu digit
  • Namun hal itu tidak menjelaskan hasil seperti apa atau perbedaan apa yang akan muncul saat benar-benar mencoba menyelesaikan masalah nyata
  • Untuk saat ini, menggambar pelikan yang mengendarai sepeda masih berlanjut.

Belum ada komentar.

Belum ada komentar.