- Sembilan bulan lalu, penulis menilai AI sudah cukup mampu melakukan analisis keamanan kode hingga bisa benar-benar menggantikan manusia, lalu mendirikan startup
- Pada tahap awal, saat beralih dari GPT-4o ke Claude 3.5 Sonnet, ada peningkatan kualitas yang besar dalam penjelasan kerentanan keamanan dan penilaian tingkat keparahannya
- Namun setelah itu, sebagian besar model termasuk Claude 3.6 dan 3.7 tidak menunjukkan peningkatan nyata pada benchmark internal maupun kemampuan menemukan bug
- Peningkatan performa lebih banyak berasal dari perbaikan engineering umum, bukan dari model AI itu sendiri
- Startup lain juga mengalami hal serupa, dan kebanyakan menjalani siklus rilis model baru → performa benchmark bagus → performa nyata minim
- Penulis menilai perkembangan model AI saat ini belum mencapai tingkat yang berarti dalam kegunaan ekonomis maupun kemampuan generalisasi
Kesenjangan antara benchmark AI dan performa nyata
- Model AI mendapat nilai bagus dalam ujian, tetapi hampir tidak tercermin dalam kemampuan kerja nyata
- Benchmark umumnya berfokus pada masalah yang pendek dan terisolasi, sehingga tidak cocok untuk aplikasi dunia nyata
- Sebagai contoh, model Claude bahkan kesulitan mempertahankan memori jangka panjang sampai tidak mampu menamatkan game Pokémon
- Benchmark seperti ‘Humanity’s Last Exam’ sekilas tampak penting, tetapi tidak benar-benar menilai kegunaan nyata
- Penulis mengatakan bahwa ke depan, ia hanya akan mempercayai benchmark berbasis penggunaan nyata seperti Claude Plays Pokemon untuk menilai performa AI
Masalah kredibilitas laboratorium AI
- Laboratorium AI berada dalam persaingan tingkat peradaban, dan sebagian memiliki insentif untuk melebih-lebihkan performa atau secara selektif hanya merilis hasil yang bagus
- Dalam praktiknya, benchmark yang digunakan OpenAI, Anthropic, dan lainnya kebanyakan berbasis test set publik sehingga berpotensi dimanipulasi
- Selain evaluasi yang setengah tertutup seperti ARC-AGI, hampir semua hasil kemungkinan berbasis dataset yang sudah pernah dilatih
- Tafsiran yang paling optimistis adalah bahwa masalahnya bukan batasan teknis, melainkan kecurangan manusia
Alasan struktural benchmark tidak mencerminkan kegunaan nyata
- Tes IQ manusia punya korelasi dengan beragam capaian dunia nyata, tetapi benchmark AI tidak demikian
- Benchmark AI sebagian besar disusun dari puzzle yang berdiri sendiri atau pemecahan masalah jangka pendek
- AI sangat lemah dalam hal memori, kesadaran konteks, pelacakan tujuan, dan hal lain yang dibutuhkan pada masalah nyata
- Benchmark memang nyaman untuk pengembangan atau evaluasi, tetapi keterkaitannya rendah dengan kemampuan menyeluruh di dunia nyata
Model AI mungkin cerdas, tetapi performanya bisa dibatasi oleh masalah alignment
- Perusahaan penulis menggunakan AI untuk audit keamanan kode nyata, tetapi model tidak memahami konteks pekerjaan dengan baik
- Model gagal mengikuti instruksi untuk hanya melaporkan masalah yang benar-benar berdampak pada layanan nyata, dan sering mengeluarkan peringatan yang tidak perlu
- Hal ini terjadi karena model dilatih untuk lebih menyukai respons yang “terlihat pintar”
- Untuk percakapan hal itu masih bisa diterima, tetapi saat digabungkan ke dalam sistem, kesalahan akan terakumulasi dan menimbulkan masalah
- Upaya memperbaiki hanya gejala permukaan berisiko dalam jangka panjang, sehingga diperlukan penyelesaian masalah alignment yang lebih mendasar
Penutup dan implikasi sosial
- Saat ini, dibanding ekspektasi yang dibesar-besarkan, performa nyata AI masih rendah, dan ini sejalan dengan ‘pengalaman hidup’ banyak pengguna
- Sebelum sistem AI yang tidak selaras memengaruhi masyarakat secara luas, dibutuhkan pemahaman dan desain yang lebih mendasar
- Dibanding benchmark yang sekadar berfokus pada hasil, evaluasi kualitatif yang mencerminkan skenario penggunaan nyata lebih penting
5 komentar
Saya setuju. Saya banyak memakai model Claude 3.7 di Perplexity, tetapi belakangan ini juga memakai Gemini 2.5, dan saat menggunakannya saya benar-benar bisa merasakan bahwa performanya sangat bagus.
Belakangan ini kenapa yang muncul cuma berita ala media ekonomi begini ya
Aku malah suka banget...
Belakangan sepertinya harus pakai judul seperti ini dulu supaya umpan kliknya berhasil.
Opini Hacker News
Ibu saya mengatakan bahwa Paul Newman punya masalah alkohol. Ketika saya tanya ke ChatGPT, jawabannya adalah Paul Newman tidak dikenal memiliki masalah alkohol
Dalam USAMO terbaru, model SOTA rata-rata hanya mencetak 5%. Ini mengisyaratkan bahwa model AI sebenarnya bukan memecahkan soal, melainkan mengingat hasil-hasil sebelumnya
LLM cenderung ingin melaporkan sesuatu, sehingga sering melebih-lebihkan
Menarik membaca reaksi terhadap tulisan ini. Ini menunjukkan bahwa reaksi kolektif kita sangat beragam dan berbasis anekdot
Pengalaman pribadi saya sejalan dengan pendapat penulis
Peningkatan pada hasil benchmark dan kurangnya peningkatan pada tugas nyata mencerminkan hakikat LLM
Saya memakai gemini 2.5 akhir pekan ini, dan hasilnya sangat mengesankan
Bahkan jika pengembangan LLM berhenti sekarang, kita akan terus menemukan penggunaan baru selama 10 tahun ke depan
Sebagai orang yang memakai LLM dan plugin bantuan coding, saya merasa GPT/Claude memburuk dalam 12 bulan terakhir