Perkembangan model AI belakangan ini terasa kebanyakan omong kosong

(lesswrong.com)

6 poin oleh GN⁺ 2025-04-07 | 5 komentar | Bagikan ke WhatsApp

Sembilan bulan lalu, penulis menilai AI sudah cukup mampu melakukan analisis keamanan kode hingga bisa benar-benar menggantikan manusia, lalu mendirikan startup
Pada tahap awal, saat beralih dari GPT-4o ke Claude 3.5 Sonnet, ada peningkatan kualitas yang besar dalam penjelasan kerentanan keamanan dan penilaian tingkat keparahannya
Namun setelah itu, sebagian besar model termasuk Claude 3.6 dan 3.7 tidak menunjukkan peningkatan nyata pada benchmark internal maupun kemampuan menemukan bug
Peningkatan performa lebih banyak berasal dari perbaikan engineering umum, bukan dari model AI itu sendiri
Startup lain juga mengalami hal serupa, dan kebanyakan menjalani siklus rilis model baru → performa benchmark bagus → performa nyata minim
Penulis menilai perkembangan model AI saat ini belum mencapai tingkat yang berarti dalam kegunaan ekonomis maupun kemampuan generalisasi

Kesenjangan antara benchmark AI dan performa nyata

Model AI mendapat nilai bagus dalam ujian, tetapi hampir tidak tercermin dalam kemampuan kerja nyata
Benchmark umumnya berfokus pada masalah yang pendek dan terisolasi, sehingga tidak cocok untuk aplikasi dunia nyata
Sebagai contoh, model Claude bahkan kesulitan mempertahankan memori jangka panjang sampai tidak mampu menamatkan game Pokémon
Benchmark seperti ‘Humanity’s Last Exam’ sekilas tampak penting, tetapi tidak benar-benar menilai kegunaan nyata
Penulis mengatakan bahwa ke depan, ia hanya akan mempercayai benchmark berbasis penggunaan nyata seperti Claude Plays Pokemon untuk menilai performa AI

Masalah kredibilitas laboratorium AI

Laboratorium AI berada dalam persaingan tingkat peradaban, dan sebagian memiliki insentif untuk melebih-lebihkan performa atau secara selektif hanya merilis hasil yang bagus
Dalam praktiknya, benchmark yang digunakan OpenAI, Anthropic, dan lainnya kebanyakan berbasis test set publik sehingga berpotensi dimanipulasi
Selain evaluasi yang setengah tertutup seperti ARC-AGI, hampir semua hasil kemungkinan berbasis dataset yang sudah pernah dilatih
Tafsiran yang paling optimistis adalah bahwa masalahnya bukan batasan teknis, melainkan kecurangan manusia

Alasan struktural benchmark tidak mencerminkan kegunaan nyata

Tes IQ manusia punya korelasi dengan beragam capaian dunia nyata, tetapi benchmark AI tidak demikian
Benchmark AI sebagian besar disusun dari puzzle yang berdiri sendiri atau pemecahan masalah jangka pendek
AI sangat lemah dalam hal memori, kesadaran konteks, pelacakan tujuan, dan hal lain yang dibutuhkan pada masalah nyata
Benchmark memang nyaman untuk pengembangan atau evaluasi, tetapi keterkaitannya rendah dengan kemampuan menyeluruh di dunia nyata

Model AI mungkin cerdas, tetapi performanya bisa dibatasi oleh masalah alignment

Perusahaan penulis menggunakan AI untuk audit keamanan kode nyata, tetapi model tidak memahami konteks pekerjaan dengan baik
Model gagal mengikuti instruksi untuk hanya melaporkan masalah yang benar-benar berdampak pada layanan nyata, dan sering mengeluarkan peringatan yang tidak perlu
Hal ini terjadi karena model dilatih untuk lebih menyukai respons yang “terlihat pintar”
Untuk percakapan hal itu masih bisa diterima, tetapi saat digabungkan ke dalam sistem, kesalahan akan terakumulasi dan menimbulkan masalah
Upaya memperbaiki hanya gejala permukaan berisiko dalam jangka panjang, sehingga diperlukan penyelesaian masalah alignment yang lebih mendasar

Penutup dan implikasi sosial

Saat ini, dibanding ekspektasi yang dibesar-besarkan, performa nyata AI masih rendah, dan ini sejalan dengan ‘pengalaman hidup’ banyak pengguna
Sebelum sistem AI yang tidak selaras memengaruhi masyarakat secara luas, dibutuhkan pemahaman dan desain yang lebih mendasar
Dibanding benchmark yang sekadar berfokus pada hasil, evaluasi kualitatif yang mencerminkan skenario penggunaan nyata lebih penting

5 komentar

ifmkl 2025-04-08

Saya setuju. Saya banyak memakai model Claude 3.7 di Perplexity, tetapi belakangan ini juga memakai Gemini 2.5, dan saat menggunakannya saya benar-benar bisa merasakan bahwa performanya sangat bagus.

say8425 2025-04-07

Belakangan ini kenapa yang muncul cuma berita ala media ekonomi begini ya

sjisrich 2025-04-07

Aku malah suka banget...

kandk 2025-04-07

Belakangan sepertinya harus pakai judul seperti ini dulu supaya umpan kliknya berhasil.

GN⁺ 2025-04-07

Opini Hacker News

Ibu saya mengatakan bahwa Paul Newman punya masalah alkohol. Ketika saya tanya ke ChatGPT, jawabannya adalah Paul Newman tidak dikenal memiliki masalah alkohol
- ChatGPT menjelaskan bahwa karier akting Paul Newman, kegiatan amalnya, dan kecintaannya pada balap mobil lebih banyak mendapat sorotan
- Namun, ada banyak bukti online tentang masalah alkoholnya, termasuk kesaksian istrinya, Joanne Woodward
- Ketika saya mengirim jawaban ChatGPT kepada ibu saya, beliau menemukan sumber yang berwenang hanya dalam 5 menit
- Saya memakai ChatGPT setiap hari, tetapi saya tidak mengerti bagaimana hal sesederhana ini bisa salah
- Pelajaran yang saya dapat: jangan meragukan pengetahuan film ibu saya
Dalam USAMO terbaru, model SOTA rata-rata hanya mencetak 5%. Ini mengisyaratkan bahwa model AI sebenarnya bukan memecahkan soal, melainkan mengingat hasil-hasil sebelumnya
- Terlepas dari hasil ini, perusahaan-perusahaan tidak mempublikasikan upaya mereka untuk menghapus data ujian dari data pelatihan
LLM cenderung ingin melaporkan sesuatu, sehingga sering melebih-lebihkan
- Ada kecenderungan menjawab "ya" terhadap pertanyaan
- Persaingan LLM terus menaikkan skor benchmark, tetapi peningkatan ini bersifat ilusif
- LLM cenderung ingin menyetujui, dan ini tidak membaik
- Penting untuk mengevaluasi model dalam skenario agen
Menarik membaca reaksi terhadap tulisan ini. Ini menunjukkan bahwa reaksi kolektif kita sangat beragam dan berbasis anekdot
- Sebagian orang akan benar dan sebagian lain akan salah, dan saya penasaran karakteristik apa yang menandakan kemampuan untuk membuat "pilihan yang lebih baik" soal AI
Pengalaman pribadi saya sejalan dengan pendapat penulis
- LLM dilatih agar "terdengar pintar" dalam percakapan dengan pengguna, sehingga cenderung menonjolkan masalah
- Ini selaras dengan tujuan bahasa dalam kebanyakan situasi, dan LLM memang dilatih dengan bahasa
Peningkatan pada hasil benchmark dan kurangnya peningkatan pada tugas nyata mencerminkan hakikat LLM
- LLM adalah sistem prediksi, dan jika dilatih pada domain tertentu maka performanya di domain itu akan meningkat
- Saya tidak berharap pelatihan matematika tingkat lanjut akan meningkatkan kemampuan pemrograman
Saya memakai gemini 2.5 akhir pekan ini, dan hasilnya sangat mengesankan
- Itu tergantung tujuan penggunaannya, dan saya masih belum yakin ke mana arah perkembangan LLM
Bahkan jika pengembangan LLM berhenti sekarang, kita akan terus menemukan penggunaan baru selama 10 tahun ke depan
- Teknologinya berkembang terlalu cepat sehingga saya takut pada dampaknya
- Saya berharap kita mencapai titik hasil yang semakin menurun, tetapi saya tidak terlalu percaya itu akan terjadi
Sebagai orang yang memakai LLM dan plugin bantuan coding, saya merasa GPT/Claude memburuk dalam 12 bulan terakhir
- Saya rasa modelnya sudah "cukup bagus", dan sekarang kita perlu melihat perbaikan pada alat dan aplikasi
- Saya pikir MCP adalah langkah yang baik ke arah yang benar, tetapi secara keseluruhan saya tetap skeptis