6 poin oleh GN⁺ 2025-04-07 | 5 komentar | Bagikan ke WhatsApp
  • Sembilan bulan lalu, penulis menilai AI sudah cukup mampu melakukan analisis keamanan kode hingga bisa benar-benar menggantikan manusia, lalu mendirikan startup
  • Pada tahap awal, saat beralih dari GPT-4o ke Claude 3.5 Sonnet, ada peningkatan kualitas yang besar dalam penjelasan kerentanan keamanan dan penilaian tingkat keparahannya
  • Namun setelah itu, sebagian besar model termasuk Claude 3.6 dan 3.7 tidak menunjukkan peningkatan nyata pada benchmark internal maupun kemampuan menemukan bug
  • Peningkatan performa lebih banyak berasal dari perbaikan engineering umum, bukan dari model AI itu sendiri
  • Startup lain juga mengalami hal serupa, dan kebanyakan menjalani siklus rilis model baru → performa benchmark bagus → performa nyata minim
  • Penulis menilai perkembangan model AI saat ini belum mencapai tingkat yang berarti dalam kegunaan ekonomis maupun kemampuan generalisasi

Kesenjangan antara benchmark AI dan performa nyata

  • Model AI mendapat nilai bagus dalam ujian, tetapi hampir tidak tercermin dalam kemampuan kerja nyata
  • Benchmark umumnya berfokus pada masalah yang pendek dan terisolasi, sehingga tidak cocok untuk aplikasi dunia nyata
  • Sebagai contoh, model Claude bahkan kesulitan mempertahankan memori jangka panjang sampai tidak mampu menamatkan game Pokémon
  • Benchmark seperti ‘Humanity’s Last Exam’ sekilas tampak penting, tetapi tidak benar-benar menilai kegunaan nyata
  • Penulis mengatakan bahwa ke depan, ia hanya akan mempercayai benchmark berbasis penggunaan nyata seperti Claude Plays Pokemon untuk menilai performa AI

Masalah kredibilitas laboratorium AI

  • Laboratorium AI berada dalam persaingan tingkat peradaban, dan sebagian memiliki insentif untuk melebih-lebihkan performa atau secara selektif hanya merilis hasil yang bagus
  • Dalam praktiknya, benchmark yang digunakan OpenAI, Anthropic, dan lainnya kebanyakan berbasis test set publik sehingga berpotensi dimanipulasi
  • Selain evaluasi yang setengah tertutup seperti ARC-AGI, hampir semua hasil kemungkinan berbasis dataset yang sudah pernah dilatih
  • Tafsiran yang paling optimistis adalah bahwa masalahnya bukan batasan teknis, melainkan kecurangan manusia

Alasan struktural benchmark tidak mencerminkan kegunaan nyata

  • Tes IQ manusia punya korelasi dengan beragam capaian dunia nyata, tetapi benchmark AI tidak demikian
  • Benchmark AI sebagian besar disusun dari puzzle yang berdiri sendiri atau pemecahan masalah jangka pendek
  • AI sangat lemah dalam hal memori, kesadaran konteks, pelacakan tujuan, dan hal lain yang dibutuhkan pada masalah nyata
  • Benchmark memang nyaman untuk pengembangan atau evaluasi, tetapi keterkaitannya rendah dengan kemampuan menyeluruh di dunia nyata

Model AI mungkin cerdas, tetapi performanya bisa dibatasi oleh masalah alignment

  • Perusahaan penulis menggunakan AI untuk audit keamanan kode nyata, tetapi model tidak memahami konteks pekerjaan dengan baik
  • Model gagal mengikuti instruksi untuk hanya melaporkan masalah yang benar-benar berdampak pada layanan nyata, dan sering mengeluarkan peringatan yang tidak perlu
  • Hal ini terjadi karena model dilatih untuk lebih menyukai respons yang “terlihat pintar
  • Untuk percakapan hal itu masih bisa diterima, tetapi saat digabungkan ke dalam sistem, kesalahan akan terakumulasi dan menimbulkan masalah
  • Upaya memperbaiki hanya gejala permukaan berisiko dalam jangka panjang, sehingga diperlukan penyelesaian masalah alignment yang lebih mendasar

Penutup dan implikasi sosial

  • Saat ini, dibanding ekspektasi yang dibesar-besarkan, performa nyata AI masih rendah, dan ini sejalan dengan ‘pengalaman hidup’ banyak pengguna
  • Sebelum sistem AI yang tidak selaras memengaruhi masyarakat secara luas, dibutuhkan pemahaman dan desain yang lebih mendasar
  • Dibanding benchmark yang sekadar berfokus pada hasil, evaluasi kualitatif yang mencerminkan skenario penggunaan nyata lebih penting

5 komentar

 
ifmkl 2025-04-08

Saya setuju. Saya banyak memakai model Claude 3.7 di Perplexity, tetapi belakangan ini juga memakai Gemini 2.5, dan saat menggunakannya saya benar-benar bisa merasakan bahwa performanya sangat bagus.

 
say8425 2025-04-07

Belakangan ini kenapa yang muncul cuma berita ala media ekonomi begini ya

 
sjisrich 2025-04-07

Aku malah suka banget...

 
kandk 2025-04-07

Belakangan sepertinya harus pakai judul seperti ini dulu supaya umpan kliknya berhasil.

 
GN⁺ 2025-04-07
Opini Hacker News
  • Ibu saya mengatakan bahwa Paul Newman punya masalah alkohol. Ketika saya tanya ke ChatGPT, jawabannya adalah Paul Newman tidak dikenal memiliki masalah alkohol

    • ChatGPT menjelaskan bahwa karier akting Paul Newman, kegiatan amalnya, dan kecintaannya pada balap mobil lebih banyak mendapat sorotan
    • Namun, ada banyak bukti online tentang masalah alkoholnya, termasuk kesaksian istrinya, Joanne Woodward
    • Ketika saya mengirim jawaban ChatGPT kepada ibu saya, beliau menemukan sumber yang berwenang hanya dalam 5 menit
    • Saya memakai ChatGPT setiap hari, tetapi saya tidak mengerti bagaimana hal sesederhana ini bisa salah
    • Pelajaran yang saya dapat: jangan meragukan pengetahuan film ibu saya
  • Dalam USAMO terbaru, model SOTA rata-rata hanya mencetak 5%. Ini mengisyaratkan bahwa model AI sebenarnya bukan memecahkan soal, melainkan mengingat hasil-hasil sebelumnya

    • Terlepas dari hasil ini, perusahaan-perusahaan tidak mempublikasikan upaya mereka untuk menghapus data ujian dari data pelatihan
  • LLM cenderung ingin melaporkan sesuatu, sehingga sering melebih-lebihkan

    • Ada kecenderungan menjawab "ya" terhadap pertanyaan
    • Persaingan LLM terus menaikkan skor benchmark, tetapi peningkatan ini bersifat ilusif
    • LLM cenderung ingin menyetujui, dan ini tidak membaik
    • Penting untuk mengevaluasi model dalam skenario agen
  • Menarik membaca reaksi terhadap tulisan ini. Ini menunjukkan bahwa reaksi kolektif kita sangat beragam dan berbasis anekdot

    • Sebagian orang akan benar dan sebagian lain akan salah, dan saya penasaran karakteristik apa yang menandakan kemampuan untuk membuat "pilihan yang lebih baik" soal AI
  • Pengalaman pribadi saya sejalan dengan pendapat penulis

    • LLM dilatih agar "terdengar pintar" dalam percakapan dengan pengguna, sehingga cenderung menonjolkan masalah
    • Ini selaras dengan tujuan bahasa dalam kebanyakan situasi, dan LLM memang dilatih dengan bahasa
  • Peningkatan pada hasil benchmark dan kurangnya peningkatan pada tugas nyata mencerminkan hakikat LLM

    • LLM adalah sistem prediksi, dan jika dilatih pada domain tertentu maka performanya di domain itu akan meningkat
    • Saya tidak berharap pelatihan matematika tingkat lanjut akan meningkatkan kemampuan pemrograman
  • Saya memakai gemini 2.5 akhir pekan ini, dan hasilnya sangat mengesankan

    • Itu tergantung tujuan penggunaannya, dan saya masih belum yakin ke mana arah perkembangan LLM
  • Bahkan jika pengembangan LLM berhenti sekarang, kita akan terus menemukan penggunaan baru selama 10 tahun ke depan

    • Teknologinya berkembang terlalu cepat sehingga saya takut pada dampaknya
    • Saya berharap kita mencapai titik hasil yang semakin menurun, tetapi saya tidak terlalu percaya itu akan terjadi
  • Sebagai orang yang memakai LLM dan plugin bantuan coding, saya merasa GPT/Claude memburuk dalam 12 bulan terakhir

    • Saya rasa modelnya sudah "cukup bagus", dan sekarang kita perlu melihat perbaikan pada alat dan aplikasi
    • Saya pikir MCP adalah langkah yang baik ke arah yang benar, tetapi secara keseluruhan saya tetap skeptis