Saya rasa Yann LeCun benar soal LLM (meski mungkin kebetulan)

(substack.com)

21 poin oleh GN⁺ 2025-02-24 | 2 komentar | Bagikan ke WhatsApp

Dalam beberapa tahun terakhir, diskusi tentang AGI (Artificial General Intelligence, kecerdasan umum buatan) meningkat tajam
Definisi AGI sendiri tidak jelas dan sangat diperdebatkan, dan menetapkan timeline AGI telah menjadi cara diskusi yang umum
- "Timeline jangka panjang": pandangan bahwa AGI akan datang dalam 10–20 tahun
- "Timeline jangka pendek": klaim bahwa AGI akan segera muncul
Namun, membahas perkembangan AI dengan cara ini tidaklah efisien
- Lebih tepat melihatnya sebagai proses peningkatan produktivitas AI, bukan perjalanan menuju tujuan akhir bernama AGI
- AI berkembang agar bisa melakukan lebih banyak pekerjaan dengan campur tangan manusia yang semakin sedikit
  - Contoh: pelabelan data, penulisan kode, pemecahan soal matematika, kendaraan otonom, penerbangan otomatis, dan lain-lain
- Namun, belum pasti apakah AI akan mencapai titik di mana ia bisa beroperasi selamanya tanpa campur tangan manusia
- Kita perlu mengukur seberapa besar nilai yang bisa dihasilkan AI dibanding input yang diberikan
Perkembangan AI dapat dipandang sebagai kenaikan nilai ekonomi yang dihasilkan AI dibanding upaya manusia yang dimasukkan
Pertanyaan pentingnya:
- Apakah AI bisa terus berkembang tanpa batas hingga menciptakan nilai ekonomi tanpa campur tangan manusia?
- Atau, apakah ia akan mencapai batas teknis pada level tertentu?
Jika AI benar-benar dapat menciptakan nilai ekonomi tanpa campur tangan manusia, hasilnya juga bisa cukup berbahaya

Kita sudah pernah melihat fenomena ini (mobil swakemudi)

Di industri AI, sebelum ledakan model bahasa, sekitar 2017 pernah ada demam mobil swakemudi
- Saat itu, berbagai perusahaan menyatakan akan meluncurkan mobil Full Self-Driving (FSD) dalam waktu satu tahun dan berhasil menggalang investasi miliaran dolar
- Jutaan mil telah ditempuh dan banyak perusahaan didirikan, tetapi sebagian akhirnya bangkrut
FSD yang benar-benar penuh masih belum terwujud
- Tesla masih belum mampu menghadirkan swakemudi penuh, dan Waymo hanya bisa beroperasi sebagian di area tertentu yang telah dipetakan sebelumnya
- Masih tetap memerlukan campur tangan manusia sesekali

Prediksi Elon Musk, CEO Tesla, pada 2016:
"Tahun ini Tesla akan sepenuhnya berkendara otonom dari Los Angeles ke New York."
→ Namun hingga 2024 ini masih belum terwujud (Tesla masih menjual opsi langganan "Full Self-Driving")

Kini, alih-alih memperdebatkan apakah swakemudi akan sepenuhnya mungkin, pendekatan yang lebih realistis adalah mengukur "miles-per-intervention"
- Artinya, mengukur seberapa jauh mobil bisa melaju tanpa satu kali pun campur tangan manusia
Menurut laporan terbaru, Tesla rata-rata memerlukan satu campur tangan manusia setiap 13 mil
- Dengan model AI yang lebih besar, kecepatan inferensi yang lebih tinggi, lebih banyak data, dan rekayasa yang lebih baik, angka ini kemungkinan akan meningkat
- Namun, belum jelas apakah angka ini bisa meningkat tanpa batas dengan teknologi saat ini
Artinya, kita masih belum tahu apakah model swakemudi akan terus membaik tanpa batas hingga campur tangan manusia benar-benar tak lagi diperlukan, atau justru mencapai batas tertentu

Mengapa Yann LeCun salah (sebagian)

Yann LeCun, kepala ilmuwan AI Meta, pernah berargumen bahwa model bahasa tidak bisa mencapai kecerdasan setingkat manusia
Alasannya: model bahasa menghasilkan output per token, dan pada setiap token ada peluang terjadinya kesalahan; jika kesalahan ini terakumulasi, performa pada akhirnya akan menurun
Ia melihat masalah akumulasi kesalahan ini sebagai batas fatal model bahasa, dan berargumen bahwa untuk mengatasinya kita harus meninggalkan pendekatan autoregressive saat ini
Namun, kenyataannya berbeda
- Sistem AI terbaru (OpenAI o1/o3, DeepSeek R1, dan lain-lain) justru membantah hipotesis ini secara langsung
- Sistem-sistem ini tetap autoregressive, tetapi kinerjanya justru meningkat ketika menghasilkan output yang lebih panjang
- Dalam riset DeepSeek R1, terlihat pola bahwa semakin lama model berpikir, semakin besar peluangnya mendapatkan jawaban yang benar
  
  Melihat grafik pada laporan DeepSeek R1, performa model meningkat ketika menghasilkan output yang lebih panjang → bertentangan langsung dengan hipotesis Yann LeCun
Cara model memperbaiki kesalahannya sendiri
- Logika lama didasarkan pada asumsi bahwa kesalahan pasti akan terus terakumulasi pada level token
- Tetapi riset terbaru menunjukkan bahwa model memiliki mekanisme untuk memperbaiki kesalahannya sendiri
- Misalnya, ketika menghasilkan pola token tertentu, diamati ada kecenderungan probabilistik untuk menemukan jawaban yang lebih baik di tengah proses
  
  Contoh dari DeepSeek R1: proses model menemukan "jawaban yang lebih baik" pada titik tertentu → sesuatu yang menurut Yann LeCun tidak mungkin
Saat ini sebagian peneliti sedang menganalisis mekanisme self-correction semacam ini dan meneliti bagaimana cara memicunya dengan lebih efektif
Namun, masih belum pasti apakah pendekatan ini hanya berlaku untuk jenis masalah tertentu seperti coding dan soal matematika

Mengapa Yann LeCun benar (sebagian)

Hipotesis Yann LeCun tidak sepenuhnya salah
Walau riset terbaru membantah hipotesisnya soal "akumulasi kesalahan", tetap benar bahwa model bahasa tidak bisa menghasilkan output yang akurat tanpa batas
Dengan kata lain, AI tidak bisa bekerja secara mandiri selamanya
Batasan agen otonom penuh (FAA)
- Banyak peneliti berusaha mengembangkan agen AI (Agents) yang dapat menjalankan tugas jangka panjang
- Namun, ini memiliki masalah yang mirip dengan pengembangan mobil Full Self-Driving (FSD)
- Artinya, dengan stack teknologi saat ini, sistem AI yang sepenuhnya otonom mungkin mustahil diwujudkan
Pentingnya input manusia
- Informasi yang paling dapat diandalkan berasal dari prompt yang dimasukkan langsung oleh manusia
- AI memang bisa memperoleh data tambahan lewat beberapa alat (misalnya pencarian penerbangan, cek cuaca, dan sebagainya), tetapi menghasilkan output panjang secara membabi buta tidak berarti peluang jawaban benar akan meningkat tanpa batas
- Kemungkinan AI menghasilkan output yang berguna tanpa batas tanpa campur tangan manusia tergolong rendah

Mengapa diskusi AGI sebaiknya dihindari dalam riset AI

Mengukur kemajuan model bahasa dengan timeline AGI adalah cara yang keliru
Pertanyaan yang lebih baik adalah: "Seberapa lama AI bisa bekerja secara efektif tanpa campur tangan manusia?"
Seperti "miles-per-intervention" pada swakemudi, untuk model bahasa juga lebih praktis mengukur "berapa lama model dapat menghasilkan output yang akurat tanpa campur tangan manusia"
Daripada menunggu AI yang sepenuhnya bekerja tanpa campur tangan manusia (FAA, Fully Autonomous Agent), penting untuk menyadari proses perkembangan berkelanjutan berupa "bertambahnya volume kerja AI yang berguna"
Meski belum menjadi AGI penuh, nilai ekonomi yang diberikan teknologi saat ini sudah cukup bermakna
Karena itu, alih-alih memperdebatkan kapan AGI akan tercapai, arah yang lebih baik adalah meningkatkan produktivitas nyata AI

2 komentar

princox 2025-02-27

"AI tidak akan pernah bisa beroperasi secara mandiri selamanya"

Bagian ini cukup mengesankan.

GN⁺ 2025-02-24

Opini Hacker News

Satya Nadella menyinggung AGI
- Yang lebih penting daripada pendapatan Microsoft adalah mengendalikan ekspektasi berlebihan terhadap AGI
- Laju pertumbuhan ekonomi negara maju hanya 2%, dan jika memperhitungkan inflasi hampir 0%
- Pada 2025 akan ada tantangan bagi pertumbuhan ekonomi
- Pertumbuhan setara revolusi industri perlu dicapai
- Pemenangnya adalah industri yang memanfaatkan AGI, bukan perusahaan teknologi itu sendiri
- Ketika produktivitas meningkat dan ekonomi tumbuh cepat, industri juga akan berkembang
- Membanggakan pencapaian AGI tidak terlalu berarti; tolok ukur yang sebenarnya adalah ekonomi dunia tumbuh 10%
Penting untuk menemukan cara menyediakan pekerjaan bagi orang-orang
- Pergeseran pemasaran dari AGI ke ASI adalah jebakan
- Terlepas dari kritik terhadap ekonomi "gig", banyak orang menjalani hidup yang lebih baik lewat Uber atau DoorDash
- Uber dan DoorDash punya nilai dalam kehidupan sehari-hari
- Memberi tip kepada kurir membantu mereka menghasilkan lebih banyak daripada upah minimum
- Tidak semua orang bisa menjadi software engineer atau wirausahawan lewat belajar mandiri
- Menyediakan pekerjaan bagi orang-orang itu penting
Skeptisisme terhadap "penalaran" LLM makin besar
- Lewat hasil DeepSeek dan Grok, batasan LLM bisa terlihat
- Ada kasus model terjebak di jalur yang tidak efisien atau keliru
- Misalnya, Grok 3 menghabiskan 10 menit untuk berulang kali memeriksa nama kartu tertentu
- Ada kasus model masuk ke perilaku tidak produktif yang diperkuat oleh dirinya sendiri
Diskusi tentang mobil swakemudi
- Tesla masih belum mampu sepenuhnya swakemudi, dan Waymo hanya bisa di wilayah tertentu
- Beberapa sistem AI menjadi lebih baik saat menghasilkan output yang lebih panjang
- Namun, output yang panjang bukan berarti membuat model menjadi lebih baik
- Argumen LeCun menyoroti masalah akumulasi kesalahan pada language model
Ekspektasi berlebihan terhadap AGI dan robot humanoid
- Fokus seharusnya pada manfaat ekonomi, bukan AGI
- Target AGI adalah melampaui 99,99% manusia
Ekspektasi orang terhadap AGI
- Orang sebenarnya menginginkan sesuatu selain AGI
- Jika AGI punya otonomi, ia akan menjadi tak terkendali
- Orang menginginkan ahli yang sangat cakap secara teknis tetapi tetap mengikuti instruksi
Keberhasilan diffusion language model
- Menggunakan strategi remasking untuk mengatasi masalah akumulasi kesalahan
- Berhasil memprediksi beberapa token secara bersamaan
Pertanyaan tentang nilai ekonomi AI
- Saat AI meningkatkan produktivitas manusia, kepada siapa nilai ekonominya akan disalurkan
- Jika lapangan kerja manusia berkurang, perlu ada rencana untuk distribusi nilai ekonomi
Perbandingan AI dan mimpi manusia
- Cara AI menghasilkan dan memperluas skenario berdasarkan model realitas mungkin mirip dengan mimpi
- Ada pertanyaan apakah LLM bisa "dibangunkan" dengan menambahkan input real-time