11 poin oleh GN⁺ 2025-02-03 | 5 komentar | Bagikan ke WhatsApp
  • LLM mengalami kesulitan dalam tugas komposisional (Compositional Task), yang menunjukkan adanya batasan pada kemampuan mereka
    • Masalah ini menunjukkan bahwa LLM tidak dapat melakukan penalaran melampaui apa yang telah mereka lihat di data pelatihan
  • Pada 17 Desember 1962, Life International memuat teka-teki logika yang terdiri dari 15 kalimat
  • Setiap kalimat memberikan petunjuk, seperti “Orang Inggris tinggal di rumah merah” atau “Minum susu di rumah tengah”
  • Atribut seperti warna lima rumah, kewarganegaraan penghuninya, hewan peliharaan, minuman, dan lainnya semuanya berbeda, dan pertanyaan intinya adalah “Siapa yang memiliki zebra”
  • Masalah ini disebut Einstein’s puzzle (atau riddle), dan belakangan digunakan sebagai tolok ukur untuk mengukur kemampuan penalaran multilangkah model machine learning, terutama large language model (LLM)
  • Nouha Dziri, ilmuwan riset di Allen Institute for AI, bersama rekan-rekannya menerapkan LLM seperti ChatGPT pada teka-teki ini dan mengonfirmasi keterbatasannya
  • Terungkap bahwa LLM sulit menyelesaikan masalah kompleks yang melampaui isi data pelatihan yang pernah mereka lihat
  • Ini menunjukkan tingkat kesulitan penalaran komposisional (compositional reasoning), yaitu “menggabungkan hasil yang diselesaikan langkah demi langkah untuk mencapai jawaban akhir”
  • Tim riset Dziri berpendapat bahwa LLM memiliki keterbatasan struktural karena dilatih hanya melalui prediksi kata
  • Peneliti lain juga membuktikan bahwa arsitektur transformer yang saat ini digunakan secara luas memiliki keterbatasan matematis dalam menyelesaikan masalah kompleks semacam ini
  • Walau model yang semakin kuat terus bermunculan, muncul pandangan bahwa mereka secara fundamental mungkin tidak dapat menyelesaikan semua masalah penalaran komposisional
  • Andrew Wilson (NYU) menyebut riset ini mendorong komunitas riset AI untuk kembali memikirkan apakah akan terus mendorong pendekatan yang berpusat pada transformer

Pertanyaan yang Muncul dari Pencapaian Mengejutkan

  • Menurut Dziri, ketika LLM mulai menunjukkan kemampuan bahasa yang mengejutkan, rasa ingin tahu soal “apakah benar-benar bisa bernalar” pun membesar
  • Meski LLM belajar dari teks internet dalam jumlah sangat besar dengan cara sederhana (memprediksi kelanjutan kalimat), mereka tetap mampu menangani tugas kompleks seperti pemrosesan bahasa alami, peringkasan dokumen, dan pembuatan kode
  • OpenAI o1, GPT-4, Gemini milik Google, dan Claude milik Anthropic adalah contoh model raksasa yang representatif
  • Namun, model-model ini terkadang justru membuat kesalahan tak terduga pada masalah yang bagi manusia terlihat sederhana
  • Sebagai contoh, ada laporan bahwa bahkan perkalian sederhana pun sering salah
  • Menurut riset Dziri, saat GPT-4 diminta mengerjakan perkalian tiga digit, tingkat akurasinya hanya 59%, dan untuk perkalian empat digit turun tajam menjadi 4%
  • Pada versi modifikasi Einstein’s puzzle pun, ketika jumlah atribut rumah kecil (2-3 atribut), akurasinya tinggi, tetapi saat atribut menjadi 4-5, tingkat keberhasilannya turun drastis
  • Ketika GPT-3 di-fine-tune dengan 1,8 juta data perkalian, model ini memang bekerja baik dalam rentang yang termasuk dalam pelatihan, tetapi saat ditanya dalam format yang berbeda dari contoh pelatihan, tingkat jawaban benarnya merosot tajam
  • Kesimpulannya, model lebih dekat pada meniru dengan bergantung pada contoh pelatihan daripada benar-benar memahami algoritmenya sendiri

Batasan yang Jelas

  • Masalah yang sama-sama disoroti Dziri dan peneliti lain adalah kurangnya ‘kemampuan penalaran komposisional’
  • Binghui Peng (Stanford University), saat masih menempuh program doktor di Columbia University, menaruh perhatian pada fakta bahwa LLM sering salah pada pertanyaan komposisi fakta seperti ‘siapa ayah dari ayah’
  • Ia menghitung berapa banyak parameter yang dibutuhkan lapisan (layer) transformer sederhana untuk menyelesaikan masalah semacam ini, dan menyimpulkan bahwa jika ukuran domain lebih besar daripada jumlah parameter model, maka masalah itu tidak bisa diselesaikan
  • Setelah diperluas ke transformer berlapis-lapis pun, ia membuktikan bahwa secara matematis hal itu tetap mustahil ketika berhadapan dengan masalah penalaran komposisional yang kompleks
  • Artinya, ketika skala model membesar, model memang bisa menyelesaikan masalah yang lebih sulit, tetapi jika tingkat kesulitan masalah ikut meningkat, batasannya akan kembali terlihat
  • Sebagian peneliti mencoba struktur jaringan saraf lain di luar transformer, misalnya state-space models, tetapi keterbatasan serupa juga terkonfirmasi

Upaya Melampaui Batasan

  • Berbagai langkah pelengkap diusulkan untuk mengatasi keterbatasan LLM
  • Misalnya, tim Tom Goldstein (University of Maryland) menambahkan informasi posisi saat memasukkan angka ke transformer agar operasi dengan digit yang lebih besar juga memungkinkan
  • Melalui pekerjaan ini, model yang dilatih pada bilangan 20 digit menunjukkan akurasi 98% bahkan untuk penjumlahan bilangan 100 digit
  • Metode lain adalah teknik chain-of-thought, yaitu menyajikan proses penyelesaian masalah secara bertahap di dalam prompt
  • Model seperti GPT-4 diamati menunjukkan potensi untuk menyelesaikan masalah yang lebih kompleks melalui metode ini
  • Ini didasarkan pada “prinsip memecah masalah besar menjadi rangkaian masalah-masalah kecil”, dan ada interpretasi teoretis bahwa pendekatan ini memperluas rentang operasi yang dapat ditangani transformer
  • Namun, model nyata tidak selalu menunjukkan kemampuan ini pada semua masalah, dan hasilnya berbeda-beda tergantung metode pelatihan serta struktur model
  • Pada akhirnya, karena LLM didasarkan pada pattern matching, untuk masalah penalaran komposisional yang besar atau kompleks akan selalu ada batasannya
  • Meski demikian, dari sudut pandang pengguna umum, batasan seperti ini mungkin tidak terlalu penting
  • Sebaliknya, bagi para peneliti yang membangun model, memahami dan memperbaiki batasan struktural ini adalah tugas utama
  • Dziri menekankan, “Jika kita dapat memahami secara tepat cara kerja internal LLM, peluang untuk menyelesaikan masalah mendasarnya akan menjadi lebih besar”

5 komentar

 
ned0909 2025-02-05

Itu cerita sebelum era penalaran.

 
bakyeono0 2025-02-04

Ada masalah karena simbol ~ dikenali sebagai penanda coret Markdown. Akan lebih baik jika diperbaiki.

 
rabolution 2025-02-04

Jadi, saat memakai LLM untuk coding, ternyata hasilnya lebih baik kalau coupling dibuat rendah dan separation of concerns diterapkan dengan baik. Sebenarnya, saya juga merasa manusia mungkin tidak jauh berbeda. ;)

 
hided62 2025-02-03

Tulisannya sendiri memang baru, tapi sepertinya basis artikelnya berasal dari sebelum o1.

Mereka menanyakan hal seperti, "Anak perempuan dari saudara perempuan ibu dari adik laki-laki ayah itu punya hubungan keluarga tingkat berapa dengan saya?",
4o jelas memang ada batasnya, sedangkan o1 bahkan berhasil menghindari semua jebakannya.

 
GN⁺ 2025-02-03
Komentar Hacker News
  • LLM, seperti model machine learning lainnya, memiliki karakteristik mencocokkan pola pada data masukan untuk menghasilkan hasil yang secara statistik paling mungkin

    • "Chain of thought" dapat digabungkan dengan reinforcement learning agar mampu menyelesaikan masalah sulit
    • Diperlukan definisi keberhasilan yang jelas dan model penghargaan
    • Kemampuan manusia dalam memecahkan masalah juga bergantung pada pencocokan pola, dan manusia mampu mengintegrasikan informasi dalam jumlah besar secara efisien
  • LLM merupakan keajaiban AI, dan terus meningkatkan hal-hal yang dulu dianggap mustahil setiap dua bulan

    • Sejumlah ilmuwan meremehkan pencapaian LLM
    • LeCun mengatakan LLM adalah jalan buntu dan mengarahkan peneliti ke arah lain
    • Fakta bahwa capaian LLM Meta tertinggal dibanding perusahaan lain mungkin berkaitan dengan skeptisisme ini
  • Ada banyak misinformasi tentang riset LLM

    • Model yang berumur 6-12 bulan hanya mampu melakukan penalaran sederhana
    • Tugas logis dan algoritmik yang kompleks memerlukan pemikiran System 2
    • LLM dapat berpikir melalui pemrograman
  • o3-mini-high dapat menghasilkan kode Prolog dengan cepat

    • Kode Prolog yang diberikan sebagai contoh berhasil menyelesaikan masalah
  • Hasil riset terbaru membahas GPT-3, 3.5, dan generasi pertama 4

  • ChatGPT terasa seperti mesin pencari yang cepat, dengan banyak halusinasi dan konteks yang terbatas

    • Ada banyak janji tentang perkembangan masa depan, tetapi kemajuan nyata masih sedikit
  • Perlu dibedakan apakah hasil riset menganalisis LLM murni atau mesin sintesis berbasis LLM

    • Performa o3 pada ARC-AGI-1 menunjukkan kemampuan mesin sintesis
  • LLM bisa gagal pada pertanyaan sederhana yang membutuhkan pemikiran 2D atau 3D

    • AI dapat dilatih agar mampu merepresentasikan dunia 2D/3D dengan baik
  • Jika keterbatasan LLM disebutkan dalam artikel, beberapa bulan kemudian akan muncul chatbot yang tidak memiliki keterbatasan itu

    • Keterbatasan ini bukanlah sesuatu yang mendasar
  • Pada saat riset akademik diterbitkan, sering kali sudah berlalu beberapa bulan

    • Jika ingin mengetahui batas teknologi terbaru, lebih baik merujuk ke media sosial daripada makalah riset