Menurut hasil riset terbaru, LLM ternyata kesulitan dalam tugas komposisional

(quantamagazine.org)

11 poin oleh GN⁺ 2025-02-03 | 5 komentar | Bagikan ke WhatsApp

LLM mengalami kesulitan dalam tugas komposisional (Compositional Task), yang menunjukkan adanya batasan pada kemampuan mereka
- Masalah ini menunjukkan bahwa LLM tidak dapat melakukan penalaran melampaui apa yang telah mereka lihat di data pelatihan
Pada 17 Desember 1962, Life International memuat teka-teki logika yang terdiri dari 15 kalimat
Setiap kalimat memberikan petunjuk, seperti “Orang Inggris tinggal di rumah merah” atau “Minum susu di rumah tengah”
Atribut seperti warna lima rumah, kewarganegaraan penghuninya, hewan peliharaan, minuman, dan lainnya semuanya berbeda, dan pertanyaan intinya adalah “Siapa yang memiliki zebra”
Masalah ini disebut Einstein’s puzzle (atau riddle), dan belakangan digunakan sebagai tolok ukur untuk mengukur kemampuan penalaran multilangkah model machine learning, terutama large language model (LLM)
Nouha Dziri, ilmuwan riset di Allen Institute for AI, bersama rekan-rekannya menerapkan LLM seperti ChatGPT pada teka-teki ini dan mengonfirmasi keterbatasannya
Terungkap bahwa LLM sulit menyelesaikan masalah kompleks yang melampaui isi data pelatihan yang pernah mereka lihat
Ini menunjukkan tingkat kesulitan penalaran komposisional (compositional reasoning), yaitu “menggabungkan hasil yang diselesaikan langkah demi langkah untuk mencapai jawaban akhir”
Tim riset Dziri berpendapat bahwa LLM memiliki keterbatasan struktural karena dilatih hanya melalui prediksi kata
Peneliti lain juga membuktikan bahwa arsitektur transformer yang saat ini digunakan secara luas memiliki keterbatasan matematis dalam menyelesaikan masalah kompleks semacam ini
Walau model yang semakin kuat terus bermunculan, muncul pandangan bahwa mereka secara fundamental mungkin tidak dapat menyelesaikan semua masalah penalaran komposisional
Andrew Wilson (NYU) menyebut riset ini mendorong komunitas riset AI untuk kembali memikirkan apakah akan terus mendorong pendekatan yang berpusat pada transformer

Pertanyaan yang Muncul dari Pencapaian Mengejutkan

Menurut Dziri, ketika LLM mulai menunjukkan kemampuan bahasa yang mengejutkan, rasa ingin tahu soal “apakah benar-benar bisa bernalar” pun membesar
Meski LLM belajar dari teks internet dalam jumlah sangat besar dengan cara sederhana (memprediksi kelanjutan kalimat), mereka tetap mampu menangani tugas kompleks seperti pemrosesan bahasa alami, peringkasan dokumen, dan pembuatan kode
OpenAI o1, GPT-4, Gemini milik Google, dan Claude milik Anthropic adalah contoh model raksasa yang representatif
Namun, model-model ini terkadang justru membuat kesalahan tak terduga pada masalah yang bagi manusia terlihat sederhana
Sebagai contoh, ada laporan bahwa bahkan perkalian sederhana pun sering salah
Menurut riset Dziri, saat GPT-4 diminta mengerjakan perkalian tiga digit, tingkat akurasinya hanya 59%, dan untuk perkalian empat digit turun tajam menjadi 4%
Pada versi modifikasi Einstein’s puzzle pun, ketika jumlah atribut rumah kecil (2-3 atribut), akurasinya tinggi, tetapi saat atribut menjadi 4-5, tingkat keberhasilannya turun drastis
Ketika GPT-3 di-fine-tune dengan 1,8 juta data perkalian, model ini memang bekerja baik dalam rentang yang termasuk dalam pelatihan, tetapi saat ditanya dalam format yang berbeda dari contoh pelatihan, tingkat jawaban benarnya merosot tajam
Kesimpulannya, model lebih dekat pada meniru dengan bergantung pada contoh pelatihan daripada benar-benar memahami algoritmenya sendiri

Batasan yang Jelas

Masalah yang sama-sama disoroti Dziri dan peneliti lain adalah kurangnya ‘kemampuan penalaran komposisional’
Binghui Peng (Stanford University), saat masih menempuh program doktor di Columbia University, menaruh perhatian pada fakta bahwa LLM sering salah pada pertanyaan komposisi fakta seperti ‘siapa ayah dari ayah’
Ia menghitung berapa banyak parameter yang dibutuhkan lapisan (layer) transformer sederhana untuk menyelesaikan masalah semacam ini, dan menyimpulkan bahwa jika ukuran domain lebih besar daripada jumlah parameter model, maka masalah itu tidak bisa diselesaikan
Setelah diperluas ke transformer berlapis-lapis pun, ia membuktikan bahwa secara matematis hal itu tetap mustahil ketika berhadapan dengan masalah penalaran komposisional yang kompleks
Artinya, ketika skala model membesar, model memang bisa menyelesaikan masalah yang lebih sulit, tetapi jika tingkat kesulitan masalah ikut meningkat, batasannya akan kembali terlihat
Sebagian peneliti mencoba struktur jaringan saraf lain di luar transformer, misalnya state-space models, tetapi keterbatasan serupa juga terkonfirmasi

Upaya Melampaui Batasan

Berbagai langkah pelengkap diusulkan untuk mengatasi keterbatasan LLM
Misalnya, tim Tom Goldstein (University of Maryland) menambahkan informasi posisi saat memasukkan angka ke transformer agar operasi dengan digit yang lebih besar juga memungkinkan
Melalui pekerjaan ini, model yang dilatih pada bilangan 20 digit menunjukkan akurasi 98% bahkan untuk penjumlahan bilangan 100 digit
Metode lain adalah teknik chain-of-thought, yaitu menyajikan proses penyelesaian masalah secara bertahap di dalam prompt
Model seperti GPT-4 diamati menunjukkan potensi untuk menyelesaikan masalah yang lebih kompleks melalui metode ini
Ini didasarkan pada “prinsip memecah masalah besar menjadi rangkaian masalah-masalah kecil”, dan ada interpretasi teoretis bahwa pendekatan ini memperluas rentang operasi yang dapat ditangani transformer
Namun, model nyata tidak selalu menunjukkan kemampuan ini pada semua masalah, dan hasilnya berbeda-beda tergantung metode pelatihan serta struktur model
Pada akhirnya, karena LLM didasarkan pada pattern matching, untuk masalah penalaran komposisional yang besar atau kompleks akan selalu ada batasannya
Meski demikian, dari sudut pandang pengguna umum, batasan seperti ini mungkin tidak terlalu penting
Sebaliknya, bagi para peneliti yang membangun model, memahami dan memperbaiki batasan struktural ini adalah tugas utama
Dziri menekankan, “Jika kita dapat memahami secara tepat cara kerja internal LLM, peluang untuk menyelesaikan masalah mendasarnya akan menjadi lebih besar”

5 komentar

ned0909 2025-02-05

Itu cerita sebelum era penalaran.

bakyeono0 2025-02-04

Ada masalah karena simbol ~ dikenali sebagai penanda coret Markdown. Akan lebih baik jika diperbaiki.

rabolution 2025-02-04

Jadi, saat memakai LLM untuk coding, ternyata hasilnya lebih baik kalau coupling dibuat rendah dan separation of concerns diterapkan dengan baik. Sebenarnya, saya juga merasa manusia mungkin tidak jauh berbeda. ;)

hided62 2025-02-03

Tulisannya sendiri memang baru, tapi sepertinya basis artikelnya berasal dari sebelum o1.

Mereka menanyakan hal seperti, "Anak perempuan dari saudara perempuan ibu dari adik laki-laki ayah itu punya hubungan keluarga tingkat berapa dengan saya?",
4o jelas memang ada batasnya, sedangkan o1 bahkan berhasil menghindari semua jebakannya.

GN⁺ 2025-02-03

Komentar Hacker News

LLM, seperti model machine learning lainnya, memiliki karakteristik mencocokkan pola pada data masukan untuk menghasilkan hasil yang secara statistik paling mungkin
- "Chain of thought" dapat digabungkan dengan reinforcement learning agar mampu menyelesaikan masalah sulit
- Diperlukan definisi keberhasilan yang jelas dan model penghargaan
- Kemampuan manusia dalam memecahkan masalah juga bergantung pada pencocokan pola, dan manusia mampu mengintegrasikan informasi dalam jumlah besar secara efisien
LLM merupakan keajaiban AI, dan terus meningkatkan hal-hal yang dulu dianggap mustahil setiap dua bulan
- Sejumlah ilmuwan meremehkan pencapaian LLM
- LeCun mengatakan LLM adalah jalan buntu dan mengarahkan peneliti ke arah lain
- Fakta bahwa capaian LLM Meta tertinggal dibanding perusahaan lain mungkin berkaitan dengan skeptisisme ini
Ada banyak misinformasi tentang riset LLM
- Model yang berumur 6-12 bulan hanya mampu melakukan penalaran sederhana
- Tugas logis dan algoritmik yang kompleks memerlukan pemikiran System 2
- LLM dapat berpikir melalui pemrograman
o3-mini-high dapat menghasilkan kode Prolog dengan cepat
- Kode Prolog yang diberikan sebagai contoh berhasil menyelesaikan masalah
Hasil riset terbaru membahas GPT-3, 3.5, dan generasi pertama 4
ChatGPT terasa seperti mesin pencari yang cepat, dengan banyak halusinasi dan konteks yang terbatas
- Ada banyak janji tentang perkembangan masa depan, tetapi kemajuan nyata masih sedikit
Perlu dibedakan apakah hasil riset menganalisis LLM murni atau mesin sintesis berbasis LLM
- Performa o3 pada ARC-AGI-1 menunjukkan kemampuan mesin sintesis
LLM bisa gagal pada pertanyaan sederhana yang membutuhkan pemikiran 2D atau 3D
- AI dapat dilatih agar mampu merepresentasikan dunia 2D/3D dengan baik
Jika keterbatasan LLM disebutkan dalam artikel, beberapa bulan kemudian akan muncul chatbot yang tidak memiliki keterbatasan itu
- Keterbatasan ini bukanlah sesuatu yang mendasar
Pada saat riset akademik diterbitkan, sering kali sudah berlalu beberapa bulan
- Jika ingin mengetahui batas teknologi terbaru, lebih baik merujuk ke media sosial daripada makalah riset