- LLM mengalami kesulitan dalam tugas komposisional (Compositional Task), yang menunjukkan adanya batasan pada kemampuan mereka
- Masalah ini menunjukkan bahwa LLM tidak dapat melakukan penalaran melampaui apa yang telah mereka lihat di data pelatihan
- Pada 17 Desember 1962, Life International memuat teka-teki logika yang terdiri dari 15 kalimat
- Setiap kalimat memberikan petunjuk, seperti “Orang Inggris tinggal di rumah merah” atau “Minum susu di rumah tengah”
- Atribut seperti warna lima rumah, kewarganegaraan penghuninya, hewan peliharaan, minuman, dan lainnya semuanya berbeda, dan pertanyaan intinya adalah “Siapa yang memiliki zebra”
- Masalah ini disebut Einstein’s puzzle (atau riddle), dan belakangan digunakan sebagai tolok ukur untuk mengukur kemampuan penalaran multilangkah model machine learning, terutama large language model (LLM)
- Nouha Dziri, ilmuwan riset di Allen Institute for AI, bersama rekan-rekannya menerapkan LLM seperti ChatGPT pada teka-teki ini dan mengonfirmasi keterbatasannya
- Terungkap bahwa LLM sulit menyelesaikan masalah kompleks yang melampaui isi data pelatihan yang pernah mereka lihat
- Ini menunjukkan tingkat kesulitan penalaran komposisional (compositional reasoning), yaitu “menggabungkan hasil yang diselesaikan langkah demi langkah untuk mencapai jawaban akhir”
- Tim riset Dziri berpendapat bahwa LLM memiliki keterbatasan struktural karena dilatih hanya melalui prediksi kata
- Peneliti lain juga membuktikan bahwa arsitektur transformer yang saat ini digunakan secara luas memiliki keterbatasan matematis dalam menyelesaikan masalah kompleks semacam ini
- Walau model yang semakin kuat terus bermunculan, muncul pandangan bahwa mereka secara fundamental mungkin tidak dapat menyelesaikan semua masalah penalaran komposisional
- Andrew Wilson (NYU) menyebut riset ini mendorong komunitas riset AI untuk kembali memikirkan apakah akan terus mendorong pendekatan yang berpusat pada transformer
Pertanyaan yang Muncul dari Pencapaian Mengejutkan
- Menurut Dziri, ketika LLM mulai menunjukkan kemampuan bahasa yang mengejutkan, rasa ingin tahu soal “apakah benar-benar bisa bernalar” pun membesar
- Meski LLM belajar dari teks internet dalam jumlah sangat besar dengan cara sederhana (memprediksi kelanjutan kalimat), mereka tetap mampu menangani tugas kompleks seperti pemrosesan bahasa alami, peringkasan dokumen, dan pembuatan kode
- OpenAI o1, GPT-4, Gemini milik Google, dan Claude milik Anthropic adalah contoh model raksasa yang representatif
- Namun, model-model ini terkadang justru membuat kesalahan tak terduga pada masalah yang bagi manusia terlihat sederhana
- Sebagai contoh, ada laporan bahwa bahkan perkalian sederhana pun sering salah
- Menurut riset Dziri, saat GPT-4 diminta mengerjakan perkalian tiga digit, tingkat akurasinya hanya 59%, dan untuk perkalian empat digit turun tajam menjadi 4%
- Pada versi modifikasi Einstein’s puzzle pun, ketika jumlah atribut rumah kecil (2-3 atribut), akurasinya tinggi, tetapi saat atribut menjadi 4-5, tingkat keberhasilannya turun drastis
- Ketika GPT-3 di-fine-tune dengan 1,8 juta data perkalian, model ini memang bekerja baik dalam rentang yang termasuk dalam pelatihan, tetapi saat ditanya dalam format yang berbeda dari contoh pelatihan, tingkat jawaban benarnya merosot tajam
- Kesimpulannya, model lebih dekat pada meniru dengan bergantung pada contoh pelatihan daripada benar-benar memahami algoritmenya sendiri
Batasan yang Jelas
- Masalah yang sama-sama disoroti Dziri dan peneliti lain adalah kurangnya ‘kemampuan penalaran komposisional’
- Binghui Peng (Stanford University), saat masih menempuh program doktor di Columbia University, menaruh perhatian pada fakta bahwa LLM sering salah pada pertanyaan komposisi fakta seperti ‘siapa ayah dari ayah’
- Ia menghitung berapa banyak parameter yang dibutuhkan lapisan (layer) transformer sederhana untuk menyelesaikan masalah semacam ini, dan menyimpulkan bahwa jika ukuran domain lebih besar daripada jumlah parameter model, maka masalah itu tidak bisa diselesaikan
- Setelah diperluas ke transformer berlapis-lapis pun, ia membuktikan bahwa secara matematis hal itu tetap mustahil ketika berhadapan dengan masalah penalaran komposisional yang kompleks
- Artinya, ketika skala model membesar, model memang bisa menyelesaikan masalah yang lebih sulit, tetapi jika tingkat kesulitan masalah ikut meningkat, batasannya akan kembali terlihat
- Sebagian peneliti mencoba struktur jaringan saraf lain di luar transformer, misalnya state-space models, tetapi keterbatasan serupa juga terkonfirmasi
Upaya Melampaui Batasan
- Berbagai langkah pelengkap diusulkan untuk mengatasi keterbatasan LLM
- Misalnya, tim Tom Goldstein (University of Maryland) menambahkan informasi posisi saat memasukkan angka ke transformer agar operasi dengan digit yang lebih besar juga memungkinkan
- Melalui pekerjaan ini, model yang dilatih pada bilangan 20 digit menunjukkan akurasi 98% bahkan untuk penjumlahan bilangan 100 digit
- Metode lain adalah teknik chain-of-thought, yaitu menyajikan proses penyelesaian masalah secara bertahap di dalam prompt
- Model seperti GPT-4 diamati menunjukkan potensi untuk menyelesaikan masalah yang lebih kompleks melalui metode ini
- Ini didasarkan pada “prinsip memecah masalah besar menjadi rangkaian masalah-masalah kecil”, dan ada interpretasi teoretis bahwa pendekatan ini memperluas rentang operasi yang dapat ditangani transformer
- Namun, model nyata tidak selalu menunjukkan kemampuan ini pada semua masalah, dan hasilnya berbeda-beda tergantung metode pelatihan serta struktur model
- Pada akhirnya, karena LLM didasarkan pada pattern matching, untuk masalah penalaran komposisional yang besar atau kompleks akan selalu ada batasannya
- Meski demikian, dari sudut pandang pengguna umum, batasan seperti ini mungkin tidak terlalu penting
- Sebaliknya, bagi para peneliti yang membangun model, memahami dan memperbaiki batasan struktural ini adalah tugas utama
- Dziri menekankan, “Jika kita dapat memahami secara tepat cara kerja internal LLM, peluang untuk menyelesaikan masalah mendasarnya akan menjadi lebih besar”
5 komentar
Itu cerita sebelum era penalaran.
Ada masalah karena simbol
~dikenali sebagai penanda coret Markdown. Akan lebih baik jika diperbaiki.Jadi, saat memakai LLM untuk coding, ternyata hasilnya lebih baik kalau coupling dibuat rendah dan separation of concerns diterapkan dengan baik. Sebenarnya, saya juga merasa manusia mungkin tidak jauh berbeda. ;)
Tulisannya sendiri memang baru, tapi sepertinya basis artikelnya berasal dari sebelum o1.
Mereka menanyakan hal seperti, "Anak perempuan dari saudara perempuan ibu dari adik laki-laki ayah itu punya hubungan keluarga tingkat berapa dengan saya?",
4o jelas memang ada batasnya, sedangkan o1 bahkan berhasil menghindari semua jebakannya.
Komentar Hacker News
LLM, seperti model machine learning lainnya, memiliki karakteristik mencocokkan pola pada data masukan untuk menghasilkan hasil yang secara statistik paling mungkin
LLM merupakan keajaiban AI, dan terus meningkatkan hal-hal yang dulu dianggap mustahil setiap dua bulan
Ada banyak misinformasi tentang riset LLM
o3-mini-highdapat menghasilkan kode Prolog dengan cepatHasil riset terbaru membahas GPT-3, 3.5, dan generasi pertama 4
ChatGPT terasa seperti mesin pencari yang cepat, dengan banyak halusinasi dan konteks yang terbatas
Perlu dibedakan apakah hasil riset menganalisis LLM murni atau mesin sintesis berbasis LLM
LLM bisa gagal pada pertanyaan sederhana yang membutuhkan pemikiran 2D atau 3D
Jika keterbatasan LLM disebutkan dalam artikel, beberapa bulan kemudian akan muncul chatbot yang tidak memiliki keterbatasan itu
Pada saat riset akademik diterbitkan, sering kali sudah berlalu beberapa bulan