36 poin oleh GN⁺ 2024-04-28 | 1 komentar | Bagikan ke WhatsApp

[ Keterbatasan LLM ]

  • Tentang penyimpangan tujuan dan rendahnya reliabilitas LLM, atau mengapa LLM tidak bisa memainkan Conway's Game of Life
  • Selama beberapa tahun terakhir, LLM telah dengan sangat baik menyelesaikan masalah-masalah yang dulu dianggap tidak dapat dipecahkan, tetapi tetap tidak jelas mengapa mereka masih tidak bisa menjawab pertanyaan yang tampak sederhana
  • Selama beberapa minggu terakhir saya berusaha memahami mode kegagalan LLM. Ini memang topik yang aneh, tetapi terasa menarik. Kegagalan AI mengajarkan lebih banyak daripada keberhasilannya
  • Pada dasarnya saya berangkat dari fakta bahwa banyak pekerjaan yang pada akhirnya akan dilakukan LLM membutuhkan evaluasi satu per satu, tetapi fokusnya adalah memahami batas kemampuan penalaran dan mencari cara untuk memercayai kemampuan belajarnya
  • Sulit mengevaluasi kemampuan penalaran LLM
    • Sulit memisahkan kemampuan penalaran dari data pelatihan
    • Saya ingin menemukan cara untuk menguji kemampuan bernalar berulang kali dan menjawab pertanyaan
  • Saya mulai dari versi paling sederhana yang memenuhi kriteria yang memadai
    • Apakah model bisa secara berurutan membuat grid kata berukuran 3x3, 4x4, dan 5x5
    • Evaluasi harus mudah dibuat, mudah dinilai, tetapi tetap sulit dikerjakan
  • Semua model bahasa besar terbaru, termasuk Opus dan GPT-4, gagal dalam tugas ini
    • Model-model ini dapat menjawab pertanyaan rumit seperti ekonomi dan mekanika kuantum, serta melakukan coding, membuat gambar, musik, video, menghasilkan seluruh aplikasi, bahkan memainkan catur tingkat tinggi
    • Namun, mereka tidak bisa menyelesaikan sudoku

Reversal Curse

  • Pada LLM ada Reversal Curse, yaitu ketika model belajar dalam bentuk "A adalah B", model tidak dapat melakukan generalisasi ke arah sebaliknya, yaitu "B adalah A"
    • Misalnya, jika model mempelajari "Valentina Tereshkova adalah perempuan pertama yang melakukan perjalanan ke luar angkasa", model tidak otomatis bisa menjawab pertanyaan "Siapa perempuan pertama yang melakukan perjalanan ke luar angkasa?"
    • Selain itu, probabilitas jawaban yang benar ("Valentina Tereshkova") tidak lebih tinggi daripada nama acak
  • Model tidak mampu melakukan generalisasi dengan baik untuk memahami relasi antarmanusia
  • Bahkan model kelas tertinggi pun masih mengalami masalah ini

Apakah ini masalah distribusi data pelatihan?

  • Saya mulai bertanya-tanya apakah masalah ini disebabkan keanehan dalam distribusi data pelatihan. Karena terasa seperti kita belum menunjukkan cukup banyak contoh, saya mencoba sesuatu yang deterministik
  • Saya mengujinya dengan melatih transformer untuk memprediksi Cellular Automata
  • Tidak tampak ada masalah penerjemahan, tetapi tetap gagal!
  • Setidaknya ada dua jenis masalah yang berbeda
    1. Masalah yang tidak bisa dikerjakan LLM karena informasinya tidak ada dalam data pelatihan dan model tidak dilatih untuk mengerjakannya
    2. Masalah yang tidak bisa dikerjakan LLM karena cara LLM dibangun
  • Hampir semua yang kita lihat lebih mengingatkan pada masalah 2 daripada masalah 1

Mengapa LLM pada dasarnya tidak bisa melakukannya

  • Saya berpikir model mengalami masalah goal drift, karena dipaksa menghasilkan satu token pada satu waktu, sehingga tidak bisa melakukan generalisasi melampaui konteks dalam prompt dan tidak tahu di mana harus menaruh perhatian
    • Ini juga alasan prompt injection bisa bekerja: karena ia mendistorsi mekanisme attention (men-jailbreak model dengan mengatakan sesuatu seperti _### Instruction: ...`)
  • Baik pada LLM maupun manusia, konteks adalah sumber daya yang langka
  • Singkatnya,
    1. LLM adalah model probabilistik yang meniru komputasi, dan kadang-kadang menirunya dengan sangat dekat secara arbitrer
    2. Semakin besar model yang dilatih, semakin banyak asosiasi implisit dalam data yang dipelajari, yang akan membantu penalaran yang lebih baik
    • Asosiasi yang dipelajari tidak selalu terpetakan rapi ke ide-ide kita
    1. Penalaran selalu merupakan single pass
    • LLM tidak bisa berhenti, mengumpulkan state dunia, bernalar, meninjau ulang jawaban sebelumnya, atau memprediksi jawaban masa depan, kecuali jika proses tersebut dijelaskan secara rinci dalam data pelatihan
    • Bahkan jika prompt dan respons sebelumnya disertakan, penalaran berikutnya tetap dimulai dari awal sebagai single pass
    1. Ini menciptakan masalah berupa semacam 'goal drift' yang tak terhindarkan, yang membuat reliabilitas penalaran menurun
    • Ini juga alasan prompt injection bekerja (karena mendistorsi mekanisme attention)
    • 'Goal drift' ini berarti agen atau tugas yang dijalankan berulang secara berurutan menjadi kurang andal
    • Karena attention tidak selektif atau dinamis, model "lupa" di mana harus fokus
    1. LLM tidak bisa mereset konteks secara dinamis
    • Mesin Turing menggunakan tape sebagai memori, sedangkan transformer menggunakan state internalnya (dikelola melalui self-attention) untuk melacak komputasi antara
    • Ini berarti ada banyak jenis komputasi yang memang tidak bisa dijalankan dengan baik oleh transformer
    1. Ini bisa diatasi sebagian melalui chain of thought atau dengan menggunakan LLM lain untuk meninjau dan memperbaiki output
    • Pada dasarnya, mencari cara untuk mengembalikan penalaran ke jalurnya
    • Dengan prompt yang cukup cerdas dan iterasi bertahap, LLM dapat mengekstrak hampir semua hal yang ada dalam data pelatihan
    • Seiring perbaikan model, setiap penalaran juga akan membaik, menjadi lebih andal, dan memungkinkan agen yang lebih baik
    1. Dengan upaya besar, pada akhirnya akan ada sistem GPT yang saling terhubung, banyak iterasi internal, pemeriksaan dan perbaikan kesalahan yang berkelanjutan, memori yang dieksternalisasi, dan komponen fungsional lainnya
    • Namun, bahkan jika ini dipaksakan secara brute force untuk mendekati AGI di banyak domain, sistem tersebut tetap tidak dapat benar-benar melakukan generalisasi melampaui data pelatihan
    • Meski begitu, itu tetap sesuatu yang ajaib

[ Eksperimen - Mengapa GPT tidak bisa mempelajari Wordle ]

  • LLM tidak bisa memainkan Wordle
    • Hal yang sama berlaku untuk sudoku atau grid kata (bentuk paling sederhana dari teka-teki silang)
  • Ini mengejutkan, karena masalah-masalah ini sebenarnya tidak sulit
    • Murid sekolah dasar pun bisa mencobanya, tetapi bahkan LLM terbaik pun gagal mengerjakannya
  • Dugaan pertama tentu adalah kurangnya data pelatihan
    • Namun, sepertinya bukan itu yang terjadi di sini
    • Karena aturannya jelas ada di dalam data
    • Wordle bukan sesuatu yang kebetulan terlewat dari dataset pelatihan LLM saat ini
  • Dugaan lain adalah masalah tokenisasi
    • Namun ini juga tidak benar
    • Bahkan jika diberi beberapa kesempatan dan jawaban sebelumnya agar ada ruang untuk mengulang, model tetap kesulitan menemukan solusi yang benar
    • Bahkan jika huruf-huruf diberi spasi, hasilnya tetap tidak bagus
  • Bahkan jika jawaban sebelumnya, konteks, dan pertanyaan diberikan kembali, model sering kali memulai ulang seluruh urutan jawaban alih-alih hanya mengedit sesuatu pada sel [3,4]
  • Sebaliknya, berdasarkan sifatnya, tiap langkah tampaknya memerlukan tingkat komputasi iteratif yang berbeda-beda yang tidak bisa dijalankan model mana pun
    • Dalam beberapa hal ini masuk akal, karena model autoregresif hanya bisa melakukan satu forward pass pada satu waktu
      • Ia bisa terus "mengucapkan" proses berpikirnya dengan menggunakan penyimpanan token yang ada dan output sebagai scratch pad, tetapi terlalu cepat kehilangan jejak
  • Kesimpulannya di sini adalah bahwa ketika tiap langkah membutuhkan memori sekaligus komputasi, itu tampaknya tidak bisa diselesaikan transformer dalam jumlah layer dan attention head yang dimilikinya saat ini
    • Bahkan pada model yang sangat besar seperti GPT-4 dengan token pelatihan skala triliunan
  • Ironisnya, model tidak bisa mengetahui di mana harus memusatkan perhatian
    • Karena cara attention saat ini bekerja bersifat statis dan memproses semua bagian sekuens secara bersamaan
    • Bukan mencoba alternatif dengan berbagai heuristik yang lebih selektif dan mereset konteks secara dinamis
  • Ini karena attention sebagaimana diukur saat ini pada dasarnya bukan analisis hierarkis multi-thread seperti yang kita lakukan
    • Atau mungkin secara implisit bisa begitu, tetapi evaluasi probabilistik yang dihasilkannya tidak menerjemahkan konteks itu ke masalah individual

[ Eksperimen - Mengajarkan Cellular Automata kepada LLM ]

  • Saat melatih, saya pikir dasar-dasarnya bisa diajarkan karena data tak terbatas dapat dibuat sampai hasil yang diinginkan tercapai
  • Saya mencoba membuat toy transformer untuk melakukan prediksi
  • Di kiri adalah CA, di kanan keluaran Transformer, lalu diminta melihat apakah keduanya bisa dibedakan
  • Saya tidak berhasil melatihnya untuk memprediksi hasilnya dan tidak bisa menemukan alasannya
  • Memang ini model toy, tetapi ia cukup berfungsi untuk mempelajari berbagai persamaan yang saya coba, dan bahkan melakukan sedikit generalisasi
  • Saya mencoba mengecilkan ukuran grid dan mengoptimalkan hyperparameter, tetapi tetap tidak berhasil
  • Saya menduga model membutuhkan lebih banyak informasi tentang tata letak fisik, jadi saya menambahkan layer CNN dan mengubah positional embedding agar secara eksplisit menangani sumbu X dan Y. Tetap saja tidak berhasil
  • Dalam keputusasaan, saya mencoba mengajarkan setidaknya satu persamaan sederhana
  • Awalnya sama sekali tidak berjalan, tetapi setelah menambahkan token awal/akhir, tiba-tiba mulai berhasil. Transformer memang aneh
  • Ukurannya belum sempurna, tetapi hampir benar-benar belajar. Padahal head maupun layer-nya hampir tidak ada, dan max_iter-nya hanya 1000
  • Idenya jelas bahwa model harus mempelajari beberapa state dan mempertahankan riwayatnya, jadi saya merasa perlu menambahkan kemampuan itu entah bagaimana. Karena itu saya mengubah decoder agar menambahkan input lain setelah output. Ini setara dengan menambahkan layer RNN lain atau memberi memori tentang langkah-langkah sebelumnya
  • Tetapi tetap tidak berhasil. Saya kembali ke cellular automata dan mencoba dari hal-hal paling dasar, namun tetap tidak jalan. Padahal ini 1 dimensi dan aturannya benar-benar mudah. Bukan hanya rule 110 yang Turing-complete, tetapi juga hal seperti 0
  • Jika sebuah model belajar memberikan jawaban yang benar pada serangkaian soal, apakah itu berarti ia telah mempelajari aturan dasarnya? Atau ia hanya mempelajari analog dari aturan itu sehingga bisa meniru hasil dalam distribusi yang diberikan, dalam kondisi yang mudah salah dengan cara yang keliru?
  • Masalah yang sama muncul bukan hanya pada model toy atau GPT 3.5, tetapi juga pada LLM yang lebih besar seperti GPT-4, Claude, dan Gemini. Setidaknya dalam mode chat
  • Baik lewat fine-tuning maupun pelatihan khusus, tampaknya LLM tidak bisa memainkan Conway's Game of Life
  • Akan sangat menarik jika seseorang bisa memecahkan ini. Setidaknya jika bisa menjelaskan mengapa masalah ini muncul

[ Bagaimana masalah ini diselesaikan sejauh ini ]

  • Saat merancang sistem ini, semakin banyak kita mencerminkan kecerdasan kita sendiri, semakin baik keluaran akhirnya meniru transformasi yang dibutuhkan
  • Kita bisa mengajarkan puzzle satu per satu dan berharap penalarannya dapat ditransfer, tetapi bagaimana kita tahu bahwa model benar-benar telah mempelajari generalisasi? Sampai baru-baru ini, bahkan penjumlahan dan perkalian pun sulit bagi model ini
  • Victor Taelin berpendapat bahwa "GPT tidak akan pernah bisa menyelesaikan masalah A::B". Ini dimaksudkan sebagai contoh bahwa model berbasis transformer tidak benar-benar dapat mempelajari masalah baru di luar himpunan latih atau melakukan penalaran jangka panjang
    • Ia berkata, "GPT yang kuat pada dasarnya adalah perancang sirkuit yang berevolusi di dalam bobotnya," dan "tetapi sebagai model komputasi, karena kekakuan attention, sirkuit yang berevolusi seperti itu tidak bisa menjadi cukup fleksibel"
    • "AGI sepertinya mencoba tumbuh di dalamnya, tetapi tampaknya tidak bisa karena batasan komputasi dan komunikasi yang dipaksakan. Ingatlah bahwa otak manusia selalu mengalami plastisitas sinaptik. Ada arsitektur yang lebih fleksibel yang, meski dilatih pada skala jauh lebih kecil, kemungkinan lebih besar akan mengarah ke AGI. Tetapi kita belum mengetahuinya."
  • Ia memasang hadiah $10.000 untuk masalah ini, dan masalah itu terpecahkan hanya dalam sehari.

[ Seberapa bisa LLM benar-benar belajar? ]

Pertanyaan tentang kemampuan belajar LLM

  • LLM sering gagal bahkan pada permainan anak-anak seperti interaksi berulang sederhana atau pemilihan batasan
  • Namun, LLM juga dapat menyelesaikan soal matematika sulit, penalaran ekonomi kompetitif, estimasi Fermi, bahkan soal fisika dalam bahasa yang tidak dipelajari secara eksplisit
  • Jawaban LLM sangat bergantung pada cara prompt diberikan
  • LLM menunjukkan intuisi yang luar biasa tetapi memiliki kecerdasan yang terbatas
  • Semakin banyak langkah penalaran, semakin sulit bagi LLM untuk memahami tujuan dan tetap fokus

Peningkatan kinerja jaringan saraf dengan menambahkan memori eksternal

  • Menambahkan koneksi tipe RNN memberi sedikit perbedaan, tetapi tidak cukup untuk sepenuhnya menyelesaikan masalah
  • Menambahkan memori eksternal ke jaringan saraf memungkinkan pembelajaran berbagai pola tak beraturan
  • Hanya jaringan yang ditambah memori terstruktur (stack atau memory tape) yang dapat berhasil melakukan generalisasi pada tugas context-free dan context-sensitive

Batasan prompt chain-of-thought dan scratchpad

  • Prompt chain-of-thought, penggunaan scratchpad, menuliskan pikiran perantara di kertas, semuanya adalah contoh proses berpikir untuk mengurangi penyimpangan tujuan
  • Namun, metode-metode ini tetap terhambat oleh dosa asal (original sin)
  • Keluaran yang bergantung pada input sebelumnya, terutama ketika memerlukan komputasi pada setiap langkah, terlalu kompleks dan panjang bagi model berbasis transformer saat ini untuk ditangani

Kutukan autoregression

  • Semakin besar skala model, semakin baik performanya dalam chain-of-thought jangka panjang, tetapi model tetap terus menunjukkan kesalahan pada titik-titik acak dalam rantai penalaran yang tampak tidak terkait dengan kemampuan lain
  • Bahkan ketika menyelesaikan tugas yang sama melalui banyak langkah, makin panjang jumlah langkahnya, makin besar kemungkinan model membuat kesalahan
  • GPT-4 memiliki lebih sedikit halusinasi dan kesalahan dibanding GPT-3.5
  • Apakah jawaban yang tepat adalah membangun model besar seperti GPT-4 atau Opus yang tetap gagal dalam permainan Wordle?

Pertanyaan tentang hakikat kognisi

  • Jika ada jenis masalah yang bisa diselesaikan dengan mudah oleh anak sekolah dasar, tetapi tidak bisa diselesaikan oleh model canggih yang dilatih dengan triliunan token dan puluhan miliar dolar, apa yang dikatakan hal itu tentang hakikat kognisi kita?
  • Bagian G (generalisasi) dalam AGI adalah bagian yang paling sulit, dan ini tidak mudah melakukan generalisasi melampaui distribusi
  • Apa yang kita miliki lebih dekat ke sebagian dari Perpustakaan Babel, dan ia dapat membaca bukan hanya buku-buku yang sudah ditulis tetapi juga informasi yang berada di sela-sela buku-buku itu

Perbedaan data pelatihan manusia dan LLM

  • Sepanjang hidup, manusia bisa membaca 30.000 hingga 50.000 buku, tetapi kebanyakan orang bahkan tidak membaca 1% dari jumlah itu (maksimum 1GB data)
  • Sebaliknya, LLM telah menyerap semua yang ada di internet dan banyak lagi, mempelajari ratusan miliar kata di seluruh ranah dan bidang ilmu (GPT-3 dilatih dengan 45TB data)
  • Tidak mudah menjawab seperti apa jadinya seseorang yang membaca 2 juta buku, atau apa yang bisa dilakukan pengenal pola sederhana jika membaca 2 juta buku
  • LLM mempelajari pola dan aturan implisit dalam data pelatihan, tetapi tidak mudah membuatnya menjadi eksplisit
  • Jika LLM tidak memiliki cara untuk mengetahui persamaan yang berkaitan dengan pencocokan pola, maka ia tidak bisa belajar melakukan generalisasi, sehingga Reversal Curse tetap ada

[ LLM tidak dapat mereset konteks ]

  • Bahwa LLM menyerupai entitas, neuron, atau bagian dari neokorteks adalah analogi yang berguna pada saat tertentu, tetapi tidak sepenuhnya menangkap perilaku yang kita lihat pada LLM
  • Hal yang menarik dari model yang dapat mempelajari pola adalah bahwa ia mempelajari pola yang mungkin tidak secara eksplisit tercantum dalam dataset
  • Dalam proses mempelajari bahasa, LLM menangkap berbagai keterkaitan yang tertanam dalam data, menghubungkan von Neumann dan Charles Dickens, lalu menghasilkan tiruan yang cukup realistis tentang apa yang mungkin akan kita katakan

Kompleksitas dataset dan batas ukuran model

  • Bahkan jika kita mengasumsikan dataset mengodekan seluruh kompleksitas umat manusia, jumlah pola semacam itu yang ada bahkan di dalam dataset kecil pun akan dengan cepat melampaui ukuran model
  • Ini hampir merupakan keniscayaan matematis
  • Dalam masalah cellular automata, tidak jelas apakah LLM benar-benar mempelajari metodenya, atau seberapa dapat diandalkan hasilnya
  • Kesalahan LLM adalah indikator yang lebih baik tentang apa yang tidak mereka ketahui daripada keberhasilan mereka

Batasan LLM yang belajar cara belajar

  • Jaringan saraf yang lebih besar tidak hanya belajar dari data, tetapi juga belajar cara belajar
  • Inilah alasan LLM bisa diberi beberapa contoh lalu menyelesaikan masalah yang tidak pernah dilihat dalam himpunan latih
  • Namun, metode yang digunakan LLM tampaknya tidak cukup tergeneralisasi, terutama dalam hal mempelajari ke mana perhatian harus diarahkan
  • Belajar cara belajar juga bukan satu algoritma global tunggal bagi kita
  • Untuk beberapa hal, itu bekerja lebih baik, dan untuk hal lain lebih buruk
  • Ia bekerja dengan cara berbeda untuk jenis masalah yang berbeda
  • Semua ini harus ditulis dengan jumlah parameter yang sama, jadi komputasi yang bisa dilakukan melalui bobot-bobot ini bukan hanya harus mampu menjawab tentang Muppets, tetapi juga memberi tahu kita tentang penemuan fisika besar berikutnya yang akan menghancurkan teori saat ini

Kompleksitas urutan simbol yang saling berinteraksi

  • Jika simbol-simbol dalam sebuah urutan berinteraksi sedemikian rupa sehingga keberadaan atau posisi satu simbol memengaruhi kandungan informasi simbol berikutnya, entropi Shannon total dari kumpulan data bisa lebih tinggi daripada yang diperkirakan hanya dengan melihat simbol-simbol individual
  • Ini membuat hal-hal yang bergantung pada keadaan seperti Conway's Game of Life menjadi sangat sulit
  • Ini juga tampaknya menjadi alasan mengapa GPT tidak benar-benar dapat mempelajari pola, meskipun telah di-fine-tune pada kumpulan data Game of Life
  • Sebagai gantinya, GPT belajar secukupnya untuk bisa menjawab pertanyaan (semacam hukum Goodhart)

Sulitnya mendefinisikan LLM dengan tes sederhana

  • Mengajukan pertanyaan tingkat tinggi untuk mendefinisikan salah satu dari hal-hal ini dengan tes sederhana yang bisa dijalankan pada LLM adalah tindakan yang bodoh
  • Karena mendefinisikan salah satunya pada dasarnya berarti mendefinisikan secara efektif garis besar lebih dari setengah abad riset ilmiah

[ Kita membutuhkan lebih banyak agen ]

  • Sejalan dengan teori saat ini, menambahkan lebih banyak rekursi ke model LLM tentu akan membuatnya lebih baik
  • Namun, ia hanya akan dapat menyelesaikan masalah perencanaan yang makin kompleks secara bertahap sejauh ia mampu mengingat tujuan awal dan jalur yang telah ditempuh sejauh ini
  • Masih belum jelas mengapa LLM tidak dapat diandalkan
  • GPT-4 lebih dapat diandalkan dibanding GPT-3.5, tetapi tidak diketahui apakah itu semata karena ia menjadi lebih mahir dalam belajar atau karena penskalaan meningkatkan keandalan dan mengurangi halusinasi

Agen: kasus penggunaan yang kuat

  • Agen, yaitu entitas otonom yang dapat melakukan seluruh tugas untuk kita, adalah kasus penggunaan impian bagi LLM
  • Dalam praktiknya, lebih banyak agen memang dibutuhkan untuk banyak tugas
  • Jika ia bekerja sedikit lebih baik pada beberapa tugas, apakah dengan jumlah agen yang cukup ia akan bekerja lebih baik pada semua tugas? Itu mungkin, tetapi untuk saat ini tampaknya tidak demikian
  • Pada opsi seperti Devin dari Cognition Labs, kita bisa melihat sekilas betapa kuatnya hal itu (menunjukkan kasus penggunaan nyata)

Potensi meluas ke porsi besar pekerjaan dalam beberapa tahun ke depan

  • Apakah perilaku seperti ini bisa meluas ke porsi besar pekerjaan dalam beberapa tahun ke depan? Tampaknya bisa
  • Setiap pekerjaan harus didekati secara individual, dan ini akan menjadi model-model khusus yang tidak mudah diskalakan (bukan satu model yang menguasai segalanya)
  • Versi open source sudah menunjukkan sebagian dari elemen intinya
    • Meninjau dengan cermat urutan dan jumlah informasi yang mencapai model dasar, lalu menciptakan lingkungan tempat mereka bisa berkembang dengan mempertimbangkan keterbatasannya seperti yang telah kita lihat sebelumnya

Keterbatasan GPT dan solusinya

  • Bahwa GPT tidak dapat menyelesaikan sendiri masalah seperti Game of Life, atau bahkan ketika mencoba memikirkan langkah-langkahnya, bukanlah hal yang penting
  • Yang penting adalah GPT bisa menulis program untuk menyelesaikannya
  • Artinya, jika GPT dapat dilatih untuk mengenali situasi di mana masuk akal untuk menulis program bagi setiap program, kita mungkin bisa mendekati AGI (pandangan saya)

Batas kapasitas model dan hubungan kompetitif antar-modalitas visual-bahasa

  • Setidaknya pada model kecil, ada persaingan antar-bobot mengenai apa yang dipelajari
  • Komentar terbaik yang saya lihat dari makalah DeepSeek:
    • DeepSeek-VL-7B menunjukkan sedikit penurunan pada matematika (GSM8K)
    • Ini menunjukkan bahwa meskipun ada upaya untuk mendorong harmoni antara modalitas visual dan bahasa, masih ada hubungan kompetitif di antara keduanya
    • Hal ini mungkin disebabkan oleh kapasitas model yang terbatas (7B), dan model yang lebih besar dapat sangat mengurangi masalah ini

[ Kesimpulan ]

  • Hal-hal yang dipelajari dari contoh-contoh sebelumnya
    • Ada jenis masalah tertentu yang untuk saat ini tidak bisa diselesaikan oleh LLM (Large Language Model)
      • Terutama masalah yang membutuhkan langkah penalaran lebih panjang, seperti bergantung pada keadaan sebelumnya atau harus memprediksi keadaan masa depan
      • Contohnya adalah memainkan game Wordle atau memprediksi CA (Cellular Automata)
    • Jika menggunakan LLM yang lebih besar, sampai batas tertentu penalaran bisa diajarkan dengan memberikan informasi langkah demi langkah tentang masalah serta beberapa contoh yang harus diikuti
      • Namun ini berarti abstraksi masalah yang sebenarnya dan cara memikirkan jawabannya dimasukkan ke dalam prompt
    • Ini dapat ditingkatkan dengan cara-cara berikut
      1. Prompting yang lebih baik
      2. Peningkatan akses ke memori, komputasi, dan alat pada tahap perantara
      • Namun, ini tidak akan mencapai tingkat kesadaran yang dapat digeneralisasi seperti yang kita gunakan ketika membahas manusia
      • Semua informasi yang dimasukkan ke dalam LLM mungkin dapat dikeluarkan kembali jika diberi prompt yang tepat
    • Karena itu, bagian sangat besar dari penggunaan model secara tepat adalah membuat prompt yang sesuai dengan tugas yang akan dilakukan
      • Ini mungkin memerlukan penyusunan secara hati-hati rangkaian panjang jawaban benar dan salah untuk masalah komputasi, agar model ter-priming untuk merespons dengan tepat bersama guardrail eksternal
    • 'Attention' rentan terdampak penyimpangan tujuan (Goal Drift), sehingga sangat sulit dibuat andal tanpa scaffolding eksternal yang signifikan
      • Kesalahan yang dibuat LLM memberikan informasi yang jauh lebih berguna daripada keberhasilannya
  • Untuk mencapai AGI (Artificial General Intelligence) dan memperoleh tingkat generalisasi yang memadai, diperlukan perbaikan arsitektur yang mendasar
    • Memperbesar skala model yang ada dan menambahkan arsitektur baru seperti Jamba akan membuatnya bekerja lebih efisien, lebih cepat, dan lebih stabil, tetapi tidak akan menyelesaikan masalah mendasar seperti kurangnya generalisasi atau 'penyimpangan tujuan'
  • Hanya dengan menambahkan agen khusus untuk melakukan "prompt engineering" dan membuat 17 GPT saling berbicara tidaklah cukup
    • Namun, dengan cukup banyak solusi sementara, di area yang kita pedulikan hasilnya mungkin tak bisa dibedakan
  • Pada era awal AI, ketika engine catur pertama kali muncul, kemampuan pemrosesannya terbatas dan hanya punya fungsi pencarian atau evaluasi yang nyaris tidak berguna
    • Karena itu, perlu mengandalkan solusi sementara seperti opening atau endgame yang di-hardcode, iterative deepening untuk pencarian yang lebih baik, dan alpha-beta pruning
    • Pada akhirnya semua itu teratasi melalui perbaikan bertahap, dan hal yang sama juga dilakukan pada LLM
  • Gagasan yang disukai penulis adalah menempatkan beberapa agen perencana pada berbagai tingkat hierarki yang dapat mengarahkan agen profesional lain, yang masing-masing memiliki sub-agen sendiri yang saling terhubung, ketika keandalannya sudah sedikit meningkat
  • Kita bisa menambahkan modul untuk penalaran dan iterasi, menambahkan memori permanen dan random access memory, bahkan memberikan pemahaman tentang dunia fisik
    • Pada titik ini tampaknya kita mungkin bisa mendapatkan pendekatan terhadap kesadaran dari LLM dengan cara yang serupa dengan yang kita peroleh dari hewan, tetapi benarkah begitu?
    • Bisa jadi pada akhirnya hanya menjadi model statistik yang sangat meyakinkan yang meniru apa yang kita butuhkan saat keluar dari distribusi
  • Inilah alasan penulis menyebut LLM sebagai fuzzy processor, dan mengapa pertanyaan seperti "seperti apa rasanya menjadi LLM" berakhir pada percakapan yang berputar-putar
  • Ini tidak boleh dipahami sebagai tanda bahwa apa yang kita miliki saat ini tidaklah ajaib
    • Hanya karena kita berpikir Bitter Lesson tidak akan bisa diekstrapolasikan sepenuhnya sampai AGI, bukan berarti hasil yang sudah kita miliki sekarang tidak luar biasa
  • Penulis yakin bahwa LLM memang "belajar" dari data yang dilihatnya
    • Bukan sekadar kompresor sederhana atau burung beo
    • Ia dapat menghubungkan data bernuansa dari bagian-bagian berbeda dalam dataset pelatihan atau prompt, lalu memberikan respons yang cerdas
  • Thomas Nagel mungkin akan mengajukan pertanyaan tentang seperti apa rasanya menjadi LLM
    • Sebagai mamalia, kelelawar lebih dekat kepada kita daripada LLM, dan jika bagian dalam mereka pun samar bagi kita, seberapa besar kemungkinan kita bisa memahami fungsi internal model-model baru ini?
    • Atau sebaliknya, karena dalam LLM kita bebas memeriksa semua bobot dan sirkuitnya, mungkinkah kita memperoleh tingkat wawasan tertentu tentang model yang kita gunakan ini?
  • Inilah alasan penulis secara resmi bersedia menelan pil pahit
    • Statistik yang diperbesar secukupnya tidak dapat dibedakan dari kecerdasan di dalam distribusi data pelatihan
    • Bukan berarti itu berlaku untuk segala hal, dan juga belum cukup untuk melakukan segalanya, tetapi itu bukan fatamorgana
    • Itulah sebabnya kesalahan dalam pengujian jauh lebih berguna untuk diagnosis dibandingkan keberhasilan
  • Jika LLM adalah mesin yang dapat melakukan apa saja, pada akhirnya ia seharusnya bisa melakukan sebagian besar pekerjaan
    • Itu dimungkinkan dengan banyak stimulasi dan dorongan
    • Ia mungkin tidak akan mengilhami kejeniusannya Bach atau von Neumann, tetapi inovasi dan penemuan yang lebih biasa namun tetap penting bisa saja dimungkinkan
    • Dan itu bisa dilakukan tanpa memerlukan kesadaran atau kepribadian moral
    • Jika kita bisa mengotomatisasi atau mempercepat lompatan di dalam paradigma seperti yang dikatakan Kuhn, maka kita dapat menjadi mampu melompat bebas antarparadigma

1 komentar

 
GN⁺ 2024-04-28
Opini Hacker News

Ringkasan:

  • Saat ini ada masalah-masalah yang mudah bagi manusia tetapi sulit bagi LLM (large language model), atau bahkan mungkin mustahil, seperti Wordle atau prediksi cellular automata seperti Rule 110. Alasannya masih belum sepenuhnya dipahami.
  • Memberikan contoh dan instruksi langkah demi langkah di dalam prompt bukan berarti LLM sendiri memahami "langkah penalaran", melainkan pengguna yang menyerahkannya kepada LLM. Kita memiliki "mesin penalaran" yang cerdas, tetapi tampaknya terbentur keterbatasan mendasar.
  • Belum jelas apakah AGI bisa dicapai hanya dengan model yang lebih besar dan prompting yang lebih baik menggunakan mekanisme Attention saat ini. Attention sangat kaku, sementara otak manusia terus mengalami plastisitas sinaptik. Mungkin ada arsitektur yang lebih fleksibel yang memungkinkan AGI, tetapi kita belum mengetahuinya.
  • Untuk saat ini, penggunaan model AI modern memerlukan penyusunan prompt panjang secara cermat, seperti merancang dengan hati-hati jawaban yang benar dan salah untuk masalah komputasi, melakukan priming agar model merespons dengan tepat, dan menerapkan banyak guardrail eksternal.
  • Attention tampaknya mengalami "goal drift", sehingga sulit memastikan keandalan tanpa banyak penopang eksternal.
  • Untuk mengukur keterbatasan LLM secara teoretis, kita perlu bergantung pada hasil teoritis, bukan daftar bukti empiris tentang hal-hal yang saat ini tidak bisa dilakukan. Dalam literatur terkait, istilah yang bisa dicari adalah "expressibility".
  • Bahkan aturan sederhana seperti konvensi penulisan angka pun sering gagal di banyak contoh, dan dalam banyak kasus tidak bekerja dengan benar apa pun cara menyusun prompt-nya. Mengejutkan, tetapi keterbatasannya masih banyak.
  • Model juga cenderung buruk dalam mengikuti instruksi untuk tidak melakukan perilaku tertentu, misalnya "sebutkan fakta menarik, tapi jangan bilang itu menarik". Justru ketika dilarang, kemungkinan melakukannya bisa lebih besar.
  • Bahkan jika diasumsikan LLM "bernalar", yang dibangun adalah Agentic AI yang menangani halusinasi bukan terhadap dunia, melainkan terhadap fakta, entitas, dan hubungan kausal yang terkandung dalam dokumen. Ini juga menangani penalaran silang pada jarak token yang sangat besar.
  • Ada pandangan bahwa kebutuhan untuk menangani kompleksitas tingkat kedua seperti hubungan antarmanusia, dendam, dan aliansi dengan baik telah mengarah pada tingkat kecerdasan yang lebih tinggi.
  • Beberapa hal yang "sama sekali tidak bisa dilakukan" seperti Wordle/Sudoku hanyalah artefak dari representasi teks; jika diubah ke domain lain, tingkat keberhasilannya kemungkinan jauh lebih tinggi bahkan dengan arsitektur Transformer yang sama.
  • Tidak perlu membuat AGI yang disesuaikan untuk setiap domain; cukup ada agen yang dapat bernalar cukup baik untuk memecah masalah, menugaskannya ke alat-alat khusus, lalu menyusunnya kembali menjadi jawaban, bersama katalog model/alat.