Mekanisme yang Sangat Sederhana yang Digunakan LLM untuk Mengambil Pengetahuan yang Tersimpan

(news.mit.edu)

2 poin oleh GN⁺ 2024-03-29 | 1 komentar | Bagikan ke WhatsApp

Para peneliti dari MIT dan institusi lain menemukan bahwa large language model (LLM) yang menjadi dasar chatbot AI seperti ChatGPT sering menggunakan fungsi linear sederhana saat mengambil sebagian fakta yang tersimpan
Fungsi ini berbeda untuk setiap jenis fakta, seperti “alat musik yang dimainkan seseorang” atau “negara bagian tempat seseorang lahir”, dan fungsi decoding yang sama diterapkan pada fakta dengan jenis yang serupa
Setelah memperkirakan fungsi untuk 47 relasi lalu mengujinya dengan mengganti subjek, mereka berhasil mengambil informasi objek yang benar dalam lebih dari 60% kasus untuk relasi seperti “ibu kota negara”
Bahkan ketika model memberikan jawaban yang salah, dalam banyak kasus jawaban yang benar tetap tersimpan di dalamnya, dan hal ini mengarah pada attribute lens yang menunjukkan di lapisan mana dalam transformer informasi tertentu disimpan
Tidak semua pengetahuan disimpan secara linear, sehingga fakta yang tidak dapat ditemukan dengan fungsi linear dan verifikasi presisi pada model yang lebih besar tetap menjadi tugas penelitian berikutnya

Cara sederhana pengambilan pengetahuan yang ditemukan di dalam LLM

Para peneliti dari MIT dan berbagai institusi memperoleh hasil bahwa model bahasa transformer yang kompleks sering menggunakan fungsi linear sederhana saat mengambil fakta yang tersimpan
Fungsi linear adalah bentuk sederhana yang merepresentasikan hubungan garis lurus antara dua variabel
- Bahkan di dalam LLM yang melakukan perhitungan non-linear yang kompleks, sebagian pengambilan pengetahuan bekerja dengan mekanisme sederhana seperti ini
Makalah terkait adalah “Linearity of Relation Decoding in Transformer Language Models”, dan penelitian ini dijadwalkan dipresentasikan di International Conference on Learning Representations

Fakta diperlakukan sebagai relasi antara subjek dan objek

Banyak pengetahuan yang tersimpan dalam transformer dapat direpresentasikan sebagai relasi yang menghubungkan subjek dan objek
- “Miles Davis plays the trumpet” adalah relasi yang menghubungkan subjek Miles Davis dan objek trumpet
- Pada prompt “Miles Davis plays the...”, model harus menjawab trumpet, bukan Illinois, negara bagian tempat Miles Davis lahir
Ketika model memperoleh lebih banyak pengetahuan tentang suatu topik, berbagai fakta tentang topik tersebut disimpan di banyak lapisan
Saat kueri masuk, model harus mendekode fakta yang paling relevan untuk menghasilkan respons

Fungsi decoding linear yang berbeda untuk tiap jenis relasi

Melalui eksperimen yang meneliti LLM, para peneliti mengonfirmasi bahwa model dalam beberapa kasus mendekode informasi relasi dengan fungsi linear sederhana
Fungsi tersebut juga berubah bergantung pada jenis fakta yang ingin diambil
- Fungsi yang digunakan untuk menampilkan alat musik yang dimainkan seseorang berbeda dari fungsi yang digunakan untuk menampilkan negara bagian tempat seseorang lahir
Para peneliti membuat metode untuk memperkirakan fungsi-fungsi ini, lalu menghitungnya untuk 47 relasi seperti “ibu kota negara” dan “vokalis utama sebuah band”
Karena jumlah relasi yang mungkin tak terbatas, eksperimen ini menggunakan subset yang mewakili jenis fakta yang dapat ditangani dengan cara ini

Keberhasilan pengambilan lebih dari 60% dan batas penyimpanan linear

Setiap fungsi diuji untuk melihat apakah ia dapat mengambil informasi objek yang benar sambil mengganti-ganti subjek
- Fungsi “ibu kota negara” harus mengambil Oslo ketika subjeknya Norway, dan London ketika subjeknya England
Fungsi-fungsi tersebut berhasil mengambil informasi yang benar dalam lebih dari 60% kasus
Sebagian informasi di dalam transformer dapat dienkode dan diambil kembali dengan cara ini
Namun, tidak semua informasi dienkode secara linear
- Untuk beberapa fakta, meskipun model mengetahuinya dan memprediksi teks yang konsisten dengan fakta itu, para peneliti tidak dapat menemukan fungsi linear
- Dalam kasus seperti itu, model menggunakan cara yang lebih kompleks untuk menyimpan informasi tersebut

Attribute lens untuk melihat apa yang diketahui model

Fungsi yang diperkirakan dapat digunakan untuk memeriksa apa yang dianggap benar oleh model tentang topik tertentu
Salah satu eksperimen dimulai dari prompt “Bill Bradley was a”, lalu menerapkan fungsi decoding yang sesuai dengan “pernah berolahraga” dan “pernah kuliah”
- Ini adalah cara untuk memeriksa apakah model mengetahui bahwa Senator Bill Bradley adalah pemain basket dan pernah kuliah di Princeton
Metode ini menunjukkan bahwa meskipun model berfokus pada informasi lain saat menghasilkan teks, di dalamnya bisa saja sudah terenkode berbagai informasi relevan
Berdasarkan hal ini, dibuat suatu kisi bernama attribute lens
- attribute lens memvisualisasikan di mana informasi tentang relasi tertentu disimpan di antara berbagai lapisan transformer
- Ini dapat dibuat secara otomatis dan dapat digunakan sebagai metode yang lebih ringkas untuk memahami model

Kemungkinan memperbaiki jawaban salah dan tugas penelitian yang tersisa

Bahkan jika model menjawab prompt dengan salah, dalam banyak kasus ia tetap menyimpan informasi yang benar di dalamnya
Pendekatan ini dapat digunakan untuk menemukan dan memperbaiki informasi yang salah di dalam model, dan bisa terkait dengan upaya mengurangi kecenderungan chatbot AI menghasilkan jawaban yang tidak akurat atau tidak bermakna
Penelitian berikutnya akan berfokus pada pemahaman yang lebih baik tentang apa yang terjadi pada fakta yang tidak disimpan secara linear
Mereka juga berencana melakukan eksperimen pada model yang lebih besar dan meneliti presisi fungsi decoding linear
Mor Geva Pipek dari Tel Aviv University menilai bahwa penelitian ini mengungkap bagian yang hilang dalam memahami cara LLM mengingat kembali pengetahuan faktual saat melakukan penalaran, serta menunjukkan bahwa perhitungan non-linear yang kompleks untuk mengekstraksi atribut dapat didekati dengan baik oleh fungsi linear sederhana

1 komentar

GN⁺ 2024-03-29

Komentar Hacker News

Ini pekerjaan yang hebat, tetapi menurut saya juga memperlihatkan masalah besar dalam arus AI saat ini. Pada praktiknya, kita tidak berusaha keluar dari neuron atau kumpulan aturan yang tidak jauh berbeda dari perceptron, yang lebih mirip fungsi penjumlahan sederhana
Hanya karena fase feedforward pada tingkat neuron tunggal paling mudah untuk pembelajaran dan eksekusi di GPU, masih patut dipertanyakan apakah itu benar-benar yang terbaik untuk menjalankan tugas
Ada banyak metode pembelajaran dan cara encoding unik yang tidak dipakai karena tidak didukung library besar, dan sampai ada perubahan nyata pada aturan dasar jaringan saraf, sepertinya kita pada akhirnya akan terus bergulat dengan “perceptron yang diberi tambahan tahap”
- Itu sama saja mengabaikan segunung paper yang mencoba membuat model dengan semua pendekatan yang mungkin. Pada akhirnya ini adalah evolusi lewat seleksi, dan pada akhirnya transformer menang
- Anda menyebut “perceptron sebagai fungsi penjumlahan sederhana”; saya penasaran apa yang bisa Anda usulkan sebagai gantinya
  Salah satu aspek NP-completeness, sejauh yang saya pahami, adalah bahwa algoritme apa pun dalam kelas kompleksitas itu pada akhirnya bisa direduksi menjadi sesuatu seperti ‘fungsi penjumlahan’
- Saya tidak paham klaim bahwa kita terjebak di maksimum lokal. Dalam 2 tahun terakhir, secara harfiah ada terobosan ilmiah AI
- Saya tidak cukup memahami topiknya, tetapi meski model lain mungkin menunjukkan metrik yang lebih baik berdasarkan jumlah neuron yang sama atau waktu eksekusi asimtotik, metrik terpenting pada akhirnya adalah akurasi dan presisi per uang yang dikeluarkan
  Walaupun GPT membutuhkan 10 kali lebih banyak neuron untuk mencapai kinerja yang sama, jika biaya membeli komputasi dan memori untuk neuron-neuron itu lebih murah, maka GPT adalah sarana yang lebih baik untuk mencapai tujuan
- Ini adalah pelajaran pahit. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
  Jika Anda menemukan struktur yang lebih sederhana dan bisa dilatih, mungkin Anda memang mendapatkan sesuatu. Upaya-upaya untuk memperumitnya sudah pernah dicoba dan kemudian menghilang
Saya penasaran apakah pernyataan “fakta disimpan sebagai fungsi linear” berarti di dalam LLM ada ruang fakta berdimensi N yang dienkode dengan suatu cara, dan fakta-fakta tertanam di sana sebagai titik, hipersfer, manifold Voronoi, atau semacamnya
Jika demikian, apakah mengingat fakta, secara abstrak, berarti jaringan saraf menghitung atau mengingat key yang akan dipakai, lalu melakukan pencarian key-value di ruang itu?
Jika demikian, saya juga penasaran bagaimana cara memasukkan penyimpanan key-value ke dalam model graf propagasi edge, dan apakah sudah ada teknik terkenal yang kini dibuat langsung oleh manusia dengan cara seperti itu
Selain itu, bukankah teknik “istana memori” juga bisa dianggap sebagai contoh otak manusia memasukkan fakta ke dalam fungsi linear agar lebih mudah dicari?
- Operasi dasar transformer, softmax(Q.K^T).V, pada dasarnya mirip pencarian di penyimpanan key-value
  Query di-dot product dengan key, lalu softmax memilih sebagian besar satu key pemenang, yakni key yang paling dekat dengan query, dan menggunakan nilai yang sesuai
  Bedanya, ini sedikit lebih halus sehingga bisa mencocokkan beberapa key, dan bisa dioptimalkan dengan metode turunan gradient descent untuk menemukan pemetaan QKV yang tepat
- Normalisasi layer tampaknya membatasi token, yaitu vektor raksasa yang merepresentasikan potongan input, ke posisi di permukaan bola satuan, dan menurut saya mekanisme attention bekerja dengan memutar vektor-vektor tak terbatas berdasarkan jumlah sudutnya terhadap semua vektor lain
  Saya hanya membaca sekilas papernya, tetapi inti utamanya tampaknya adalah bahwa ada fungsi-fungsi yang relatif sederhana yang tersembunyi atau dapat diambil kembali di dalam jaringan yang lebih besar, dan fungsi-fungsi itu menangani kategori relasi tertentu antar konsep
  Jika fungsi semacam itu bisa dipisahkan, secara teori fungsi tersebut bisa dioptimalkan dengan lebih langsung, sehingga ini dapat mengarah pada kemajuan cara melatih model seperti ini
  Pada akhirnya, salah satu kritik bagus terhadap AI “modern” adalah gagasan bahwa kita hanya sedang mengaduk sup aljabar linear; jika kita mengizinkan sedikit modularitas atau reduksionisme, kita bisa mendekati pendekatan berbasis komponen, bukan sekadar black box
- Saya kurang paham mengapa “istana memori” adalah fungsi linear
- Istana memori adalah hack yang bekerja karena, dalam makna evolusioner, tujuan otak kita adalah membantu kita menavigasi dunia dan bertindak efektif di dalamnya
  Untuk itu, otak harus sangat baik dalam mengingat lokasi, merencanakan rute masuk dan keluar darinya, serta mengubahnya menjadi ucapan atau gerakan
Sangat menarik. Saya langsung terpikir bagaimana pengetahuan pemrograman dienkode sebagai suatu fungsi, dan jika itu juga fungsi linear sederhana, apakah standard library atau library lain bisa diunggah langsung ke otak LLM tanpa pelatihan mahal atau fine-tuning yang merusak performa
Untuk saat ini kemampuan itu masih terasa seperti fiksi ilmiah, tetapi sepertinya semakin dekat
- Poin yang bagus bahwa mungkin kita bisa langsung mengunggah informasi predikatif ke LLM. Ini bisa sangat berguna terutama saat harus mengenkode data berbentuk tabel
  Saya merasa di suatu tempat ada orang yang membaca ini lalu memikirkan cara mengekspor Excel atau database ke LLM
  Menggembirakan melihat ada riset yang berhasil mengintip ke dalam black box
  Hasil besar lain di bidang ini adalah paper yang menemukan representasi papan permainan di dalam LLM yang dilatih untuk bermain game. Saya penasaran apakah ada hasil bagus lain di area ini
  Seperti ditunjukkan para penulis, LLM melakukan lebih dari sekadar mengenkode informasi predikatif, dan itu hanya salah satu bagiannya
Saya penasaran apakah relasi ini masih bertahan pada model terbaru yang diberi komputasi jauh lebih besar
Secara intuitif, menurut saya Word2Vec dimungkinkan oleh struktur yang melekat dalam bahasa. Lalu ketika kita melatih pada terabita teks manusia yang dienkode dengan Word2Vec dan positional encoding, tampaknya model bisa memprediksi encoding berikutnya dengan kognisi pada tingkat supermanusia bahkan selama pelatihan
Saya merasa bag-of-words sebagai cara input-output dan jendela konteks terbatas yang dibuat agar positional encoding bekerja menciptakan mismatch impedansi besar dengan struktur kognitif internal
Karena itu, dengan jauh lebih banyak komputasi yang dimasukkan ke GPT-4 dan sejenisnya, sangat mungkin bentuk representasi baru telah berevolusi, dan manusia mungkin masih harus menemukannya dengan menelusuri semua bobot
Saya pikir MemGPT mungkin pada akhirnya bisa menjadi AGI karena memori jangka panjang tak terbatas, tetapi wujud yang lebih mungkin sepertinya lebih mirip tokoh utama Memento
[1] https://en.wikipedia.org/wiki/Memento_(film)
- Maaf kalau saya salah membaca, tetapi sepertinya Anda mengatakan bahwa LLM yang memakai GPT-3+ seperti ChatGPT adalah model bag-of-words. Mereka adalah model sekuensial
Saya teringat contoh embedding terkenal “King - Man + Woman = Queen”. Fakta bahwa ada sifat semantik di dalam embedding menjelaskan mengapa fungsi linear sederhana pun bekerja dengan baik
Terasa mirip dengan vektor relasi di word2vec. Kalau menambahkan vektor seperti “milik X”, sering kali keluar jawaban yang benar
Prinsipnya tetap sama, dan mungkin transformer “hanya” menjadi lebih baik dalam memetakan entitas ke ruang embedding
- Saya juga berpikir begitu. Sulit percaya bahwa batas keputusan di dalam model seperti ini cukup berlekuk-lekuk, seperti lipatan otak, sampai benar-benar memanfaatkan vektor FP32
  Jadi menurut saya ini lebih mirip x < 1,5 berarti “dingin” dan x > 1,5 berarti “panas”, bukan x = 0 berarti “terbang”, x = 0,01 berarti “mengemudi”, x = 0,02 berarti “ungu”
  Itu salah satu alasan mengapa kuantisasi, bahkan kuantisasi 1-bit, sering berhasil
  Ini juga alasan mengapa hasilnya tetap bagus ketika teks atau gambar dimasukkan ke model seperti BERT atau CLIP, lalu diterapkan model machine learning klasik yang sering memakai batas keputusan linear
LLM terlihat seperti mekanisme kompresi yang bagus
Menakjubkan bahwa kita bisa menaruh salinan llama secara lokal di PC dan pada dasarnya punya akses ke seluruh internet
- Itu sama sekali tidak mendekati “seluruh internet secara efektif”. Bahkan tidak mendekati 1%
  Berdasarkan dump terbaru, Common Crawl berisi 4,3 miliar halaman, tetapi pada 2016 Google memperkirakan ada 130 triliun halaman di web
  Selisih antara 130 triliun dan 4,3 miliar hampir sama dengan 130 triliun. Bahkan jika dipersempit ke indeks teks Google yang dapat dicari, jumlahnya “ratusan miliar halaman” dan kira-kira 100PB, dibandingkan dengan 400TB milik Common Crawl
- Benar, tetapi itu kompresi lossy. Bagian yang hilang diisi dengan halusinasi pada saat inferensi
- PAC learning adalah kompresi
  PAC learnability, dimensi VC hingga, dan kompresi dalam bentuk berikut ini sepenuhnya ekuivalen
  https://arxiv.org/abs/1610.03592
  Pada dasarnya, neuron atau perceptron individual hanya membagi ruang menjadi dua subruang
Saya tidak mengerti bagaimana file CSV, database, atau model berisi 70 miliar “parameter” dengan bobot 4-bit bisa menjadi LLM/GPT interaktif yang hampir serbatahu tentang semua topik
Setelah saya telusuri, apakah 4-bit itu sekadar metode kompresi, dan pada akhirnya model melihat f32?
Katanya kuantisasi adalah proses memetakan bilangan floating-point 32-bit yang merupakan bobot jaringan saraf ke representasi bit yang jauh lebih kecil, seperti nilai 4-bit, demi efisiensi penyimpanan dan memori
Dekuantisasi terjadi ketika model digunakan, yaitu saat inferensi atau dalam beberapa kasus saat pelatihan, ketika bobot terkuantisasi 4-bit dikonversi kembali menjadi bilangan floating-point yang dipakai dalam perhitungan aktual
Jadi saya penasaran apa hubungan antara “parameter” dan “jumlah token unik yang diketahui model, yaitu ukuran kosakata”
Dari luar, katanya LLaMA hanya punya ukuran kosakata 32.000 dan 65 miliar parameter dibanding GPT-3
Katanya 65 miliar parameter pada model seperti LLaMA bekerja sebagai sistem pemetaan yang sangat kompleks untuk menentukan bagaimana merespons input berdasarkan relasi yang dipelajari antar-token dalam data pelatihan
- Jawaban sederhananya: tidak menjadi seperti itu
  Sedikit lebih rumitnya, dump teks Wikipedia yang dikompresi pun tidak sampai 70GB, dan itu adalah kompresi lossy dari internet
- Kuantisasi di sini berarti presisi tiap nilai di dalam vektor atau matriks/tensor
  Jika panjang embedding token model tersebut 1024, bahkan dengan kuantisasi 1-bit, setiap token memiliki 2^1024 kemungkinan nilai
  Jika panjang konteksnya 32.000 token, input yang mungkin adalah 32.000^2^1024
Bisakah secara kasar dikatakan bahwa LLM dalam mode pelatihan secara otomatis membuat banyak sekali aturan IF-THEN dari informasi masif yang sebelumnya tidak mungkin dilakukan?
Makalah ini keren, dan bagus juga bahwa mereka menjalankan eksperimen untuk menguji ide seperti ini. Namun saya kurang yakin seberapa baru ide itu sendiri
Jika LLM secara alami mempelajari kecenderungan statistik sederhana antar-kata, bukankah hasil seperti ini bisa diperkirakan?
Justru menurut saya jauh lebih keren bahwa mereka menunjukkan dengan jelas bahwa tidak semua perilaku LLM dapat dijelaskan sesederhana ini

Mekanisme yang Sangat Sederhana yang Digunakan LLM untuk Mengambil Pengetahuan yang Tersimpan

Cara sederhana pengambilan pengetahuan yang ditemukan di dalam LLM

Fakta diperlakukan sebagai relasi antara subjek dan objek

Fungsi decoding linear yang berbeda untuk tiap jenis relasi

Keberhasilan pengambilan lebih dari 60% dan batas penyimpanan linear

Attribute lens untuk melihat apa yang diketahui model

Kemungkinan memperbaiki jawaban salah dan tugas penelitian yang tersisa

Bacaan terkait

1 komentar

Komentar Hacker News