2 poin oleh GN⁺ 2024-03-29 | 1 komentar | Bagikan ke WhatsApp

Peneliti MIT mendemonstrasikan teknik penelusuran pengetahuan pada model bahasa besar

  • Ditemukan bahwa model bahasa besar menggunakan mekanisme sederhana untuk mengambil pengetahuan yang tersimpan saat merespons prompt pengguna.
  • Para peneliti menunjukkan bahwa dengan memanfaatkan mekanisme sederhana ini, kita dapat memahami apa yang diketahui model tentang berbagai topik dan memperbaiki informasi yang tersimpan secara keliru.

Kompleksitas model bahasa besar

  • Model bahasa besar digunakan di berbagai bidang seperti dukungan pelanggan, pembuatan kode, dan penerjemahan bahasa, tetapi cara kerjanya masih belum sepenuhnya dipahami.
  • Peneliti dari MIT dan lembaga lain mempelajari mekanisme yang digunakan model pembelajaran mesin raksasa ini untuk mengambil pengetahuan yang tersimpan.

Mekanisme sederhana untuk mengambil pengetahuan

  • Hasil penelitian menunjukkan bahwa model bahasa besar sering menggunakan fungsi linear sederhana untuk memulihkan dan mendekode fakta yang tersimpan.
  • Model menggunakan fungsi dekode yang sama untuk jenis fakta yang serupa.
  • Fungsi linear adalah persamaan yang merepresentasikan hubungan garis lurus antara dua variabel.

Menjelajahi apa yang diketahui model

  • Para peneliti mengidentifikasi fungsi linear untuk berbagai fakta guna menelusuri apa yang diketahui model tentang topik baru, serta memeriksa di mana pengetahuan itu disimpan di dalam model.
  • Dengan menggunakan teknik yang dikembangkan dan fungsi-fungsi sederhana yang diperkirakan, mereka menemukan bahwa bahkan ketika model memberikan jawaban yang salah, model sering kali tetap menyimpan informasi yang benar.

Visualisasi pengetahuan model

  • Para peneliti menggunakan fungsi-fungsi tersebut untuk menentukan apa yang benar-benar diyakini model sebagai kebenaran tentang topik yang berbeda.
  • Sebagai contoh, mereka memulai dari prompt "Bill Bradley was a" dan menggunakan fungsi dekode untuk "plays sports" dan "attended university" guna memeriksa apakah model mengetahui bahwa Sen. Bradley adalah seorang pemain basket dan lulusan Princeton University.
  • Dengan teknik penelusuran ini, mereka membuat grid yang disebut 'attribute lens' untuk memvisualisasikan di mana informasi tentang relasi tertentu disimpan di dalam berbagai lapisan transformer.

Opini GN⁺

  • Riset ini membawa pemahaman tentang bagaimana model bahasa besar menyimpan dan mengambil pengetahuan faktual ke tingkat berikutnya.
  • Temuan ini menunjukkan kemungkinan untuk memanfaatkan hasil riset dalam memperbaiki pengetahuan dan mencegah kesalahan pada chatbot AI guna mengurangi kecenderungan model memberikan informasi yang salah.
  • Jika teknologi ini diterapkan, hal ini dapat berkontribusi pada peningkatan keandalan AI dan membantu memperbaiki pengalaman pengguna.
  • Namun, karena tidak semua fakta dikodekan secara linear, diperlukan riset lanjutan untuk mengetahui apakah teknik ini dapat diterapkan pada semua jenis pengambilan pengetahuan.
  • Proyek open source dengan fungsi serupa mencakup seri BERT dari Google dan seri GPT dari OpenAI, yang juga berkontribusi dalam memahami cara kerja model bahasa besar.
  • Saat mengadopsi teknologi baru, perlu dipertimbangkan keseimbangan antara kompleksitas model dan keterjelasan interpretasinya, dan salah satu manfaat dari memilih teknologi ini adalah peningkatan akurasi dan keandalan model.

1 komentar

 
GN⁺ 2024-03-29
Komentar Hacker News
  • Pekerjaan yang mengejutkan ini menyoroti beberapa masalah terbesar di bidang AI saat ini

    • Kita sebenarnya tidak mencoba bekerja dengan neuron atau kumpulan aturan yang secara fundamental sangat berbeda dari perceptron
    • Tidak mengejutkan bahwa struktur perceptron, yang merupakan fungsi penjumlahan sederhana, terus berulang dalam model
    • Ini menimbulkan pertanyaan apakah topologi feedforward dan langkah neuron tunggal benar-benar yang terbaik, atau hanya yang paling mudah dilatih dan dijalankan di kartu grafis
    • Ada metode pelatihan dan skema encoding unik yang tidak digunakan hanya karena tidak didukung oleh library besar
    • Sampai kita mulai melihat perubahan nyata pada kumpulan aturan dasar jaringan saraf, kita akan terus bergulat dengan variasi perceptron
  • Struktur bahasa memungkinkan Word2Vec

    • Pelatihan pada terabita teks manusia yang dienkode dengan Word2Vec + positional encoding memungkinkan prediksi encoding berikutnya pada tingkat supermanusia
    • Bag-of-words (metode input/output) dan jendela konteks terbatas yang diperlukan agar positional encoding bekerja menimbulkan ketidakselarasan besar dengan struktur kognitif internal
    • Dengan memasukkan daya komputasi yang jauh lebih besar ke GPT-4 dan sejenisnya, bentuk representasi baru mungkin berevolusi dan perlu ditemukan manusia
    • MemGPT mungkin pada akhirnya menjadi AGI karena memori jangka panjang yang tak terbatas, tetapi yang lebih mungkin adalah hasilnya seperti tokoh utama di "Memento"
  • Membantu memahami implikasi dari fakta yang disimpan sebagai fungsi linear

    • LLM mengenkode fakta ke dalam "ruang fakta" berdimensi-N, menanamkan fakta sebagai titik/hipersfer/manifold Voronoi dalam ruang itu, dan mengingat fakta berarti jaringan saraf menghitung/mengingat kunci lalu melakukan lookup key-value di ruang tersebut
    • Pertanyaan tentang bagaimana KV-store semacam ini dapat di-embed ke model grafis propagasi edge, dan apakah saat ini ada teknik manual yang dikenal luas untuk itu
    • Kaitan yang menarik dengan teknik memori "istana memori", di mana otak manusia meng-embed fakta ke dalam fungsi linear agar mudah diambil kembali
  • Rasa ingin tahu tentang jenis fungsi yang digunakan untuk mengenkode pengetahuan pemrograman

    • Renungan apakah standard library atau library lain dapat langsung diunggah ke otak LLM tanpa pelatihan mahal atau fine-tuning yang menurunkan performa
    • Ini masih kemampuan yang terdengar seperti fiksi ilmiah, tetapi tampaknya semakin mendekat
  • Menemukan kemiripan dengan apa yang dilakukan vektor relasi dalam Word2Vec

    • Menambahkan vektor "milik X" sering kali menghasilkan jawaban yang benar
    • Bisa jadi transformer lebih baik dalam memetakan entitas ke ruang embedding
  • LLM tampak seperti mekanisme kompresi yang bagus

    • Menakjubkan bahwa dengan memiliki salinan lokal Llama di PC, seseorang seakan punya akses ke hampir seluruh internet
  • Mengingatkan pada contoh embedding "King - Man + Woman = Queen"

    • Menjelaskan mengapa fungsi linear sederhana dapat bekerja efektif, karena embedding memuat atribut semantik
  • Sulit memahami bagaimana "file CSV/database/model" dengan 7 miliar "parameter" dapat menyediakan LLM/GPT interaktif yang berpengetahuan luas tentang hampir semua topik

    • 4-bit adalah "metode kompresi", dan model pada akhirnya melihat f32
    • Kuantisasi adalah proses memetakan angka floating-point 32-bit, yaitu bobot jaringan saraf, ke representasi bit yang jauh lebih kecil seperti nilai 4-bit
    • Dekuantisasi terjadi saat model digunakan, mengubah bobot hasil kuantisasi 4-bit menjadi angka floating-point tempat perhitungan model benar-benar dijalankan
    • Pertanyaan tentang hubungan antara "parameter" dan "jumlah token unik yang diketahui model (ukuran kosakata)"
    • LLAMa memiliki ukuran kosakata 32.000 dan 65B parameter dibandingkan GPT-3
    • 6,5 miliar parameter berfungsi sebagai sistem pemetaan kompleks yang menentukan bagaimana model merespons input tertentu berdasarkan relasi yang dipelajari antar token dalam data pelatihan
  • Menyukai bahwa makalah ini keren dan melakukan eksperimen untuk memverifikasi ide-ide tersebut

    • Mempertanyakan kebaruan ide itu sendiri, mengingat LLM secara alami mempelajari kecenderungan statistik sederhana antar kata
    • Jauh lebih keren karena makalah ini dengan jelas menunjukkan bahwa tidak semua perilaku LLM dapat dijelaskan sesederhana ini
  • Kemungkinan memisahkan bagian penalaran dari bagian informasi

    • Jika ini benar, ini adalah penemuan yang sangat mengejutkan