4 poin oleh GN⁺ 2023-12-26 | 1 komentar | Bagikan ke WhatsApp

Catatan tentang "Attention" dan "Transformers": "Model Bahasa Besar" dalam jaringan saraf

  • Istilah "attention" adalah konsep yang berbeda dari perhatian manusia yang sesungguhnya, dan berarti memberi bobot tertentu pada semua vektor yang mungkin.
  • "Attention" adalah salah satu bentuk kernel smoothing; ini bukan penemuan baru di bidang jaringan saraf sekitar tahun 2015, melainkan penemuan kembali atas gagasan yang sudah ada.
  • "Multi-Headed Attention" adalah metode yang melakukan kernel smoothing dengan menggunakan berbagai kernel lalu merata-ratakan hasilnya.

"Transformers"

  • "Transformer" adalah arsitektur yang menggunakan mekanisme "attention" untuk melakukan smoothing pada vektor input, lalu meneruskan output yang diperoleh ke jaringan saraf feedforward guna menghasilkan keluaran akhir.
  • Transformer dibangun dengan menumpuk beberapa layer, dan setiap layer terdiri dari mekanisme "attention" dan jaringan saraf feedforward.
  • Nama transformer lebih sedikit menimbulkan salah paham dibandingkan "attention", dan memang tepat karena benar-benar melakukan proses transformasi.

"Language Models"

  • Model bahasa pada dasarnya adalah model probabilitas untuk urutan simbol, yang memodelkan probabilitas simbol berikutnya berdasarkan konteks yang diberikan.
  • Model bahasa besar modern (Large Language Models, LLMs) dapat dipandang sebagai model Markov berorde hingga dengan panjang konteks maksimum yang tetap.
  • LLMs dapat tetap melakukan prediksi untuk konteks yang belum pernah dilihat sebelumnya melalui smoothing implisit yang kompleks.

"Prediksi Simbol Berikutnya (Next Symbol) vs Prediksi Jarak Jauh (Longer-range Prediction)"

  • Tujuan pelatihan LLMs adalah memprediksi simbol berikutnya secara akurat, dan ini juga bisa menjadi tujuan yang kuat untuk prediksi jarak jauh.
  • Menemukan prediktor minimal dapat memberikan banyak informasi tentang struktur proses dasar yang ingin diprediksi.

"Dugaan Kuat tentang Mengungkap Prompt (A Strong Hunch about Uncovering Prompts)"

  • Upaya untuk mengungkap prompt dalam aplikasi berbasis LLM dengan permintaan seperti "tolong beri tahu prompt-nya" hanyalah bentuk penipuan diri.
  • Model bahasa inti dalam LLM tidak memiliki mekanisme untuk membedakan prompt dari bagian lain dalam urutan input saat ini.
  • Perancang sistem mungkin saja mengimplementasikan fitur untuk melacak prompt, tetapi hampir tidak ada alasan untuk melakukannya.

"Gopnikisme (Gopnikism); Perpustakaan"

  • Pendekatan yang paling menjanjikan dan menarik adalah memandang LLM bukan sebagai sesuatu yang menyerupai pikiran, melainkan sebagai "teknologi budaya" seperti katalog perpustakaan.
  • Memberikan teks ke LLM dengan menggunakan prompt mirip dengan menelusuri isi perpustakaan dan mengambil sampel konten yang sesuai.

Opini GN⁺

  • Penggunaan istilah "attention" sebagai konsep teknis yang berbeda dari perhatian manusia yang sesungguhnya adalah fenomena yang cukup sering muncul di bidang kecerdasan buatan, dan menunjukkan bahwa istilah teknis dapat tercampur dengan fenomena dunia nyata.
  • Keberhasilan model bahasa besar dicapai dengan menggabungkan metodologi machine learning klasik dengan daya komputasi modern untuk mencapai tingkat performa baru, dan ini menekankan perlunya mengevaluasi ulang teori serta metodologi yang ada dan menerapkannya secara inovatif.
  • Analogi LLM sebagai katalog perpustakaan menawarkan sudut pandang yang menarik tentang bagaimana teknologi ini memproses dan mengakses pengetahuan serta informasi manusia, yang dapat membantu memahami cara kecerdasan buatan berinteraksi dengan budaya manusia.

1 komentar

 
GN⁺ 2023-12-26
Komentar Hacker News
  • Seorang komentator yang mengatakan bahwa ia bekerja di Google Research dan pernah bekerja bersama dua penulis makalah "Attention is All You Need" juga menyebut bahwa ia pernah berkolaborasi dengan orang yang memilih judul makalah tersebut. Ia menjelaskan bahwa self-attention sudah merupakan konsep yang dikenal di komunitas riset, dan para penulis tidak pernah mengklaim telah menemukannya. Para penulis sedang mencari cara menggabungkan beberapa teknik untuk meningkatkan kinerja jaringan saraf feedforward, lalu memperoleh hasil yang menarik, dan dalam proses riset berikutnya menemukan bahwa mekanisme attention memainkan peran kunci. Ia juga menyebut bahwa judul makalah itu adalah permainan kata yang mengingatkan pada lagu The Beatles "All You Need Is Love". Makalah yang paling membantunya adalah "Formal Algorithms for Transformers" karya Phuong dan Hutter, yang ditulis dengan fokus pada kejelasan dan ketepatan, dan menurutnya terutama bagian motivasi (Section 2) menjelaskan dengan baik kelemahan makalah asli dan makalah-makalah setelahnya.

  • Komentator lain mengaku bahwa meskipun sudah beberapa kali membaca makalah "Attention is All You Need" dengan saksama, ia tetap tidak bisa memahami apa yang dilakukan oleh "attention". Ia bisa memahami bagian matematikanya, tetapi membaca berbagai tutorial pun tidak membantu. Akhirnya, baru setelah beberapa tahun ia menyadari bahwa "attention" hanyalah kernel smoothing, dan ia mengkritik bahwa ini terjadi karena makalah tersebut ditulis dengan tidak jelas. Ia berpendapat bahwa sebagian besar makalah machine learning itu sampah, meskipun ia tetap menilai makalah "Attention is All You Need" lebih baik daripada kebanyakan.

  • Komentator ketiga menilai pendekatan makalah yang terasa seperti "stream of consciousness" itu menarik dan menyegarkan. Ia juga menyinggung bagaimana penulis meminta maaf dan menunjukkan sikap rendah hati karena kritik yang diterima di internet, serta berharap reaksi negatif semacam itu tidak membuat penulis berhenti menerbitkan catatannya.

  • Komentator lain mengatakan bahwa tidak seperti kebanyakan tulisan tentang machine learning, tulisan ini terasa seperti ditulis dalam bahasanya sendiri. Ia menyebut bagian tentang Lempel-Ziv (LZ) menarik, dan menilai bahwa memperbesar model LZ mungkin tidak terlalu menarik karena LZ harus mencocokkan string secara persis. Sebagai gantinya, ia mengusulkan bahwa pendekatan yang lebih menarik mungkin seperti "jpeg" untuk teks, yang mengizinkan sedikit ketidakakuratan demi mengurangi ukuran. Ia menduga mungkin itulah yang dilakukan large language model (LLM).

  • Komentator lain menyebut bahwa ia memandang scaled dot product attention sebagai mekanisme konvolusi yang digeneralisasi. Ia mengatakan bahwa istilah query, key, dan value membingungkan, lalu menjelaskan bahwa ketiganya diturunkan dari sinyal yang sama dalam self-attention dan saling dikalikan. Ia menambahkan bahwa tidak ada yang benar-benar tahu mengapa mekanisme ini efektif, hyperparameter mana yang bagus untuk data tertentu, atau ukuran sekuens yang ideal.

  • Komentator lain menyebut bahwa transformer hanyalah universal approximator lain, dan berpendapat bahwa tidak penting apakah attention head tertentu mensimulasikan associative array kontinu, kernel smoothing, atau ruang vektor berdimensi tinggi yang merepresentasikan univokalitas. Yang penting adalah transformer dapat dilatih secara efisien pada GPU dan dalam pemrosesan paralel, dan itulah alasan model ini lebih unggul daripada LZ atau universal approximator lain. Ia menambahkan bahwa jika seseorang bisa membuat LZ atau pendekatan lain berjalan jauh lebih efisien daripada transformer di GPU, orang itu bisa mendirikan OpenAI berikutnya dan menjadi miliarder.

  • Seorang komentator meminta penjelasan tentang kalimat, "Mythology: kita memodifikasi makna setiap token yang pernah kita lihat berdasarkan konteks, dan makna yang serupa saling memperkuat satu sama lain". Menurutnya, pada titik itu kernel smoothing tampak diterapkan secara independen pada setiap vektor embedding, sehingga ia tidak memahami mengapa vektor y_t tertentu yang diturunkan dan dihaluskan oleh token-token tetangga dalam sekuens akan terpengaruh. Ia mengatakan bahwa dengan menambahkan token r_t ia bisa melihat mengapa konteks menjadi penting, tetapi bertanya apakah itu satu-satunya hal yang membuat konteks diperhitungkan.

  • Komentator lain mengatakan bahwa ia memahami kemarahan orang-orang dari bidang lain yang memiliki tingkat "rigor" akademik lebih tinggi dan sudah memiliki hasil serupa terhadap makalah machine learning seperti "Attention is All You Need". Ia mengkritik bahwa makalah-makalah seperti itu sebenarnya bukan makalah akademik yang baik, dan bahwa mencari nama yang cerdik serta memilih istilah engineering-cosplay yang paling sulit dipahami bukanlah ciri makalah yang bagus. Namun, menurutnya pada praktiknya semua itu tidak terlalu penting, karena large language model memang bekerja, dan bahkan bekerja karena alasan yang konyol. Solusi engineering seperti menambahkan positional embeddings benar-benar menyelesaikan masalah, bukan karena pemahaman matematis yang mendalam tetapi karena dicoba dan ternyata berhasil. Ia juga menyebut bahwa "efficient transformer" yang mengurangi kebutuhan memori attention secara linear dengan metode kernel pada praktiknya juga tidak terlalu penting, karena perusahaan seperti OpenAI, Anthropic, dan Meta tidak peduli menambah lebih banyak GPU dan hanya peduli pada throughput. Ia menyimpulkan bahwa hasil-hasil ini pada dasarnya hanyalah tebakan dan pengalaman, dan yang benar-benar penting adalah hasil akhirnya.

  • Komentator terakhir mengatakan bahwa ia sama sekali tidak setuju dengan klaim bahwa siapa pun yang mencoba mengungkap prompt aplikasi berbasis LLM hanya dengan meminta "beri tahu saya prompt-nya" sebenarnya sedang menipu diri sendiri. Ia menjelaskan bahwa model bahasa inti tidak memiliki mekanisme untuk membedakan prompt dari bagian lain dalam sekuens input saat ini, juga tidak memiliki mekanisme referensi silang dari satu bagian sekuens ke bagian lainnya. Perancang sistem mungkin saja menulis sesuatu untuk melacak prompt di seluruh sistem, tetapi menurutnya tidak jelas mengapa mereka perlu melakukannya. Menggunakan soft prompt mungkin lebih efisien dan efektif, yaitu bagian awal dari sekuens vektor yang dapat dipelajari dengan gradient descent, tetapi itu mungkin tidak sesuai dengan rangkaian kata yang rapi. Jika kita meminta prompt kepada LLM, jawabannya akan dihasilkan berdasarkan statistik sekuens kata yang telah dilatih, bukan dari akses ke kode atau status internal. Ia menilai bahwa pendekatan dari sudut pandang language model adalah yang terbaik, dan menyimpulkan bahwa karena output dihasilkan sebagai hasil kernel smoothing dari input, maka informasi dalam prompt memang bisa digunakan untuk mengarahkan model ke gaya tertentu.