2 poin oleh GN⁺ 2024-02-05 | 1 komentar | Bagikan ke WhatsApp

Pendahuluan

  • Artikel ini membahas eksplorasi tentang bagaimana model bahasa berukuran kecil memprediksi token berikutnya.
  • Alih-alih berfokus pada mekanisme self-attention pada model transformer, artikel ini memberikan penjelasan tentang bagaimana hasil perhitungan perhatian diubah menjadi prediksi token berikutnya yang akurat.
  • Penulis meninjau keadaan internal melalui transformer kecil yang berfungsi, dan membagikan hasil berharga dari penelusuran mendalam selama 6 bulan.

Struktur blok transformer

  • Blok transformer terdiri dari lapisan self-attention multi-head dan jaringan feedforward.
  • Keluaran jaringan feedforward adalah faktor utama yang menentukan bagaimana blok mengubah masukan menjadi keluaran.

Usulan: cara kerja transformer

  • Setiap blok transformer mempelajari bobot yang mengaitkan prompt tertentu dengan kelas string dalam data pelatihan.
  • Distribusi token yang mengikuti kelas string ini kira-kira sesuai dengan apa yang dikeluarkan blok sebagai prediksi untuk token berikutnya.

Implementasi: pendekatan keluaran transformer menggunakan keluaran jaringan feedforward

  • Penulis menyajikan prosedur konkret untuk mendekati keluaran transformer dengan menggunakan keluaran jaringan feedforward.
  • Prosedur ini dimulai dengan menjalankan prompt melalui model dan menyimpan keluaran jaringan feedforward untuk setiap blok.
  • Lalu dicari string dalam data pelatihan yang menghasilkan keluaran jaringan feedforward serupa, dan dibangun distribusi frekuensi token yang muncul setelah string tersebut.
  • Distribusi-distribusi ini dijumlahkan dengan menerapkan bobot lalu dinormalisasi untuk memperoleh distribusi probabilitas akhir.

Opini GN⁺

  • Riset ini memberikan pemahaman mendalam tentang prinsip kerja internal model transformer. Khususnya, wawasan tentang proses setelah self-attention penting untuk memahami mekanisme prediksi model transformer.
  • Pendekatan penulis memberikan penjelasan yang jelas tentang bagaimana transformer mengenali pola dalam data pelatihan dan, berdasarkan itu, memprediksi token berikutnya.
  • Artikel ini dapat menjadi bahan yang berguna bagi orang yang meneliti atau mengembangkan model transformer, serta berkontribusi pada pendalaman pemahaman di bidang pemrosesan bahasa AI.

1 komentar

 
GN⁺ 2024-02-05
Komentar Hacker News
  • Jangan terkejut dengan fenomena baru. Jika tidak membaca teori yang sudah mapan, orang bisa bingung terhadap fenomena yang muncul secara alami.

    • Eksperimennya terlihat sangat teliti, dan perhatian pada detail sangat mengesankan.
    • Penting untuk menyeimbangkan antara mempelajari teori yang sudah ada dan menemukan kembali teori dari nol.
    • Fakta bahwa model memaksimalkan log-likelihood berdasarkan data pelatihan adalah hasil yang wajar.
    • Penting untuk memahami dasar-dasarnya, dan teori entropi Shannon bisa menjadi titik awal yang baik.
  • Respons positif terhadap fakta bahwa, setelah Google menunjukkan bahwa ChatGPT akan memuntahkan data pelatihan apa adanya jika dipaksa mengulang kata yang sama, ada orang yang benar-benar mengimplementasikan hal itu.

    • Ini memunculkan pertanyaan tambahan:
      1. Apakah pendekatan 'AI tanpa AI' lebih hemat energi dibanding metode kompresi model yang sudah ada?
      2. Apakah hasil ini bisa digunakan sebagai bukti dalam gugatan terhadap OpenAI dan Stability AI?
  • Menyatakan keterkejutan terhadap fenomena ketika jaringan Attention dan FF (Feed Forward) menunjuk ke arah yang sama.

    • Meskipun jaringan FF dapat melakukan rotasi acak, tidak disangka bahwa di banyak lapisan ia akan berada dalam ruang laten yang sama.
  • Saat melatih model kecil dengan mengikuti tutorial NanoGPT dari Andrej Karpathy, model itu tampak memahami tata bahasa Rusia yang kompleks sampai taraf tertentu.

    • Modelnya tidak sempurna, tetapi hanya dengan pelatihan selama 3 menit, model itu dapat menyimpulkan aturan yang kompleks.
  • Pertanyaan apakah LLM adalah generator teks rantai Markov.

    • Jika ya, muncul pertanyaan apakah mungkin membangun rantai Markov dengan performa serupa menggunakan data pelatihan asli.
  • Model yang diteliti sebenarnya hanyalah model mainan sederhana, dan dapat didekati dengan model yang lebih sederhana lagi.

    • Namun, model ini mungkin tidak mewakili cara kerja LLM yang lebih besar.
  • Sulit memahami secara tepat apa yang ingin diklaim penulis.

    • Bagian 'mengapa pendekatan ini berhasil' sudah dibaca beberapa kali, tetapi terasa hanya seperti penjelasan bertahap tentang transformer.
  • Visualisasi 3D dari sistem LLM bermanfaat, dan sebaiknya dibaca bersamaan untuk efek maksimal.

  • Postingan yang aneh tentang apa yang sebenarnya dilakukan transformer.

    • Jika mengikuti kodenya, Anda bisa melihat dengan tepat apa yang dilakukan transformer.