47 poin oleh GN⁺ 2023-12-04 | 1 komentar | Bagikan ke WhatsApp
  • Panduan yang menjelaskan secara visual cara kerja model bahasa besar seperti GPT-2, nano-gpt, dan GPT-3
  • Daftar isi: pengantar dan pengetahuan dasar, embedding, normalisasi layer, self-attention, proyeksi, MLP, transformer, Softmax, output

Ringkasan bagian pengantar keseluruhan

  • Dalam kasus nano-gpt, model ini memiliki 85.000 parameter
  • Tujuannya adalah mengurutkan string enam huruf yang diberikan berdasarkan urutan alfabet
  • Sebagai contoh, proses menerima string C B A B B C lalu mengurutkannya menjadi ABBBCC
  • Setiap huruf dalam string disebut token, dan kosakata model terdiri dari berbagai token
  • Setiap token diberi indeks numerik, lalu dimasukkan ke dalam model
  • Setiap angka diubah menjadi vektor dengan 48 elemen, yang disebut embedding
  • Embedding melewati serangkaian layer yang disebut transformer
  • Pada akhirnya, model memprediksi probabilitas token berikutnya untuk urutan yang diberikan
  • Token yang diprediksi kemudian dimasukkan kembali ke bagian atas model, dan seluruh proses diulang

1 komentar

 
GN⁺ 2023-12-04
Opini Hacker News
  • Ini adalah alat yang sangat berguna untuk memahami LLM secara mendasar

    • Dinilai sebagai alat yang sangat baik untuk memahami secara mendalam bagaimana LLM sebenarnya bekerja.
    • Jika tidak paham mengapa ada 48 elemen dalam array pertama, ada saran untuk merujuk ke model.py milik minGPT.
    • Ada pendapat bahwa keputusan struktural seperti ini bisa membingungkan orang yang belum memahami konteks dengan baik, sehingga sebaiknya disebutkan dalam artikel.
  • Terkejut melihat kompleksitas algoritme diekspresikan dengan jelas dalam ruang 3D

    • Mengungkapkan kekaguman bahwa kompleksitas algoritme dapat divisualisasikan dengan jelas dalam 3D.
    • Menyampaikan harapan pribadi agar memiliki pengetahuan yang cukup untuk benar-benar memahami keakuratannya.
  • Visualisasi ini benar-benar menakjubkan.

    • Sudah lama ingin mendalaminya, dan model 3D ini luar biasa sebagai alat pembelajaran.
  • Ini adalah metode visualisasi yang dicari selama berbulan-bulan

    • Sangat puas karena akhirnya menemukan metode visualisasi yang sudah lama dicari.
    • Mengungkapkan rasa terima kasih karena materi seperti ini tersedia secara gratis.
  • Bahkan layak diberi judul 'membedah sihir menjadi perkalian matriks dan dot product'.

    • Justru makin takjub bahwa LLM bisa bekerja sebaik itu.
  • Model 3D ini luar biasa dari sisi edukasi

    • Menyampaikan bahwa model 3D ini sangat mengesankan sebagai alat pembelajaran.
    • Dinilai sebagai materi yang sangat baik untuk pembelajaran mendalam.
  • Semakin takjub dengan bagaimana LLM bisa bekerja dengan baik

    • Memberikan penilaian positif terhadap pembahasan yang menganalisis prinsip kerja LLM pada tingkat dasar.
    • Mengungkapkan kekaguman yang lebih besar terhadap fakta bahwa LLM dapat bekerja dengan baik.
  • Penjelasan tentang kekuatan self-attention sering kali terlewat

    • Berbeda dari jaringan saraf tradisional, lapisan self-attention secara adaptif memberi bobot pada koneksi antar input berdasarkan konteks.
    • Dengan ini, transformer dapat melakukan dalam satu lapisan hal-hal yang pada jaringan tradisional memerlukan beberapa lapisan.
  • Membagikan konteks tambahan tentang karya ini lewat thread Twitter penulis

    • Penulis membagikan latar belakang tambahan tentang karya ini melalui thread Twitter.
  • Jika ingin versi berdimensi rendah untuk model sendiri, merekomendasikan library Netron

    • Memberikan penilaian positif dan rekomendasi terhadap library Netron untuk visualisasi arsitektur model.
  • Ini bukan sekadar model 3D sederhana, melainkan karya yang mendalam

    • Awalnya mengira ini hanya model 3D sederhana, tetapi kemudian terkesan oleh kedalaman materi yang disertai animasi.
  • Visualisasi ini benar-benar menakjubkan.

    • Kalau melihat ini saat dulu berusaha memahami transformer, semuanya pasti akan jauh lebih mudah.
  • Inilah alasan menyukai Hacker News

    • Menunjukkan reaksi positif terhadap dibagikannya materi luar biasa seperti ini di Hacker News.