1 komentar

 
GN⁺ 2024-04-02
Komentar Hacker News
    • Punya pertanyaan tentang model GPT: saya kira model memilih kata yang paling mungkin, tetapi jika ia memilih salah satu dari kata-kata yang "mungkin", bukankah daftar prediksi kata berikutnya akan menjadi jauh kurang mungkin? Jika memungkinkan secara komputasional untuk menjalankan probabilitas dari "dua kata sekaligus", itu akan lebih berguna, dan ini juga bisa diterapkan pada 3, 4, n kata. Saya penasaran apakah pendekatan seperti ini memang ada.
    • Edit setelah menonton videonya dan membaca komentarnya: beam search dan temperature digunakan untuk mengendalikan masalah ini.
    • Tidak bisa membayangkan orang yang lebih baik untuk mengajarkan attention mechanism kepada khalayak. Rasanya seperti mimpi yang jadi kenyataan.
    • Ini obat penawar yang luar biasa untuk konten April Mop. Rasanya ingin menyuntikkan ini langsung ke diri saya sendiri.
    • Di kanal Andrej Karpathy ada beberapa video menarik yang menjelaskan jaringan saraf dan cara kerjanya di dalam untuk orang-orang yang paham pemrograman. Rekomendasi kalau Anda menyukai ini.
    • Token berikutnya dipilih dengan melakukan sampling pada logit dari kolom terakhir setelah unembedding. Tapi bukankah itu berarti hanya memilih token terakhir lagi? Atau pada tahap tertentu matriksnya diubah ukurannya menjadi N+1?
    • Tidak sabar menunggu video berikutnya. Rasanya saya akhirnya bisa benar-benar menginternalisasi dan memahami bagaimana semua ini bekerja.
    • 3B1B adalah salah satu pendidik STEM terbaik di YouTube.