1 poin oleh GN⁺ 2024-12-15 | 1 komentar | Bagikan ke WhatsApp

1 komentar

 
GN⁺ 2024-12-15
Komentar Hacker News
  • Seorang pengguna merasa tidak menemukan hal baru atau berguna dalam presentasi tersebut. Ia menganggap isi presentasinya religius dan hampa

  • Pengguna lain menilai positif bahwa Ilya memulai presentasi dengan foto Quoc Le. Quoc Le adalah penulis utama makalah penskalaan jaringan saraf tahun 2012, yang menjadi alasan pengguna ini mulai tertarik pada deep learning

  • Ucapan Ilya dinilai rendah hati dan berlandaskan riset publik sebelumnya, tetapi ia juga dianggap sedang mengerjakan proyek besar saat ini dan memiliki imajinasi yang kaya

  • Pernyataan Ilya bahwa "penalaran lebih tidak dapat diprediksi" dianggap penting. Pengguna itu berpendapat bahwa penalaran yang berguna pada dasarnya memang tidak dapat diprediksi

  • Ada pertanyaan tentang mengapa pipeline parallelism merupakan ide yang buruk

  • Presentasi itu dirasa dipenuhi banyak bagian yang tidak perlu. Disebutkan rangkuman 10 tahun terakhir, batas scaling law, agent, data sintetis, dan peningkatan komputasi

  • Pengguna menekankan bahwa Sutskever mengatakan "pre-training akan berakhir". Ia memprediksi cara pelatihan model akan berubah karena keterbatasan data

  • Sebagai data alternatif untuk pelatihan selain data internet, diusulkan curated synthetic dataset. Dijelaskan bahwa penggunaan dataset eksklusif berskala besar dibatasi oleh masalah hak cipta, tetapi masalah hukum itu bisa terselesaikan jika pemiliknya sendiri yang menggunakannya

  • Podcast DeepMind dinilai membahas tema yang mirip dengan presentasi ini, tetapi lebih menarik

  • Analogi data internet sebagai sumber daya yang terbatas dinilai baik. Pengguna itu berpendapat bahwa keterbatasan sumber daya perlu disadari dan dihadapi

  • Disebutkan bahwa membandingkan 'neuron' pada transformer dengan neuron biologis nyata terasa mengejutkan. Neuron nyata melibatkan proses biokimia yang kompleks, sedangkan transformer menggunakan lapisan linear sederhana dan non-linearitas

  • Disebutkan bahwa sebuah LLM menggunakan Gemini Flash 8B untuk memperbaiki transkrip asli YouTube