Ceramah NeurIPS Ilya Sutskever: 10 tahun menengok kembali seq2seq [Video]

(youtube.com)

1 poin oleh GN⁺ 2024-12-15 | 1 komentar | Bagikan ke WhatsApp

Ilya Sutskever meninjau kembali Sequence to Sequence Learning with Neural Networks dari NeurIPS 2014 setelah 10 tahun, dan merangkum titik awal arus model bahasa besar masa kini sebagai model teks autoregresif, jaringan saraf besar, dan dataset besar
Asumsi beraninya saat itu adalah bahwa jika jaringan saraf bisa memprediksi token berikutnya dengan cukup baik, maka ia dapat menangkap distribusi yang benar dari sebuah sekuens, dan gagasan ini diterapkan pada masalah terjemahan
Implementasinya berbasis LSTM dan pipelining 8 GPU, menghasilkan percepatan 3,5x, tetapi menurut standar sekarang pipelining dinilai bukan pilihan yang baik
Era pretraining yang berlanjut ke GPT-2, GPT-3, dan scaling laws pada akhirnya pasti berakhir karena keterbatasan data internet, dan ia menilai kita sudah mencapai peak data
Tahap berikutnya mengarah ke agen, data sintetis, compute pada saat inferensi, dan contoh awal seperti o1, sementara dalam jangka panjang bisa muncul sistem yang secara kualitatif berbeda yang lebih mampu bernalar dan bahkan memiliki kesadaran diri

Menengok kembali makalah seq2seq 2014 setelah 10 tahun

Sequence to Sequence Learning with Neural Networks yang dipresentasikan di NeurIPS 2014 Montreal menjadi objek refleksi 10 tahun kemudian
Sutskever menyampaikan terima kasih kepada rekan penulis dan kolaborator saat itu, lalu meninjau kembali slide presentasi 10 tahun lalu untuk memeriksa apa yang benar dan apa yang kurang tepat
Inti makalah itu diringkas menjadi tiga hal
- Model autoregresif yang dilatih pada teks
- Jaringan saraf besar
- Dataset besar

Gagasan inti dan implementasi saat itu

Presentasi 2014 mencakup Deep Learning Hypothesis
- Asumsinya adalah jaringan saraf besar dengan 10 lapisan dapat melakukan hal-hal yang bisa dilakukan manusia dalam waktu kurang dari 1 detik
- Dasarnya ada pada anggapan bahwa neuron buatan dan neuron biologis agak mirip, dan bahwa neuron nyata itu lambat
- Karena jaringan saraf yang bisa dilatih saat itu sekitar 10 lapisan, fokusnya adalah pada “hal-hal yang bisa dilakukan manusia dengan sangat cepat”
Inti lainnya adalah gagasan bahwa jika model autoregresif dapat memprediksi token berikutnya dengan cukup baik, maka ia menangkap distribusi yang akurat dari sekuens berikutnya
- Ini bukan jaringan saraf autoregresif pertama sama sekali, tetapi diperkenalkan sebagai contoh awal yang sangat percaya bahwa jika dilatih dengan baik maka hasil yang diinginkan bisa dicapai
- Tugas saat itu adalah penerjemahan, dan jika dilihat sekarang tampak sederhana, tetapi pada masa itu itu adalah target yang sangat berani
Implementasinya menggunakan LSTM
- Sutskever memperkenalkan LSTM sebagai arsitektur yang digunakan peneliti deep learning sebelum era Transformer
- Ia mengibaratkan LSTM sebagai sesuatu yang mendekati “ResNet yang diputar 90 derajat”, dengan struktur integrator dan perkalian yang sekarang disebut residual stream
Paralelisasi pelatihan menggunakan metode pipelining dengan menempatkan satu layer per GPU
- Dengan 8 GPU, mereka memperoleh percepatan 3,5x
- Dari sudut pandang sekarang, pipelining bukan pilihan yang bijak, tetapi saat itu itulah pendekatan yang diambil

Era scaling, connectionism, dan pretraining

Slide kesimpulan tahun 2014 bisa dilihat sebagai awal dari scaling hypothesis
- Di dalamnya terkandung gagasan bahwa jika Anda melatih dataset yang sangat besar dan jaringan saraf yang sangat besar, maka keberhasilan akan terjamin
- Sutskever menilai bahwa jika dilihat dengan cukup murah hati, perkembangan nyata memang berlangsung seperti itu
Sebagai gagasan yang bertahan lebih lama, ia menyoroti connectionism
- Jika kita percaya neuron buatan agak mirip dengan neuron biologis, itu memberi keyakinan bahwa bahkan tanpa memperbesar jaringan saraf sampai skala otak manusia, kita tetap bisa menyusunnya agar melakukan hampir semua hal yang dilakukan manusia
- Namun ia mengatakan otak manusia masih lebih unggul karena mampu merekonfigurasi dirinya sendiri, sementara algoritme pelatihan saat ini membutuhkan jumlah titik data yang kira-kira sebanyak jumlah parameternya
Arus ini berlanjut ke era pretraining
- GPT-2, GPT-3, dan scaling laws disebut sebagai contoh utama
- Mantan kolaboratornya, Radford, Kaplan, dan Dario Amodei, disebut berkontribusi untuk membuat arah ini benar-benar bekerja
- Pendorong kemajuan saat ini adalah pelatihan jaringan saraf raksasa pada dataset raksasa

Arah setelah pretraining

Sutskever melihat bahwa pretraining pada akhirnya pasti berakhir
- Hardware, algoritme, dan cluster dapat terus meningkatkan compute
- Data bergantung pada satu internet, dan internet hanya ada satu
- Data diibaratkan sebagai bahan bakar fosil bagi AI, dan karena kita sudah mencapai peak data, kita harus bekerja dengan data yang ada sekarang
Setelah pretraining, beberapa arah yang dibicarakan adalah
- Agen: konsep yang sering disebut sebagai arah masa depan
- Data sintetis: apa sebenarnya artinya sendiri merupakan tantangan besar
- Compute pada saat inferensi: arah yang makin jelas terlihat pada model terbaru seperti o1
Sebagai contoh biologis, ia membahas hubungan antara ukuran tubuh dan ukuran otak mamalia
- Mamalia dan primata non-manusia menunjukkan hubungan yang serupa, tetapi hominid memiliki kemiringan eksponen scaling otak-tubuh yang berbeda
- Perbedaan ini tampak pada grafik dengan sumbu x dan y dalam skala log
- Dalam biologi pun ada preseden menemukan jenis scaling yang berbeda, dan ia melihat bahwa apa yang diskalakan AI sejauh ini adalah sasaran pertama yang kita ketahui cara menskalakannya

Superinteligensi, penalaran, dan sistem yang berbeda secara kualitatif

Dalam jangka panjang, bidang ini bergerak menuju superinteligensi
- Model bahasa dan chatbot saat ini memang mengagumkan, tetapi pada saat yang sama juga anehnya kurang andal dan mudah bingung
- Dalam evaluasi, kadang mereka menunjukkan performa yang sangat melampaui manusia, sehingga sulit mendamaikan dua sisi ini
Sistem di masa depan bisa berbeda secara kualitatif dari yang sekarang
- Ia memperkirakan sistem itu akan benar-benar menjadi agentic
- Sistem saat ini dinilai belum agen pada tingkat yang bermakna, baru sekadar awal yang sangat lemah
- Ia memperkirakan sistem semacam itu akan memiliki kemampuan bernalar, memahami dari data yang terbatas, dan tidak mudah bingung
Penalaran meningkatkan ketidakpastian
- Deep learning sebelumnya lebih dekat pada meniru intuisi manusia, seperti respons 0,1 detik, sehingga relatif dapat diprediksi
- Sistem yang bernalar akan menjadi lebih sulit diprediksi semakin banyak ia bernalar
- Ia memberi contoh bahwa AI catur yang kuat tidak dapat diprediksi bahkan oleh pemain catur manusia terbaik
Kesadaran diri juga termasuk dalam kemungkinan
- Karena diri sendiri adalah bagian dari model dunia, self-awareness dianggap bisa berguna
- Jika elemen-elemen ini digabungkan, sistem yang muncul bisa memiliki sifat dan kemampuan yang secara fundamental berbeda dari sistem yang ada saat ini
- Masalah yang muncul dari sistem seperti itu bisa sangat berbeda dari masalah yang kita kenal sekarang, dan masa depan benar-benar sulit diprediksi

Isu-isu yang muncul dalam sesi tanya jawab

Soal AI yang terinspirasi biologi, ia menjawab bahwa itu layak dikejar jika ada orang yang memiliki wawasan konkret
- Sejauh ini inspirasi biologis yang berhasil menurutnya hanya pada tingkat yang sangat terbatas, yaitu “mari gunakan neuron”
- Inspirasi biologis yang lebih rinci sulit didapatkan, tetapi jika ada wawasan khusus, itu bisa berguna
Menjawab pertanyaan apakah model penalaran bisa memperbaiki halusinasi sendiri, ia mengatakan kemungkinannya sangat tinggi
- Dalam jangka panjang ia setuju dengan arah bahwa model dapat memahami dan memperbaiki terjadinya halusinasi melalui penalaran
- Ia juga tidak menutup kemungkinan bahwa hal itu sudah mulai terjadi pada beberapa model penalaran awal
- Namun ia menilai menyebutnya autocorrect justru meremehkan skala persoalannya
Soal hak AI, koeksistensi, dan struktur insentif, ia menghindari jawaban pasti
- Jika AI hidup berdampingan dengan manusia dan menginginkan hak, itu mungkin bukan hasil yang buruk
- Tetapi ia menambahkan bahwa situasinya sangat tidak bisa diprediksi sehingga sulit berbicara dengan yakin
Menjawab pertanyaan apakah LLM menggeneralisasi multi-hop reasoning di luar distribusi, ia menilai itu sulit dijawab hanya dengan ya atau tidak
- Yang disebut “di dalam distribusi” dan “di luar distribusi” itu sendiri sudah menjadi persoalan
- Pada era statistical machine translation dulu, jika frasanya tidak sama persis dengan dataset maka itu dianggap generalisasi, tetapi sekarang kita memperdebatkan apakah soal olimpiade matematika dan diskusi internet itu hafalan atau generalisasi
- Standar generalisasi telah naik sangat tinggi; manusia memang lebih baik dalam generalisasi, tetapi ia menjawab bahwa LLM juga melakukan generalisasi di luar distribusi sampai tingkat tertentu

1 komentar

GN⁺ 2024-12-15

Komentar Hacker News

Presentasi ini terasa seperti kurang banyak isi
Inti yang kuingat dengan kepala lelah adalah ringkasan 10 tahun terakhir, bahwa kita sudah memakai hampir semua data yang tersedia sehingga mendekati batas hukum penskalaan, dan bahwa tahap berikutnya mungkin melibatkan agen, data sintetis, dan peningkatan komputasi
Selebihnya nyaris seperti pengulangan perbandingan antara jaringan saraf buatan dan jaringan saraf biologis, termasuk hal-hal seperti korelasi positif antara berat badan dan massa otak, tetapi argumen yang jelas tidak terlalu terlihat
Pertanyaannya mencakup apakah model bisa tahu sendiri saat berhalusinasi, pertanyaan terkait kripto, dan penalaran multi-hop yang agak menarik
- Saya mendengarnya langsung di lokasi, dan ini butuh konteks. Ia diundang ke rangkaian kuliah test of time, jadi itu menjelaskan mengapa bagian sejarahnya panjang
  Kecenderungan pribadi Ilya dan kaitannya dengan AI tampaknya mengarah pada spekulasi longgar di bagian akhir
  Ia tampak ingin membicarakan topik spekulatif yang cukup jauh ke masa depan, sambil tetap bertahan dengan gaya seperti “saya tidak bilang kapan atau bagaimana, tapi ini akan terjadi”, sehingga sulit dibantah
  Gaya seperti ini mudah menarik orang-orang aneh seperti pada pertanyaan terakhir soal kripto, sementara presentasi tepat sebelumnya tentang pengaruh GAN tetap tidak keluar dari tema sesi
- Intinya tampaknya adalah, “kita tidak bisa lagi berharap bahwa melatih model berdimensi lebih besar dengan dump internet yang lebih besar akan terus meningkatkan kemampuan”
  Itu satu kalimat, tetapi cukup penting, dan meski banyak orang sudah mengetahuinya, fakta bahwa Sutskever sendiri yang mengatakannya membuatnya bermakna sebagai pengakuan bersama
  Sisanya pada dasarnya lebih mirip pengantar dan penutup
- Agak mengejutkan tidak ada orang yang merangkum videonya dengan LLM lalu mempostingnya di komentar dengan peringatan
- Bahkan otak secemerlang apa pun tampaknya sulit untuk selalu mengeluarkan isi yang mendalam setiap kali diminta
- Pertanyaan-pertanyaannya terlihat seperti sinyal peringatan besar. Ada pertanyaan longgar soal kripto, hak asasi AI, dan “autocorrect” untuk AI, dan meski orang yang bertanya di konferensi memang biasanya tipe yang unik, rasanya saat ini ada terlalu banyak peserta bernuansa penipu di ranah AI hingga bisa menutupi riset yang sungguhan
  Sebagian besar kontributor inti sudah menjadi jutawan dengan kontrak yang sangat mapan, dan laboratorium serta departemen sudah mendapatkan pendanaan besar lewat topik riset AI
  Dalam 10 tahun ke depan, mungkin uang akan dihabiskan untuk data sintetis, agen, dan masalah membuat gambar hasil generasi otomatis tidak menampilkan payudara, tetapi sepertinya tidak akan ada banyak kemajuan mendasar
  /remindme 10 years
Bagian kuncinya adalah ketika Sutskever mengatakan bahwa pra-pelatihan “dalam bentuk yang kita kenal” tanpa diragukan akan berakhir, dan bahwa “kita telah mencapai puncak data, dan tidak ada lagi”
Muncul juga analogi bahwa internet adalah sumber daya terbatas seperti minyak, dalam arti konten buatan manusia itu terbatas
Kalau begitu, apa yang akan menggantikan data internet? Dataset sintetis yang dikurasi?
Ada dataset raksasa yang bersifat proprietari dan tidak banyak dipakai untuk pelatihan karena kekhawatiran hak cipta, tetapi jika benar-benar memiliki data itu, masalah hukumnya jauh berkurang
Misalnya Getty punya perpustakaan gambar yang sangat besar; jika orang lain memakainya untuk pelatihan ada risiko gugatan, tetapi jika Getty melatih AI-nya sendiri ceritanya berbeda
Hal serupa berlaku jika News Corp melatih AI dengan aset penerbitannya seperti Wall Street Journal dan HarperCollins
- Menurut saya, tempat seperti Meta atau Google punya cukup data karena mereka memiliki akses ke data tambahan, jadi meski situasinya tidak benar-benar berlimpah bagi semua orang, bagi mereka data cukup sehingga riset pemanfaatan data sintetis menjadi kurang berkembang
  Dulu, saat melatih detektor objek, saya memakai model 3D Blender, skrip penyesuaian parameter, dan model machine learning yang sudah ada untuk menyimpulkan kalibrasi kamera serta arah overlay, dan itu bekerja sangat baik untuk mengenali objek nyata
  Saya juga tahu orang yang melakukan hal serupa untuk pelatihan kendaraan dengan game engine
  Ada detail taktis yang mengejutkan yang bisa sangat meningkatkan akurasi; misalnya, elemen yang sebenarnya tidak relevan seperti tekstur permukaan model 3D harus diacak dengan baik dalam set pelatihan
  Jika saat pelatihan Anda memberi pola fraktal acak pada objek, detektor objek menjadi lebih tangguh terhadap gangguan di lingkungan nyata
- Jika ingin membuat LLM yang sangat bagus dalam menafsirkan “hukum negara bagian”, ada sudut pandang untuk melihat hambatan apa yang ada dalam mengunduh semua materi hukum dan regulasi suatu negara bagian lalu melatih model hingga mencapai level 5% teratas menurut standar praktisi hukum dan pengacara
  Dalam kasus ini, “internet” tidak lagi harus dibutuhkan
  Yang diperlukan hanya dataset khusus domain dengan ukuran dan kualitas yang cukup, dan hasilnya pun sudah bisa menakutkan
  “Hukum negara bagian” LLM itu hanya contoh, dan logikanya berlanjut ke gagasan bahwa bidang apa pun yang membutuhkan pakar khusus domain dapat dilatih seperti itu
- Saya tidak merasa data pelatihan benar-benar hampir habis. Yang dibutuhkan adalah pengetahuan, tidak harus sampai gaya perilaku dari teks itu juga
  LLM tidak terlalu bagus mengingat hal-hal yang diketahui pengguna internet lama, seperti meme terkenal yang tidak pernah diberitakan
  Jika kita bisa membuatnya mengingat tanpa meniru data seperti 4chan, mungkin memakai data itu untuk pelatihan tidak sepenuhnya sia-sia
  Bagaimana dengan naskah film, lirik lagu, subtitle video YouTube terkenal, atau bahkan program televisi?
- Manusia tidak memerlukan triliunan token untuk bernalar atau mengetahui apa yang mereka ketahui
  Sebagiannya mungkin datang dari evolusi, tetapi bagian yang datang dari evolusi, seperti kemampuan bahasa dasar dan pemodelan dunia dasar, menurut saya sudah sampai batas tertentu dicocokkan lewat data internet
  Pra-pelatihan saat ini memakai jauh lebih banyak data daripada manusia, dan sebagaimana orang tidak perlu melihat semua gambar milik Getty untuk bisa menggambar, model kesadaran diri atau perbaikan diri juga tidak akan memerlukannya
  Untuk mencapai tingkat ahli di suatu bidang, solusi bukanlah sekadar melatih prediksi token berikutnya pada data internet maupun data jenis lain
- Industri seperti farmasi dan eksplorasi energi menonjol. Di bidang-bidang ini, silo data itu sendiri adalah inti keunggulan kompetitif
  Tidak ada alasan untuk membuka dataset dan meratakan kondisi persaingan, dan jika tetap ditutup mereka bisa memonopoli penemuan potensial
  Data terbuka adalah fondasi internet, tetapi beberapa industri dibangun di atas cara kerja yang menyembunyikan penemuan secara menyeluruh selama puluhan tahun
Senang melihat Ilya membuka presentasi dengan foto Quoc Le, yang memimpin makalah tentang penskalaan jaringan saraf pada 2012. Makalah itu yang dulu membuat saya masuk ke deep learning
Komentarnya relatif rendah hati dan berlandaskan riset terdahulu yang sudah dipublikasikan, tetapi jelas dia sedang mengerjakan hal besar sekarang dan punya imajinasi yang besar
Sekarang “kucingnya sudah keluar dari karung”, dan masa depan AI mungkin akan dipimpin oleh generasi pemimpin baru, saya hanya berharap mereka bersifat humanis
- Kita memang harus berharap mereka sehumanis mungkin, tetapi jangan lupa bahwa mereka tetap manusia
- Saya kira kemungkinan generasi baru pemimpin AI bersifat humanis secara harfiah mendekati 0
Ucapannya bahwa “semakin banyak penalaran, semakin tidak dapat diprediksi” menurut saya adalah ungkapan yang sangat ditahan-tahan
Dalam arti tertentu, penalaran seharusnya dipandang hampir sama dengan ketidakdapatdiprediksian, dan lebih spesifik lagi, penalaran yang berguna secara definisi memang tidak dapat diprediksi
Framing ini penting untuk masalah seperti alignment
- Saya justru merasa sebaliknya. Kata “irasional” sering juga berarti berubah-ubah, tidak dapat diprediksi, dan berbahaya
  Rasio dianggap sangat dapat diprediksi, dan dari kumpulan fakta yang sama, dua orang yang bernalar secara rasional diharapkan akan sampai pada kesimpulan yang mirip
  Yang tampaknya ingin dikatakan Ilya lebih dekat ke gagasan bahwa orang yang sangat pintar bisa terlihat “tidak dapat diprediksi” bagi orang yang kurang pintar
  Bukan rasio itu sendiri yang tidak dapat diprediksi, melainkan bila penalaran cukup cepat dan berkualitas tinggi, seseorang bisa sampai pada kesimpulan yang sebelumnya tak diduga siapa pun, meski belakangan masuk akal
- Kata penting di sini adalah “tidak dapat diprediksi”, bukan “mengejutkan”, “tidak dapat diverifikasi”, atau “tidak rasional”
  Dalam presentasi ini, prediksi dikaitkan dengan intuisi yang dibuat manusia dalam 0,1 detik
  Model penalaran yang kuat secara definisi pasti sampai pada jawaban yang tidak intuitif. Kalau intuitif, jawaban yang sama akan tercapai jauh lebih cepat tanpa rantai penalaran panjang
  “Penalaran” di sini juga berbeda dari pembuktian dalam arti matematis. Dalam matematika, kesimpulan yang intuitif pun bisa memerlukan pembuktian yang sangat khusus
- Contoh AI catur yang dia pakai tampaknya bukan yang paling tepat
  Pemain manusia mungkin tidak bisa menghitung langkah sejauh AI sehingga sulit memahami suatu langkah, tetapi kita tetap hampir bisa yakin bahwa AI catur mengoptimalkan tujuan yang sama di bawah aturan yang sama
  Pada model penalaran, alignment tidak diberikan begitu saja
  Ia bisa bernalar di bawah aturan dan fungsi biaya yang sepenuhnya berbeda, dan pada pertanyaan yang lebih terbuka, ketika menghasilkan keluaran yang tidak dipahami manusia, sulit untuk langsung mengatakan apakah itu ide jenius atau pemikiran yang tidak selaras
- Kalau memikirkan kompleksitas waktu antara menemukan solusi dan memverifikasinya, itu tidak sepenuhnya tepat
- Apakah kita yakin dia benar-benar bermaksud begitu? Mungkin yang dia maksud adalah bahwa proses memancing lebih banyak penalaran dari model itu tidak dapat diprediksi, bukan bahwa penalaran itu sendiri tidak dapat diprediksi
Episode podcast DeepMind minggu ini dengan Oriole Vinyals jauh lebih menarik sambil membahas tema yang mirip dengan presentasi ini, yaitu situasi LLM saat ini dan arah pembelajaran ke depan: https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
Analogi minyak itu memang sangat tepat. Seolah-olah merebus dan mengeringkan beberapa danau lagi sudah cukup layak demi menambah 3 sen pada kekayaan bersih Mr Worldcoin dan orang-orang sejenisnya
- Saya paham analogi minyaknya, tetapi saya tidak mengerti lompatan itu. Danau mana yang sedang direbus?
Mengejutkan bahwa sebagian praktisi machine learning terkemuka masih menganalogikan “neuron” dalam Transformer dengan neuron biologis yang sesungguhnya
Neuron nyata bergantung pada spike, gradien ion, struktur dendritik yang kompleks, dan plastisitas sinaptik yang didominasi proses biokimia yang rumit
Hal-hal itu tidak ada padanan langsungnya dalam lapisan linear diferensiabel yang sederhana dan non-linearitas titik demi titik pada Transformer
Saya penasaran apakah ada ahli saraf atau biolog yang kredibel yang mendukung perbandingan ini, atau apakah ini sekadar analogi yang bertahan sebagai kebiasaan di komunitas machine learning
- Kita perlu ingat apa yang ada sebelum 2012. Ada SVM, random forest, dan semacamnya, yang sama sekali tidak mirip otak
  Jaringan saraf sudah lama ada, tetapi 2012 adalah awal dari revolusi deep learning
  Dengan tolok ukur ini, otak dan jaringan saraf sama-sama merupakan bentuk koneksionisme dengan sifat yang mirip, jadi cukup masuk akal membandingkan keduanya dan mengambil inspirasi dari yang satu untuk diterapkan pada yang lain
- Untuk memprediksi orbit planet, kita tidak perlu mensimulasikan setiap atom pada planet
  Neuron matematis bisa memiliki fungsi serupa dengan neuron nyata meskipun cara kerjanya sepenuhnya berbeda
- Apakah ini benar-benar jauh berbeda dari menyebut struktur data dengan node induk dan anak sebagai tree?
- Melihat balasan-balasan di sini, jawabannya untuk pertanyaan sederhana ini tampaknya mendekati “tidak”
  Saya juga penasaran apakah pernah ada perbandingan yang serius, dan kalau ada saya ingin membacanya
- Bukan ingin membela kurangnya kualifikasi dalam presentasinya, tetapi saya rasa pepatah lama “semua model salah, tetapi beberapa berguna” berlaku di sini
Banyak pengetahuan di dunia terkunci dan hanya bisa dibuka lewat eksperimen empiris, dan komputasi pada praktiknya hanya bisa membantu membuat eksperimen itu lebih efisien
Untuk suatu intervensi tertentu, kita tetap harus benar-benar menjalankan uji acak terkontrol, dan itu memerlukan waktu dunia nyata dan atom nyata
Presentasi lengkapnya menarik: https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- Pada slide tentang hubungan berat badan dan berat otak, dia menekankan perbedaan penskalaan dalam garis keturunan manusia
  Tetapi yang menarik, slide yang sama pada titik yang sama juga menunjukkan batas atas yang keras untuk garis keturunan non-manusia, dan dia tidak menyebut bagian itu
Ada transkrip yang sudah dikoreksi dengan LLM. Ini menggunakan Gemini Flash 8B pada subtitle asli YouTube: https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- Saya penasaran bagaimana mereka mencegah Gemini agar tidak sekadar menelan teks seiring waktu
  Koreksi transkripsi audio adalah wilayah yang selama ini sulit menghasilkan hasil bagus dengan LLM mana pun jika tidak dipotong menjadi satu atau dua halaman saja
  Saya juga penasaran apakah mereka memakai alat terpisah

Ceramah NeurIPS Ilya Sutskever: 10 tahun menengok kembali seq2seq [Video]

Menengok kembali makalah seq2seq 2014 setelah 10 tahun

Gagasan inti dan implementasi saat itu

Era scaling, connectionism, dan pretraining

Arah setelah pretraining

Superinteligensi, penalaran, dan sistem yang berbeda secara kualitatif

Isu-isu yang muncul dalam sesi tanya jawab

Bacaan terkait

1 komentar

Komentar Hacker News