Karyawan Google yang Menciptakan Transformer

(wired.com)

2 poin oleh GN⁺ 2024-03-21 | 1 komentar | Bagikan ke WhatsApp

Pada 2017, “Attention Is All You Need” karya 8 peneliti Google memindahkan pemrosesan bahasa dari model berurutan ke arsitektur transformer, dan menjadi fondasi AI generatif
Jakob Uszkoreit menilai LSTM mudah kehilangan petunjuk konteks di bagian akhir teks panjang, lalu mendorong self-attention sebagai alternatif yang merujuk seluruh kalimat sekaligus
Saat Illia Polosukhin, Ashish Vaswani, Niki Parmar, Llion Jones, Łukasz Kaiser, Aidan Gomez, dan Noam Shazeer bergabung, eksperimen penerjemahan membesar, dan setelah implementasi Shazeer, model Big memecahkan rekor terjemahan English-to-German
Makalah itu dikirim tepat sebelum tenggat NeurIPS pada 19 Mei 2017, menerima ulasan yang beragam, lalu mendapat perhatian besar di sesi poster bulan Desember, sementara Google mengajukan paten sementara untuk tujuan defensif
Kedelapan penulis kini telah meninggalkan Google, dan selain Near, Character AI, Sakana AI, Essential AI, Cohere, Inceptive, dan lainnya tumbuh dengan basis teknologi transformer

Titik balik yang diciptakan oleh “Attention Is All You Need”

“Attention Is All You Need” adalah makalah yang ditulis para peneliti Google pada musim semi 2017
- Delapan penulis menambahkan tanda bintang pada setiap nama agar urutan kontribusi tidak ditentukan, serta menyertakan catatan kaki “Equal contributor” dan “Listing order is random”
Makalah ini memperluas AI berbasis neural network ke arsitektur transformer, dan transformer kemudian menjadi struktur inti produk AI generatif seperti ChatGPT, Dall-E, dan Midjourney
Geoffrey Hinton menilai bahwa tanpa transformer, kita tidak akan sampai pada situasi sekarang
- Yang dimaksud adalah arus ketika OpenAI dan perusahaan lain membangun sistem yang menyaingi, atau dalam beberapa kasus melampaui, hasil karya manusia
Kedelapan penulis makalah itu kini telah meninggalkan Google, dan masing-masing bekerja pada hal-hal yang berkaitan dengan sistem yang dijalankan oleh arsitektur yang mereka buat pada 2017

Awal mula ide self-attention

Titik awal transformer adalah gagasan self-attention dari Jakob Uszkoreit
- Ia bekerja di grup Google Translate lalu pada 2012 bergabung dengan tim yang membuat sistem di halaman pencarian Google untuk menjawab pertanyaan pengguna secara langsung
- Saat itu Google melihat Apple Siri dapat mengancam trafik pencarian, sehingga memberi perhatian lebih besar pada bidang ini
Pada masa itu, model bahasa bergantung pada recurrent neural network dan LSTM, tetapi ada keterbatasan dalam menangani teks panjang
- Pada kalimat contoh Joe is a baseball player... got two hits, untuk memahami “two hits” sistem harus mengingat informasi baseball di bagian sebelumnya
- LSTM memang memungkinkan pemrosesan urutan teks yang lebih besar dan kompleks, tetapi tetap memproses kata secara berurutan sehingga bisa kehilangan petunjuk konteks di bagian belakang
Uszkoreit mulai memikirkan self-attention sekitar 2014
- Saat menerjemahkan sebuah kata, self-attention dapat merujuk ke semua posisi lain dalam kalimat
- Ini bukan cara melihat kata satu per satu secara berurutan, melainkan pendekatan paralel yang melihat banyak input bersama-sama, sehingga cocok dengan chip pemrosesan paralel yang diproduksi massal di tengah ledakan machine learning
Karena pendekatannya membuang neural architecture yang sudah ada, respons awalnya skeptis
- Bahkan ayah Uszkoreit, Hans Uszkoreit, tidak sependapat dengannya dalam percakapan di meja makan malam
- Uszkoreit melakukan eksperimen teks kecil bersama rekan-rekannya dan menerbitkan makalah pada 2016, tetapi kolaborator yang sudah ada lebih tertarik menerapkannya ke Google Search dan iklan

Bergabungnya orang-orang secara kebetulan dan terbentuknya tim “transformer”

Pada 2016, Uszkoreit makan siang dengan Illia Polosukhin di kafetaria Google dan mengusulkan self-attention
- Polosukhin melihat bahwa untuk memberi jawaban langsung di Google.com, dibutuhkan sistem murah berkinerja tinggi yang merespons dalam hitungan milidetik
- Ia kemudian berkolaborasi dengan Ashish Vaswani, dan Vaswani yang sedang mencari proyek besar di Google Brain ikut bergabung dengan ide self-attention
Ketiganya membuat dokumen desain berjudul “Transformers: Iterative Self-Attention and Processing for Various Tasks”
- Nama “transformers” sudah digunakan sejak awal, dengan makna mekanisme yang mengubah informasi masukan untuk mengekstrak pemahaman setingkat manusia, atau setidaknya memberi kesan seperti itu
- Uszkoreit juga mengaitkan nama itu dengan ingatan masa kecilnya bermain mainan Hasbro Transformer
Setelah itu Niki Parmar dan Llion Jones ikut bergabung
- Parmar masuk ke Google setelah meraih gelar master dari USC, lalu bersama Uszkoreit mengerjakan variasi model untuk meningkatkan Google Search
- Jones berada di Google Research di bawah manajer Polosukhin, lalu bergabung ke tim transformer setelah mendengar konsep self-attention dari rekannya Mat Kelcey
Łukasz Kaiser dari Google Brain dan intern Aidan Gomez juga ikut serta
- Gomez bergabung dengan kelompok machine learning di University of Toronto, tempat laboratorium Geoffrey Hinton berada, lalu mendapatkan kesempatan magang setelah mengirim Kaiser ide pengembangan makalah terkait
- Kaiser dan Gomez membahas apakah proyek mereka harus digabung dengan proyek self-attention, dan akhirnya memutuskan untuk menggabungkannya

Eksperimen pemecah rekor dan pengiriman tepat sebelum tenggat

Tim menjalankan machine translation dengan model self-attention dan mengukur performanya dengan benchmark BLEU
- Model awal setara dengan alternatif LSTM, tetapi belum lebih baik
- Setelah Noam Shazeer kebetulan mendengar tentang proyek ini dan bergabung, kualitas implementasinya naik drastis
Shazeer menulis ulang sendiri kode tim transformer
- Ia merasa recurrent neural network yang ada tidak nyaman digunakan, dan ikut karena ingin menggantinya
- Anggota tim menggambarkan implementasinya dengan kata-kata seperti “magic”, “alchemy”, dan “bells and whistles”, sementara Uszkoreit menilai mekanisme intuitif seperti self-attention perlu segelintir implementator berpengalaman agar benar-benar hidup
Menjelang tenggat pengiriman NeurIPS pada 19 Mei 2017, laju eksperimen meningkat
- Tim menguji model transformer dasar yang dilatih selama 12 jam dan model Big yang lebih kuat selama 3,5 hari
- Dalam terjemahan English-to-German, model dasar melampaui semua model pesaing, dan Big menghasilkan skor BLEU yang jelas memecahkan rekor sebelumnya sekaligus lebih efisien secara komputasi
Dalam dua minggu terakhir sebelum tenggat, tim bekerja intensif di Building 1965
- Dengan ablation, mereka menghapus atau mengganti modul dan teknik untuk memeriksa mana yang benar-benar diperlukan
- Sambil memperbaiki bug seperti masalah akibat masking yang tidak dilakukan dengan benar, komponen transformer yang sekarang dikenal tersusun lewat iterasi eksperimen yang cepat
Judulnya diusulkan Llion Jones sebagai “Attention Is All You Need”, terinspirasi dari lagu Beatles “All You Need Is Love”
- Hasil English-French keluar 5 menit sebelum pengiriman, dan makalah dikirim dengan sisa waktu 2 menit sebelum tenggat
- Google juga cepat mengajukan paten sementara untuk membangun portofolio paten defensif

Google, OpenAI, dan langkah kedelapan penulis setelahnya

Ulasan NeurIPS terbagi antara 1 positif, 1 sangat positif, dan 1 sekadar “lumayan”, lalu makalah itu diterima untuk sesi poster malam
- Sesi 4 jam pada 6 Desember 2017 dipadati ilmuwan yang ingin tahu lebih banyak
- Bahkan pada pukul 22.30, saat sesi seharusnya berakhir, orang-orang masih bertahan hingga petugas keamanan harus menyuruh mereka keluar
- Bagi Uszkoreit, salah satu momen paling memuaskan adalah ketika salah satu pencipta bersama LSTM, Sepp Hochreiter, datang dan memuji pekerjaan mereka
Transformer tidak langsung mendominasi Google internal maupun dunia
- Sekitar waktu publikasi makalah, Shazeer mengusulkan kepada eksekutif Google agar seluruh indeks pencarian dibuang dan diganti dengan pelatihan jaringan raksasa berbasis transformer
- Bahkan Kaiser saat itu menganggap usulan tersebut tidak masuk akal
- OpenAI bergerak lebih cepat, dan setelah Ilya Sutskever menyarankan Alec Radford untuk mengerjakan ide ini, lahirlah produk GPT pertama
Google mulai mengintegrasikan transformer ke produk sejak 2018
- Penerapan pertamanya adalah alat terjemahan
- Pada tahun yang sama, Google merilis model bahasa berbasis transformer BERT, lalu mulai menerapkannya ke pencarian pada tahun berikutnya
- Sundar Pichai mengatakan bahwa alasan Google tidak lebih dulu merilis large language model seperti ChatGPT adalah karena setelah pihak lain menunjukkan cara kerjanya, Google bisa melakukan lebih banyak hal
Kedelapan penulis makalah itu kini semuanya telah meninggalkan Google
- Noam Shazeer ikut mendirikan Character AI, dengan valuasi yang diperkirakan mencapai 5 miliar dolar
- Llion Jones ikut mendirikan Sakana AI yang berbasis di Tokyo, dengan valuasi 200 juta dolar
- Inceptive milik Jakob Uszkoreit adalah perusahaan biotech dengan valuasi 300 juta dolar
- Near milik Illia Polosukhin membangun blockchain dengan token yang memiliki kapitalisasi pasar sekitar 4 miliar dolar
- Niki Parmar dan Ashish Vaswani memulai Adept pada 2021, lalu mendirikan Essential AI, yang menerima investasi 8 juta dolar
- Aidan Gomez ikut mendirikan Cohere di Toronto pada 2019, dengan valuasi diperkirakan 2,2 miliar dolar
- Łukasz Kaiser tidak mendirikan perusahaan dan justru bergabung ke OpenAI, serta menjadi salah satu penemu teknologi baru bernama Q*
Kecuali Near, perusahaan-perusahaan mereka dibangun di atas teknologi transformer
- Google menciptakan lingkungan yang memungkinkan ide-ide nonkonvensional dikejar, dan semua penulis bekerja di kantor yang sama
- Pertemuan di lorong dan percakapan saat makan siang menjadi pemicu penting
- Enam dari delapan orang itu lahir di luar Amerika Serikat, sementara dua lainnya masing-masing lahir ketika orang tua mereka yang berasal dari Jerman sedang tinggal sementara di California, dan seorang lagi merupakan warga Amerika generasi pertama dari keluarga yang datang untuk menghindari penganiayaan
- Menurut Uszkoreit, inovasi muncul ketika kondisi yang tepat, orang-orang yang tepat pada saat yang tepat, kesenangan, masalah yang tepat, dan keberuntungan bertemu

1 komentar

GN⁺ 2024-03-21

Opini Hacker News

Bukan tepatnya model attention; attention sendiri sudah ada sebelum makalah-makalah itu
Yang mereka lakukan lebih dekat ke menunjukkan bahwa itu saja sudah cukup untuk memprediksi rangkaian kata berikutnya dalam konteks tertentu. Pada 2018, ketika memakai framework serupa, muncul perilaku yang sangat aneh tapi menarik, dan saya mencoba menyelesaikannya, tetapi seperti kelompok lain saya tidak melihat bahwa memperbesar skala komputasi pada algoritme sederhana adalah jalan yang lebih baik. Menyebalkan ketika satu kelompok disebut menemukan dan mengubah AI sambil mengabaikan kelompok lain. Para peneliti ini layak dipuji, tetapi mereka lebih mengembangkan AI modern dengan cara yang menarik, bukan menciptakannya. Bahkan sekarang ada arus untuk kembali ke pendekatan yang lebih deterministik, model dunia, memori, graf, dan minimisasi energi; generatif memang menarik dan banyak yang dipelajari darinya, tetapi apakah AGI/SGI bisa diselesaikan hanya dengan terus menambahkan chip masih belum tertulis sebagai makalah
- Ini interpretasi yang terlalu pelit dan anehnya meremehkan. Jadi mungkin memang cocok untuk HN
  Keadaan mutakhir yang menakjubkan saat ini tidak akan ada tanpa arsitektur transformer. Jika transformer hanya penumpang beruntung yang diuntungkan oleh skala komputasi, aplikasi yang mengguncang dunia bukan ChatGPT melainkan ChatMLP atau ChatCNN. Namun kenyataannya tidak, dan bahkan pada 2024 tidak ada arsitektur yang benar-benar kompetitif dalam pemrosesan bahasa alami. Transformer adalah ide yang benar-benar dalam dan menakjubkan dengan sifat-sifat hebat seperti paralelisme pelatihan. Kalau dilihat belakangan, mudah merendahkan GPT sebagai sebagian besar ide turunan, dan suatu hari nanti revisionisme yang sama akan diterapkan pada hal-hal seperti model state-space yang menggantikan transformer. Tentu saja GPT dibangun di atas riset sebelumnya dan pendekatan lain juga harus diakui. Itulah sains. Namun orang-orang yang menciptakan transformer layak mendapat pujian seperti dalam artikel ini, dan itu tidak berarti merendahkan semua orang lain. Delapan orang ini mengubah dunia dan sungguh pantas dicintai
- “Memperbesar skala komputasi pada algoritme sederhana lebih baik” berarti pelajaran pahit kembali bekerja sekali lagi
  http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Saya jelas melihat bahwa mereka mengubah AI, tetapi bukan berarti mereka menciptakan AI modern
  Secara pribadi, untuk mendekati AGI tampaknya diperlukan baik daya komputasi maupun arsitektur jaringan saraf
- Saya mempelajari neurosains, tetapi juga sangat tertarik pada cara kerja AI
  Saya sudah membaca pendekatan lama, tetapi istilah seperti graf memori atau minimisasi energi masih baru bagi saya. Saya penasaran apakah ada makalah atau tulisan terbaru yang bisa direkomendasikan untuk orang yang ingin belajar lebih jauh
- Kalau artikelnya tentang “para engineer Google yang secara bertahap memajukan AI”, mungkin iklannya tidak akan terjual banyak
Sekitar 2014, masa kejayaan Google, saya pernah berbicara dengan Uszkoreit tentang perannya saat itu di tim pemrosesan bahasa alami
Ketika saya bertanya, “Apa yang akan kamu lakukan kalau anggarannya tak terbatas?”, ia hanya menjawab, “Memang sudah begitu”
- Saat menjadi intern PhD, saya berbagi kantor dengan Uszkoreit, dan saya selalu menganggap keren bahwa ia keluar di tengah program doktornya
- Cerita yang bagus, tetapi masa kejayaan Google mungkin sekitar 10 tahun sebelumnya. Pada 2014, penurunan sudah mulai terjadi
- Saya bekerja di Borg
  Sistem kuota bisa bekerja kapan saja begitu menyentuh batasnya, dan GPU tersebar di beberapa sel Borg sehingga batas atasnya terbatas. Karena itu XBorg dibuat agar para peneliti bisa melakukan pencarian global di semua sel Borg. Belanja modal pusat data sekitar 5 miliar dolar per tahun, dan Google menghasilkan pendapatan ratusan miliar dolar setiap tahun. Menanyakan skenario mustahil berupa anggaran tak terbatas mirip dengan bertanya “apa yang akan kamu lakukan setelah mati”. Setelah mati, secara harfiah kamu tidak bisa melakukan apa pun. Dalam konteks pertanyaan itu, saya juga sulit memahami apa maksud “memang sudah begitu”, dan inilah respons langsung terhadap asumsi bahwa ia punya anggaran tak terbatas
- Masa-masa yang menyenangkan. Senang melihatnya lagi setelah lama, dan kalau mengingat apa yang kami kerjakan saat itu, menakjubkan bahwa teknologi sudah sampai sejauh ini
“Secara realistis, GPT-3, atau bahkan mungkin GPT-3.5, bisa saja muncul pada 2019, mungkin 2020. Pertanyaan besarnya bukan apakah mereka melihatnya, melainkan mengapa kita melihatnya lalu tidak melakukan apa-apa. Jawabannya rumit”
Jawabannya adalah karena perusahaan monopoli menekan inovasi teknologi. Bisnis pencarian berbasis iklan yang sudah mapan bisa kehilangan pendapatan iklan pencarian karena chatbot baru yang sedang muncul. Mirip dengan kasus ketika perusahaan listrik, pembangkit listrik gas, dan produsen gas serpih tergabung dalam konsorsium milik investor. Apakah divisi perusahaan listrik ingin memasang panel surya secara massal lalu memutus pendapatan gas alam yang dijual ke utilitas? Tentu saja tidak. Ini menjadi alasan kuat untuk menerapkan pemisahan antimonopoli ala Ma Bell pada Alphabet
- Contoh yang lebih baik adalah Kodak, yang menemukan kamera digital pertama pada 1975 tetapi mematikan proyeknya karena dianggap mengancam bisnis film kimia
- Saya tahu detail kasus ini. Sundar mencegah tim NEMA, yang membuat produk setingkat GPT-3 dalam bentuk karakter, untuk mempresentasikannya di I/O
  Sundar takut pada teknologi itu dan reaksi publik, lalu berusaha menguburnya
- Sebaliknya, karena Alphabet gagal merilis GPT-3 atau GPT-3.5, ada kemungkinan mereka akan terdisrupsi sendiri, jadi mungkin tindakan antimonopoli tidak diperlukan
- Sejujurnya, ini salah satu alasan saya melihat Google tidak akan menjadi perusahaan dominan 10 tahun lagi
  Mencari informasi di web menyelesaikan banyak hal berguna, tetapi sekarang sebagian besar hal itu dilakukan lebih baik oleh ChatGPT, Claude, dan lainnya. Memang ada Gemini, tetapi bisakah Google suatu hari menghasilkan uang dari pencarian Gemini sambil menanggung hilangnya pendapatan iklan pencarian dari produk lamanya? Cara memasukkan iklan dalam antarmuka model bahasa besar masih belum terpecahkan. Google terasa seperti perusahaan koran kuno dari era internet. Model iklan web juga butuh waktu untuk mapan
Cukup aneh bahwa Google bukan OpenAI masa kini. Padahal sejak awal mereka punya DeepMind dan pasukan talenta bergelar PhD
- Cara berinteraksi lewat chat dengan model bahasa skala besar sangat mengganggu model bisnis Google, dan sulit menjadikannya produk tanpa membunuh angsa bertelur emas
- Pada akhirnya, ini terlihat sebagai bukti bahwa timing adalah segalanya
  Deep learning pada 2010-an masih dalam tahap mencari cara memanfaatkan GPU. Skala komputasi yang dibutuhkan setelah GPT-2 mungkin hampir mustahil pada 2017/2018. Bahkan di kuliah Udacity, pemakaian GPU K80 hanya beberapa jam. Baru sekitar 2020 menjadi mungkin untuk mengerahkan sumber daya komputasi yang tidak masuk akal besarnya demi menguji hipotesis skala. Kebangkitan model bahasa skala besar adalah kisah perkembangan GPU sama besarnya dengan kisah algoritma, dan ini menjadi bukti jelas dari pelajaran pahit tersebut
- Perlu penjelasan lebih lanjut tentang apa itu OpenAI masa kini. Google adalah perusahaan bernilai triliunan dolar dengan beragam bisnis, sedangkan OpenAI adalah perusahaan yang menjual akses ke model generatif besar
- Untuk menjadi OpenAI, Google harus jatuh cukup jauh
- Sebelum Microsoft ikut campur, di komunitas AI dulu ada semacam aturan tak tertulis: berkolaborasi secara terbuka, tetapi model tertentu tidak dibuka untuk publik
Percakapan Geoffrey Hinton dan Fei-Fei Li ini membahas cukup banyak sejarah terkait. Durasinya 1 jam 50 menit
https://www.youtube.com/watch?v=QWWgr2rN45o
https://www.youtube.com/watch?v=E14IsFbAbpI
Membahas perjalanan riset Hinton dan mengapa ia bergerak ke arah itu, hingga upaya Li di ImageNet
“Para penulisnya bukan hanya semuanya karyawan Google, tetapi juga bekerja di kantor yang sama”
Terlihat seperti promosi halus untuk kembali ke kantor. Mungkin kombinasi kolaborasi tatap muka dan waktu fokus mendalam tanpa gangguan adalah teknik terbaik untuk inovasi
- “Waktu fokus mendalam tanpa gangguan” biasanya mustahil di kantor
  Jadi secara realistis ini lebih dekat ke model campuran, dan orang-orang yang rasional memang mengatakan demikian
- Setelah bekerja jarak jauh selama 2 tahun terakhir lalu kembali ke kantor di tim baru, saat benar-benar ingin menyelesaikan pekerjaan dengan cepat, rasanya sampai mengubah hidup
- Tidak terlalu halus juga
- “Kantor” tidak harus berarti open office
  Ada alasan mengapa orang-orang akademik punya kantor pribadi berpintu. Saya sangat tidak suka open office, tetapi kantor pribadi di dalam gedung yang juga dihuni orang lain itu luar biasa
“Enam dari delapan orang lahir di luar Amerika Serikat, dan dua sisanya masing-masing adalah anak dari orang tua Jerman pemegang green card yang sedang sementara berada di California, serta warga Amerika generasi pertama dari keluarga yang melarikan diri dari persekusi”
Saya pikir ada banyak hal yang perlu diperbaiki Amerika Serikat, tetapi satu-satunya negara di bumi tempat hal seperti ini mungkin terjadi adalah Amerika Serikat. Itu fakta
- Sulit untuk melihatnya begitu. Justru Amerika Serikat membuat hidup sangat sulit bahkan bagi imigran kerja berketerampilan tinggi
  Ada banyak negara dengan proporsi penduduk kelahiran asing lebih tinggi daripada Amerika Serikat, seperti Singapura, Australia, Jerman, dan Kanada. Dulu saat bekerja di Google UK, tim saya 100% terdiri dari engineer kelahiran asing dari semua benua
- Setuju. Dari pengalaman tinggal atau bekerja di Asia, Eropa, dan Amerika Serikat, kelompok rekan kerja yang paling beragam selalu ada di Amerika Serikat
Cukup keren bahwa karyawan Google bisa melihat implementasi transformer pertama dan komentar reviewer di cs/
Begitu banyak momen monumental dalam sejarah AI tersimpan di intranet Google seperti itu
Bagian yang menonjol
“Enam dari delapan orang lahir di luar Amerika Serikat, dan dua sisanya masing-masing adalah anak dari orang tua Jerman pemegang green card yang sedang sementara berada di California, serta warga Amerika generasi pertama dari keluarga yang melarikan diri dari persekusi”
- Yang lebih menarik adalah hanya satu dari mereka yang lulus dari program sarjana elite Amerika, yaitu Duke
  Sisanya lulusan sarjana dari India, Ukraina, Jerman, dan Kanada, dan University of Toronto punya tingkat penerimaan 43%
- Saya tidak paham mengapa itu terlihat menonjol, terutama di Amerika Serikat
  Kalau itu terjadi di negara yang kurang menyambut imigran dibanding Amerika Serikat, seperti China atau Jepang, mungkin itu observasi yang menarik
- Benar. Ini salah satu sifat Amerika Serikat, khususnya California, yang memang layak dihormati
  Alasan California menjadi salah satu ekonomi terbesar di dunia adalah karena ia menarik dan menerima orang dari hampir semua wilayah dunia

Karyawan Google yang Menciptakan Transformer

Titik balik yang diciptakan oleh “Attention Is All You Need”

Awal mula ide self-attention

Bergabungnya orang-orang secara kebetulan dan terbentuknya tim “transformer”

Eksperimen pemecah rekor dan pengiriman tepat sebelum tenggat

Google, OpenAI, dan langkah kedelapan penulis setelahnya

Bacaan terkait

1 komentar

Opini Hacker News