Salah satu rekan penulis makalah "Attention Is All You Need" mengaku kini "muak" dengan transformer
(venturebeat.com)- Llion Jones, yang ikut mengembangkan arsitektur Transformers dan memberi nama tersebut, mengatakan bahwa “riset AI menjadi terlalu sempit” dan ia akan meninggalkan paradigma yang berpusat pada transformer
- Ia menyampaikan penilaian yang kritis terhadap karyanya sendiri: transformer, yang menjadi teknologi dasar bagi sistem AI utama seperti ChatGPT dan Claude, justru menghambat inovasi generasi berikutnya
- Ia memperingatkan bahwa topik yang dipilih hanya yang aman dan kreativitas menghilang, serta bahwa kondisi saat ini “lebih condong ke pemanfaatan (Exploitation) daripada eksplorasi (Exploration)”, sehingga industri AI mungkin sedang melewatkan inovasi yang lebih besar
- Ia mengkritik bahwa ketika makalah transformer lahir dulu ada lingkungan eksperimen yang bebas, tetapi sekarang bahkan gaji sangat tinggi pun tidak bisa menjamin kebebasan riset
- Di Sakana AI, ia ingin menghadirkan kembali budaya riset yang berpusat pada eksplorasi bebas, dan menegaskan bahwa “inovasi sekelas transformer berikutnya mungkin saja sudah ada tepat di sebelah kita”
Kritik diri pencipta transformer dan deklarasi baru
- Llion Jones, rekan penulis makalah 2017 "Attention Is All You Need" sekaligus orang yang secara langsung mencetuskan nama transformer, mengkritik keras masalah penyeragaman riset AI di konferensi TED AI di San Francisco
- Pernyataan langka dari penulis makalah bersejarah yang telah dikutip lebih dari 100.000 kali, yang secara terbuka mengatakan ia “benar-benar muak” dengan ciptaannya sendiri
- Saat ini ia adalah CTO dan salah satu pendiri Sakana AI yang berbasis di Tokyo
- Ia menunjukkan bahwa “riset AI terjebak dalam satu struktur” dan mengatakan sedang mengurangi waktu untuk riset transformer serta menjajaki arsitektur baru
- Ia menekankan bahwa “talenta dan dana di bidang AI lebih banyak dari sebelumnya, tetapi riset justru makin menyempit”
- Ia menjelaskan penyebab fenomena ini sebagai tekanan imbal hasil investor dan kompetisi yang terlalu panas, yang membuat para peneliti kehilangan kreativitas dan berada dalam lingkungan yang mendorong mereka untuk “terburu-buru menerbitkan makalah”
Paradoks: sumber daya bertambah, kreativitas justru berkurang
- Peneliti AI saat ini harus berasumsi bahwa 3 hingga 4 kelompok sedang mengerjakan topik yang sama secara bersamaan, dan terus-menerus memeriksa apakah tim lain sudah “lebih dulu mengambilnya”
- Di kalangan akademik, kecenderungan memilih topik yang aman untuk dipublikasikan ketimbang proyek berisiko namun inovatif semakin menguat
- Karena tekanan kompetisi, makalah diajukan dengan tergesa-gesa sehingga ketelitian ilmiah rusak dan kreativitas menurun
- Para peneliti terlalu condong ke "exploitation (pemanfaatan)" dan mengabaikan "exploration (eksplorasi)"
- Jika memakai konsep trade-off eksplorasi-pemanfaatan dalam algoritme AI, industri AI saat ini mungkin terjebak pada optimum lokal yang biasa-biasa saja akibat terlalu menekankan pemanfaatan, sehingga melewatkan alternatif yang lebih baik
- Seperti para peneliti sebelum kemunculan transformer yang terpaku pada perbaikan bertahap recurrent neural network (RNN), saat ini pun ada risiko hanya berfokus pada variasi dari satu arsitektur dan melewatkan inovasi yang sudah di depan mata
“Seandainya para peneliti di era sebelum transformer tahu bahwa inovasi berikutnya akan segera datang, mereka tidak akan membuang begitu banyak waktu”
Latar lahirnya transformer: inovasi yang lahir dari kebebasan
- Jones mengenang bahwa ketika riset transformer lahir, semuanya dimulai dalam suasana bebas tanpa tekanan dari atasan sama sekali
- Ia mengatakan, “itu adalah ide yang berawal dari diskusi saat makan siang atau coretan di whiteboard”
- Tim riset belum memiliki ide yang jelas, tetapi diberi cukup waktu dan kebebasan, serta tidak ada tekanan dari manajemen terkait proyek tertentu atau metrik hasil
- Tidak ada tuntutan menerbitkan sejumlah makalah tertentu atau tekanan untuk meningkatkan metrik
- Eksplorasi mandiri melalui eksperimen dan trial-and-error dimungkinkan
- Saat ini, bahkan peneliti yang direkrut dengan gaji tahunan lebih dari US$1 juta pun kemungkinan merasa tertekan untuk membuktikan nilai dirinya, alih-alih mencoba ide yang berani
“Mereka memilih riset yang aman untuk membuktikan bahwa mereka memang talenta yang bernilai”
Eksperimen Sakana AI: kebebasan mengalahkan kompensasi tinggi
- Di Sakana AI, Jones sedang mencoba menghadirkan kembali lingkungan riset bebas seperti sebelum era transformer
- Mengejar riset yang terinspirasi dari alam
- Tekanan minimal untuk menerbitkan makalah atau bersaing langsung dengan perusahaan lain
- Ia membagikan nasihat dari engineer Brian Cheung: "Anda hanya boleh mengerjakan riset yang tidak akan terjadi jika bukan Anda yang melakukannya"
- Sebagai contoh konkret, ia memperkenalkan proyek "continuous thought machine"
- Riset untuk mengintegrasikan mekanisme sinkronisasi otak ke dalam neural network
- Ia menyebut bahwa pengusulnya mungkin akan mendapat respons skeptis dan tekanan agar tidak membuang waktu jika berada di tempat kerja lama atau di akademia
- Di Sakana, mereka memberi waktu eksplorasi selama seminggu, dan hasilnya berkembang menjadi kisah sukses yang menarik perhatian di konferensi utama NeurIPS
- Ia berpendapat bahwa lingkungan yang eksploratif itu sendiri dapat menjadi alat yang sangat kuat untuk merekrut talenta
- Orang-orang yang berbakat dan ambisius secara alami akan mencari lingkungan seperti itu
Paradoks keberhasilan transformer: tingkat kematangan yang menghambat inovasi
- Ia mengatakan keberhasilan transformer “justru menghalangi inovasi baru karena terlalu kuat”
- Ia menganalisis bahwa “semakin sempurna teknologi saat ini, semakin hilang dorongan untuk mencari sesuatu yang lebih baik”
- Namun, ia tidak menolak riset transformer itu sendiri dan menambahkan bahwa “masih mungkin menciptakan nilai yang nyata”
- Meski begitu, ia menegaskan bahwa “jika melihat besarnya sumber daya dan talenta saat ini, kita seharusnya bisa melakukan eksplorasi yang jauh lebih luas”
- Kesimpulannya adalah pentingnya kolaborasi dan eksplorasi terbuka
- “Kita harus menaikkan dial eksplorasi lewat kolaborasi, bukan kompetisi. Hanya dengan begitu kemajuan sejati bisa terjadi”
Implikasi dari ‘masalah eksplorasi’ di industri AI
- Peringatan Jones memiliki gaung besar pada saat sekarang, ketika batas penskalaan AI dan kebutuhan untuk menjajaki arsitektur baru sedang dibahas luas
- Di industri, sudah menyebar pandangan bahwa hanya dengan memperbesar transformer kita mulai mendekati batasnya
- Para peneliti utama mulai secara terbuka membahas batas mendasar dari paradigma saat ini
- Muncul kesadaran bahwa bukan hanya skala, tetapi juga inovasi arsitektur yang dibutuhkan untuk membangun sistem AI yang lebih maju
- Dengan puluhan miliar dolar per tahun diinvestasikan ke pengembangan AI dan persaingan sengit antar-lab yang memperkuat budaya tertutup serta siklus publikasi yang cepat, riset eksploratif yang bebas seperti yang digambarkan Jones makin jarang ditemui
- Sudut pandang orang dalam dari Jones memiliki bobot khusus karena
- Sebagai orang yang langsung menciptakan teknologi yang kini mendominasi bidang ini, ia sangat memahami syarat yang diperlukan untuk penemuan inovatif
- Keputusannya untuk mundur dari transformer yang telah membesarkan namanya memberi kredibilitas pada pesannya
- Ini adalah persimpangan penting: inovasi sekelas transformer generasi berikutnya bisa saja ditemukan oleh peneliti yang memiliki kebebasan untuk bereksplorasi, atau tetap tidak tergarap sementara ribuan peneliti berlomba pada perbaikan bertahap
- Pada akhirnya, Jones, sebagai salah satu orang yang paling lama meneliti transformer, memahami lebih baik daripada siapa pun bahwa sekaranglah saatnya melangkah ke tahap berikutnya
“Terobosan sekelas transformer mungkin sebenarnya sudah ada di dekat kita, tetapi tertutup oleh kompetisi”
1 komentar
Opini Hacker News
Menurut saya, transformer adalah salah satu penemuan paling produktif dalam sejarah modern
Dalam 8 tahun sejak pertama kali muncul pada 2017, ia telah sepenuhnya mengubah banyak bidang, bahkan ikut berkontribusi pada perolehan Nobel
Saya rasa ide yang secara esensial penting adalah probabilistic graphical model. Pendekatan yang menggabungkan probabilitas dengan urutan, pohon, dan graf akan tetap sangat layak diteliti ke depan
transformer sudah merupakan universal approximator yang sangat bagus. Mungkin ada sedikit perbaikan, tetapi secara realistis sulit mencari sesuatu yang lebih “universal”
Justru menurut saya kita perlu memikirkan ulang auto-regressive task, cross entropy loss, dan gradient descent itu sendiri
Di bidang saya juga ada dampaknya, tapi terus terang dampaknya hampir seluruhnya negatif
Tapi sejauh ini belum terlihat tanda-tandanya. Meski begitu, masih ada harapan
Belum saya susun menjadi paper, tetapi saya melihat gerakan yang mengarah ke ide ini di berbagai tempat
Andai saja ada lebih banyak waktu dalam sehari
Jones, salah satu pendiri sekaligus CTO Sakana AI, berkata bahwa ia mulai meninggalkan transformer dan sedang mencari “hal besar berikutnya”, tapi terus terang terdengar seperti promosi untuk menarik investasi
Kalau bercanda, saya kira singularity akan datang pada 2024, tapi rasanya terhenti karena jeda waktu antara “monetisasi” dan “self-improvement”
Sepertinya kita akan bertahan 20 tahun lagi memeras semua uang yang bisa diambil dari model transformer
Karena ini tidak khusus untuk transformer, justru akan muncul insentif untuk mencari arsitektur baru yang bisa memanfaatkan infrastruktur ini semaksimal mungkin
Hanya saja tidak cukup cepat untuk bisa disadari manusia
Bagi kebanyakan orang, “AI” pada akhirnya adalah produk software yang terlihat jelas
Tetapi model inti di dalamnya hanya sebagian kecil, sisanya adalah proses penyempurnaan lewat human feedback oleh ribuan pekerja bergaji rendah
Dalam praktiknya, pengembangan produk 90% dan riset ML hanya 10%
Sebagian besar paper hanyalah riset untuk karier demi meraih gelar PhD, dan riset yang benar-benar eksperimental hanya sedikit
transformer dirancang agar sangat cocok dengan GPU, sehingga untuk membuat model baru, kita bahkan harus meyakinkan produsen hardware juga
Pada akhirnya dibutuhkan evolusi hardware dan software secara bersamaan
Perubahan mendasar akan terjadi dalam skala puluhan tahun
Algoritme yang bisa diparalelkan secara inheren lebih unggul, sehingga GPU berkembang menyesuaikan itu
RNN bersifat sekuensial sehingga sulit diparalelkan, sedangkan transformer menghilangkan bottleneck itu
Rasanya riset non-transformer juga masih tetap aktif
Hanya saja kurang terlihat karena uang mengalir ke CRM bergaya chatbot
Saya tidak berpikir arsitektur baru adalah jawabannya. Justru yang penting adalah cara meningkatkan efisiensi data
Ilya Sutskever juga menekankan “cara belajar yang tetap baik meski tanpa seluruh internet”
Jika ingin belajar seperti manusia, caranya harus berbeda dari sekadar menelan data internet
Jumlah penelitinya memang bertambah, tetapi proporsi riset non-transformer mungkin justru menurun
Ada yang bercanda bahwa em dash (—) di bagian akhir terlalu banyak, jadi tulisan ini terasa seperti ditulis transformer
transformer telah menyedot semua perhatian dan pendanaan
Para peneliti juga sudah terserap ke dalam industri transformer
Sepertinya kondisi ini akan terus berlanjut sampai menabrak keterbatasan besar
Saya berharap konsumsi energi menjadi batas nyata yang mengubah arah riset
xAI mengatasi listrik dengan memasang gas turbine di sekitar data center, tetapi ini menimbulkan masalah kesehatan bagi warga sekitar
Saya rasa cara seperti ini akan segera diregulasi
Orang-orang cenderung terlalu terobsesi dengan inovasi arsitektur model baru
Model pada akhirnya hanyalah alat untuk membuat representasi kompresi data
Meski kompresinya dibuat lebih efisien, kemampuannya tidak akan banyak berubah
Yang lebih penting justru meningkatkan efisiensi pelatihan. Reinforcement learning (RL) belakangan ini adalah contohnya
Menjelajahi struktur baru bukan obsesi berlebihan, melainkan upaya menjaga keseimbangan antara eksplorasi dan eksploitasi
Saya rasa struktur industri yang berpusat pada transformer mungkin terbentuk karena kemudahan komputasi GPU/NPU
Bisa jadi ada teknologi AI yang lebih baik, tetapi dengan hardware yang ada sekarang biaya komputasinya terlalu besar
Otak kita tidak memakai 500 watt, dan mungkin itu sebuah petunjuk