Salah satu rekan penulis makalah "Attention Is All You Need" mengaku kini "muak" dengan transformer

(venturebeat.com)

11 poin oleh GN⁺ 2025-10-25 | 1 komentar | Bagikan ke WhatsApp

Llion Jones, yang ikut mengembangkan arsitektur Transformers dan memberi nama tersebut, mengatakan bahwa “riset AI menjadi terlalu sempit” dan ia akan meninggalkan paradigma yang berpusat pada transformer
Ia menyampaikan penilaian yang kritis terhadap karyanya sendiri: transformer, yang menjadi teknologi dasar bagi sistem AI utama seperti ChatGPT dan Claude, justru menghambat inovasi generasi berikutnya
Ia memperingatkan bahwa topik yang dipilih hanya yang aman dan kreativitas menghilang, serta bahwa kondisi saat ini “lebih condong ke pemanfaatan (Exploitation) daripada eksplorasi (Exploration)”, sehingga industri AI mungkin sedang melewatkan inovasi yang lebih besar
Ia mengkritik bahwa ketika makalah transformer lahir dulu ada lingkungan eksperimen yang bebas, tetapi sekarang bahkan gaji sangat tinggi pun tidak bisa menjamin kebebasan riset
Di Sakana AI, ia ingin menghadirkan kembali budaya riset yang berpusat pada eksplorasi bebas, dan menegaskan bahwa “inovasi sekelas transformer berikutnya mungkin saja sudah ada tepat di sebelah kita”

Kritik diri pencipta transformer dan deklarasi baru

Llion Jones, rekan penulis makalah 2017 "Attention Is All You Need" sekaligus orang yang secara langsung mencetuskan nama transformer, mengkritik keras masalah penyeragaman riset AI di konferensi TED AI di San Francisco
Pernyataan langka dari penulis makalah bersejarah yang telah dikutip lebih dari 100.000 kali, yang secara terbuka mengatakan ia “benar-benar muak” dengan ciptaannya sendiri
Saat ini ia adalah CTO dan salah satu pendiri Sakana AI yang berbasis di Tokyo
- Ia menunjukkan bahwa “riset AI terjebak dalam satu struktur” dan mengatakan sedang mengurangi waktu untuk riset transformer serta menjajaki arsitektur baru
- Ia menekankan bahwa “talenta dan dana di bidang AI lebih banyak dari sebelumnya, tetapi riset justru makin menyempit”
- Ia menjelaskan penyebab fenomena ini sebagai tekanan imbal hasil investor dan kompetisi yang terlalu panas, yang membuat para peneliti kehilangan kreativitas dan berada dalam lingkungan yang mendorong mereka untuk “terburu-buru menerbitkan makalah”

Paradoks: sumber daya bertambah, kreativitas justru berkurang

Peneliti AI saat ini harus berasumsi bahwa 3 hingga 4 kelompok sedang mengerjakan topik yang sama secara bersamaan, dan terus-menerus memeriksa apakah tim lain sudah “lebih dulu mengambilnya”
Di kalangan akademik, kecenderungan memilih topik yang aman untuk dipublikasikan ketimbang proyek berisiko namun inovatif semakin menguat
- Karena tekanan kompetisi, makalah diajukan dengan tergesa-gesa sehingga ketelitian ilmiah rusak dan kreativitas menurun
- Para peneliti terlalu condong ke "exploitation (pemanfaatan)" dan mengabaikan "exploration (eksplorasi)"
Jika memakai konsep trade-off eksplorasi-pemanfaatan dalam algoritme AI, industri AI saat ini mungkin terjebak pada optimum lokal yang biasa-biasa saja akibat terlalu menekankan pemanfaatan, sehingga melewatkan alternatif yang lebih baik
Seperti para peneliti sebelum kemunculan transformer yang terpaku pada perbaikan bertahap recurrent neural network (RNN), saat ini pun ada risiko hanya berfokus pada variasi dari satu arsitektur dan melewatkan inovasi yang sudah di depan mata

“Seandainya para peneliti di era sebelum transformer tahu bahwa inovasi berikutnya akan segera datang, mereka tidak akan membuang begitu banyak waktu”

Latar lahirnya transformer: inovasi yang lahir dari kebebasan

Jones mengenang bahwa ketika riset transformer lahir, semuanya dimulai dalam suasana bebas tanpa tekanan dari atasan sama sekali
- Ia mengatakan, “itu adalah ide yang berawal dari diskusi saat makan siang atau coretan di whiteboard”
Tim riset belum memiliki ide yang jelas, tetapi diberi cukup waktu dan kebebasan, serta tidak ada tekanan dari manajemen terkait proyek tertentu atau metrik hasil
- Tidak ada tuntutan menerbitkan sejumlah makalah tertentu atau tekanan untuk meningkatkan metrik
- Eksplorasi mandiri melalui eksperimen dan trial-and-error dimungkinkan
Saat ini, bahkan peneliti yang direkrut dengan gaji tahunan lebih dari US$1 juta pun kemungkinan merasa tertekan untuk membuktikan nilai dirinya, alih-alih mencoba ide yang berani

“Mereka memilih riset yang aman untuk membuktikan bahwa mereka memang talenta yang bernilai”

Eksperimen Sakana AI: kebebasan mengalahkan kompensasi tinggi

Di Sakana AI, Jones sedang mencoba menghadirkan kembali lingkungan riset bebas seperti sebelum era transformer
- Mengejar riset yang terinspirasi dari alam
- Tekanan minimal untuk menerbitkan makalah atau bersaing langsung dengan perusahaan lain
Ia membagikan nasihat dari engineer Brian Cheung: "Anda hanya boleh mengerjakan riset yang tidak akan terjadi jika bukan Anda yang melakukannya"
Sebagai contoh konkret, ia memperkenalkan proyek "continuous thought machine"
- Riset untuk mengintegrasikan mekanisme sinkronisasi otak ke dalam neural network
- Ia menyebut bahwa pengusulnya mungkin akan mendapat respons skeptis dan tekanan agar tidak membuang waktu jika berada di tempat kerja lama atau di akademia
- Di Sakana, mereka memberi waktu eksplorasi selama seminggu, dan hasilnya berkembang menjadi kisah sukses yang menarik perhatian di konferensi utama NeurIPS
Ia berpendapat bahwa lingkungan yang eksploratif itu sendiri dapat menjadi alat yang sangat kuat untuk merekrut talenta
- Orang-orang yang berbakat dan ambisius secara alami akan mencari lingkungan seperti itu

Paradoks keberhasilan transformer: tingkat kematangan yang menghambat inovasi

Ia mengatakan keberhasilan transformer “justru menghalangi inovasi baru karena terlalu kuat”
Ia menganalisis bahwa “semakin sempurna teknologi saat ini, semakin hilang dorongan untuk mencari sesuatu yang lebih baik”
Namun, ia tidak menolak riset transformer itu sendiri dan menambahkan bahwa “masih mungkin menciptakan nilai yang nyata”
Meski begitu, ia menegaskan bahwa “jika melihat besarnya sumber daya dan talenta saat ini, kita seharusnya bisa melakukan eksplorasi yang jauh lebih luas”
Kesimpulannya adalah pentingnya kolaborasi dan eksplorasi terbuka
- “Kita harus menaikkan dial eksplorasi lewat kolaborasi, bukan kompetisi. Hanya dengan begitu kemajuan sejati bisa terjadi”

Implikasi dari ‘masalah eksplorasi’ di industri AI

Peringatan Jones memiliki gaung besar pada saat sekarang, ketika batas penskalaan AI dan kebutuhan untuk menjajaki arsitektur baru sedang dibahas luas
Di industri, sudah menyebar pandangan bahwa hanya dengan memperbesar transformer kita mulai mendekati batasnya
Para peneliti utama mulai secara terbuka membahas batas mendasar dari paradigma saat ini
- Muncul kesadaran bahwa bukan hanya skala, tetapi juga inovasi arsitektur yang dibutuhkan untuk membangun sistem AI yang lebih maju
Dengan puluhan miliar dolar per tahun diinvestasikan ke pengembangan AI dan persaingan sengit antar-lab yang memperkuat budaya tertutup serta siklus publikasi yang cepat, riset eksploratif yang bebas seperti yang digambarkan Jones makin jarang ditemui
Sudut pandang orang dalam dari Jones memiliki bobot khusus karena
- Sebagai orang yang langsung menciptakan teknologi yang kini mendominasi bidang ini, ia sangat memahami syarat yang diperlukan untuk penemuan inovatif
- Keputusannya untuk mundur dari transformer yang telah membesarkan namanya memberi kredibilitas pada pesannya
Ini adalah persimpangan penting: inovasi sekelas transformer generasi berikutnya bisa saja ditemukan oleh peneliti yang memiliki kebebasan untuk bereksplorasi, atau tetap tidak tergarap sementara ribuan peneliti berlomba pada perbaikan bertahap
Pada akhirnya, Jones, sebagai salah satu orang yang paling lama meneliti transformer, memahami lebih baik daripada siapa pun bahwa sekaranglah saatnya melangkah ke tahap berikutnya

“Terobosan sekelas transformer mungkin sebenarnya sudah ada di dekat kita, tetapi tertutup oleh kompetisi”

1 komentar

GN⁺ 2025-10-25

Opini Hacker News

Menurut saya, transformer adalah salah satu penemuan paling produktif dalam sejarah modern
Dalam 8 tahun sejak pertama kali muncul pada 2017, ia telah sepenuhnya mengubah banyak bidang, bahkan ikut berkontribusi pada perolehan Nobel
Saya rasa ide yang secara esensial penting adalah probabilistic graphical model. Pendekatan yang menggabungkan probabilitas dengan urutan, pohon, dan graf akan tetap sangat layak diteliti ke depan
- Sejujurnya, saya tidak berpikir akan ada terobosan besar dari arsitekturnya sendiri
  transformer sudah merupakan universal approximator yang sangat bagus. Mungkin ada sedikit perbaikan, tetapi secara realistis sulit mencari sesuatu yang lebih “universal”
  Justru menurut saya kita perlu memikirkan ulang auto-regressive task, cross entropy loss, dan gradient descent itu sendiri
- Saya penasaran bidang mana saja yang benar-benar berubah total
  Di bidang saya juga ada dampaknya, tapi terus terang dampaknya hampir seluruhnya negatif
- Sebagai orang yang dulu banyak memakai probabilistic graphical model, saya berharap pengalaman saya kembali berguna di era transformer
  Tapi sejauh ini belum terlihat tanda-tandanya. Meski begitu, masih ada harapan
- Saya juga secara pribadi punya rancangan model hipergraph probabilistik
  Belum saya susun menjadi paper, tetapi saya melihat gerakan yang mengarah ke ide ini di berbagai tempat
  Andai saja ada lebih banyak waktu dalam sehari
- Setuju. Saya pikir causal inference dan symbolic reasoning adalah tantangan nyata setelah transformer
Jones, salah satu pendiri sekaligus CTO Sakana AI, berkata bahwa ia mulai meninggalkan transformer dan sedang mencari “hal besar berikutnya”, tapi terus terang terdengar seperti promosi untuk menarik investasi
- Kalimat “Attention is all he needs” sangat pas di sini
- Meski begitu, kalau ingin mengerjakan sesuatu yang baru ya tetap butuh dana, jadi keduanya bisa sama-sama benar
- Kalau ilmuwan, memang wajar selalu mencari sesuatu yang baru dan kreatif
- Bagaimanapun juga, ucapannya memang berhasil menarik attention kita
- Tapi saya penasaran, sebenarnya apa yang sedang mereka coba jual sekarang
Kalau bercanda, saya kira singularity akan datang pada 2024, tapi rasanya terhenti karena jeda waktu antara “monetisasi” dan “self-improvement”
Sepertinya kita akan bertahan 20 tahun lagi memeras semua uang yang bisa diambil dari model transformer
- Sekarang infrastruktur hardware dan energi sedang berkembang sangat besar
  Karena ini tidak khusus untuk transformer, justru akan muncul insentif untuk mencari arsitektur baru yang bisa memanfaatkan infrastruktur ini semaksimal mungkin
- Mungkin recursive self-improvement sebenarnya sudah berlangsung
  Hanya saja tidak cukup cepat untuk bisa disadari manusia
Bagi kebanyakan orang, “AI” pada akhirnya adalah produk software yang terlihat jelas
Tetapi model inti di dalamnya hanya sebagian kecil, sisanya adalah proses penyempurnaan lewat human feedback oleh ribuan pekerja bergaji rendah
Dalam praktiknya, pengembangan produk 90% dan riset ML hanya 10%
Sebagian besar paper hanyalah riset untuk karier demi meraih gelar PhD, dan riset yang benar-benar eksperimental hanya sedikit
transformer dirancang agar sangat cocok dengan GPU, sehingga untuk membuat model baru, kita bahkan harus meyakinkan produsen hardware juga
Pada akhirnya dibutuhkan evolusi hardware dan software secara bersamaan
Perubahan mendasar akan terjadi dalam skala puluhan tahun
- Tapi ini membalik cara melihatnya
  Algoritme yang bisa diparalelkan secara inheren lebih unggul, sehingga GPU berkembang menyesuaikan itu
  RNN bersifat sekuensial sehingga sulit diparalelkan, sedangkan transformer menghilangkan bottleneck itu
Rasanya riset non-transformer juga masih tetap aktif
Hanya saja kurang terlihat karena uang mengalir ke CRM bergaya chatbot
Saya tidak berpikir arsitektur baru adalah jawabannya. Justru yang penting adalah cara meningkatkan efisiensi data
Ilya Sutskever juga menekankan “cara belajar yang tetap baik meski tanpa seluruh internet”
- Yang dikatakan artikel itu bukan “arsitektur baru adalah jawaban”, melainkan bahwa keseimbangan antara eksplorasi dan eksploitasi telah rusak
- Pembahasan tentang arsitektur baru sebenarnya adalah pembicaraan untuk AGI
  Jika ingin belajar seperti manusia, caranya harus berbeda dari sekadar menelan data internet
- Sebagian besar peneliti sebelum 2017 sekarang terfokus pada transformer
  Jumlah penelitinya memang bertambah, tetapi proporsi riset non-transformer mungkin justru menurun
Ada yang bercanda bahwa em dash (—) di bagian akhir terlalu banyak, jadi tulisan ini terasa seperti ditulis transformer
- Mungkin tren AI berikutnya adalah “disrupters”
transformer telah menyedot semua perhatian dan pendanaan
Para peneliti juga sudah terserap ke dalam industri transformer
Sepertinya kondisi ini akan terus berlanjut sampai menabrak keterbatasan besar
Saya berharap konsumsi energi menjadi batas nyata yang mengubah arah riset
- Memang energi bisa segera menjadi bottleneck
  xAI mengatasi listrik dengan memasang gas turbine di sekitar data center, tetapi ini menimbulkan masalah kesehatan bagi warga sekitar
  Saya rasa cara seperti ini akan segera diregulasi
Orang-orang cenderung terlalu terobsesi dengan inovasi arsitektur model baru
Model pada akhirnya hanyalah alat untuk membuat representasi kompresi data
Meski kompresinya dibuat lebih efisien, kemampuannya tidak akan banyak berubah
Yang lebih penting justru meningkatkan efisiensi pelatihan. Reinforcement learning (RL) belakangan ini adalah contohnya
- Tetapi efisiensi pelatihan pada akhirnya tetap terkait dengan arsitektur
  Menjelajahi struktur baru bukan obsesi berlebihan, melainkan upaya menjaga keseimbangan antara eksplorasi dan eksploitasi
Saya rasa struktur industri yang berpusat pada transformer mungkin terbentuk karena kemudahan komputasi GPU/NPU
Bisa jadi ada teknologi AI yang lebih baik, tetapi dengan hardware yang ada sekarang biaya komputasinya terlalu besar
Otak kita tidak memakai 500 watt, dan mungkin itu sebuah petunjuk

Salah satu rekan penulis makalah "Attention Is All You Need" mengaku kini "muak" dengan transformer

Kritik diri pencipta transformer dan deklarasi baru

Paradoks: sumber daya bertambah, kreativitas justru berkurang

Latar lahirnya transformer: inovasi yang lahir dari kebebasan

Eksperimen Sakana AI: kebebasan mengalahkan kompensasi tinggi

Paradoks keberhasilan transformer: tingkat kematangan yang menghambat inovasi

Implikasi dari ‘masalah eksplorasi’ di industri AI

Bacaan terkait

1 komentar

Opini Hacker News