11 poin oleh GN⁺ 2025-10-25 | 1 komentar | Bagikan ke WhatsApp
  • Llion Jones, yang ikut mengembangkan arsitektur Transformers dan memberi nama tersebut, mengatakan bahwa “riset AI menjadi terlalu sempit” dan ia akan meninggalkan paradigma yang berpusat pada transformer
  • Ia menyampaikan penilaian yang kritis terhadap karyanya sendiri: transformer, yang menjadi teknologi dasar bagi sistem AI utama seperti ChatGPT dan Claude, justru menghambat inovasi generasi berikutnya
  • Ia memperingatkan bahwa topik yang dipilih hanya yang aman dan kreativitas menghilang, serta bahwa kondisi saat ini “lebih condong ke pemanfaatan (Exploitation) daripada eksplorasi (Exploration)”, sehingga industri AI mungkin sedang melewatkan inovasi yang lebih besar
  • Ia mengkritik bahwa ketika makalah transformer lahir dulu ada lingkungan eksperimen yang bebas, tetapi sekarang bahkan gaji sangat tinggi pun tidak bisa menjamin kebebasan riset
  • Di Sakana AI, ia ingin menghadirkan kembali budaya riset yang berpusat pada eksplorasi bebas, dan menegaskan bahwa “inovasi sekelas transformer berikutnya mungkin saja sudah ada tepat di sebelah kita”

Kritik diri pencipta transformer dan deklarasi baru

  • Llion Jones, rekan penulis makalah 2017 "Attention Is All You Need" sekaligus orang yang secara langsung mencetuskan nama transformer, mengkritik keras masalah penyeragaman riset AI di konferensi TED AI di San Francisco
  • Pernyataan langka dari penulis makalah bersejarah yang telah dikutip lebih dari 100.000 kali, yang secara terbuka mengatakan ia “benar-benar muak” dengan ciptaannya sendiri
  • Saat ini ia adalah CTO dan salah satu pendiri Sakana AI yang berbasis di Tokyo
    • Ia menunjukkan bahwa “riset AI terjebak dalam satu struktur” dan mengatakan sedang mengurangi waktu untuk riset transformer serta menjajaki arsitektur baru
    • Ia menekankan bahwa “talenta dan dana di bidang AI lebih banyak dari sebelumnya, tetapi riset justru makin menyempit”
    • Ia menjelaskan penyebab fenomena ini sebagai tekanan imbal hasil investor dan kompetisi yang terlalu panas, yang membuat para peneliti kehilangan kreativitas dan berada dalam lingkungan yang mendorong mereka untuk “terburu-buru menerbitkan makalah”

Paradoks: sumber daya bertambah, kreativitas justru berkurang

  • Peneliti AI saat ini harus berasumsi bahwa 3 hingga 4 kelompok sedang mengerjakan topik yang sama secara bersamaan, dan terus-menerus memeriksa apakah tim lain sudah “lebih dulu mengambilnya”
  • Di kalangan akademik, kecenderungan memilih topik yang aman untuk dipublikasikan ketimbang proyek berisiko namun inovatif semakin menguat
    • Karena tekanan kompetisi, makalah diajukan dengan tergesa-gesa sehingga ketelitian ilmiah rusak dan kreativitas menurun
    • Para peneliti terlalu condong ke "exploitation (pemanfaatan)" dan mengabaikan "exploration (eksplorasi)"
  • Jika memakai konsep trade-off eksplorasi-pemanfaatan dalam algoritme AI, industri AI saat ini mungkin terjebak pada optimum lokal yang biasa-biasa saja akibat terlalu menekankan pemanfaatan, sehingga melewatkan alternatif yang lebih baik
  • Seperti para peneliti sebelum kemunculan transformer yang terpaku pada perbaikan bertahap recurrent neural network (RNN), saat ini pun ada risiko hanya berfokus pada variasi dari satu arsitektur dan melewatkan inovasi yang sudah di depan mata

“Seandainya para peneliti di era sebelum transformer tahu bahwa inovasi berikutnya akan segera datang, mereka tidak akan membuang begitu banyak waktu”

Latar lahirnya transformer: inovasi yang lahir dari kebebasan

  • Jones mengenang bahwa ketika riset transformer lahir, semuanya dimulai dalam suasana bebas tanpa tekanan dari atasan sama sekali
    • Ia mengatakan, “itu adalah ide yang berawal dari diskusi saat makan siang atau coretan di whiteboard”
  • Tim riset belum memiliki ide yang jelas, tetapi diberi cukup waktu dan kebebasan, serta tidak ada tekanan dari manajemen terkait proyek tertentu atau metrik hasil
    • Tidak ada tuntutan menerbitkan sejumlah makalah tertentu atau tekanan untuk meningkatkan metrik
    • Eksplorasi mandiri melalui eksperimen dan trial-and-error dimungkinkan
  • Saat ini, bahkan peneliti yang direkrut dengan gaji tahunan lebih dari US$1 juta pun kemungkinan merasa tertekan untuk membuktikan nilai dirinya, alih-alih mencoba ide yang berani

“Mereka memilih riset yang aman untuk membuktikan bahwa mereka memang talenta yang bernilai”

Eksperimen Sakana AI: kebebasan mengalahkan kompensasi tinggi

  • Di Sakana AI, Jones sedang mencoba menghadirkan kembali lingkungan riset bebas seperti sebelum era transformer
    • Mengejar riset yang terinspirasi dari alam
    • Tekanan minimal untuk menerbitkan makalah atau bersaing langsung dengan perusahaan lain
  • Ia membagikan nasihat dari engineer Brian Cheung: "Anda hanya boleh mengerjakan riset yang tidak akan terjadi jika bukan Anda yang melakukannya"
  • Sebagai contoh konkret, ia memperkenalkan proyek "continuous thought machine"
    • Riset untuk mengintegrasikan mekanisme sinkronisasi otak ke dalam neural network
    • Ia menyebut bahwa pengusulnya mungkin akan mendapat respons skeptis dan tekanan agar tidak membuang waktu jika berada di tempat kerja lama atau di akademia
    • Di Sakana, mereka memberi waktu eksplorasi selama seminggu, dan hasilnya berkembang menjadi kisah sukses yang menarik perhatian di konferensi utama NeurIPS
  • Ia berpendapat bahwa lingkungan yang eksploratif itu sendiri dapat menjadi alat yang sangat kuat untuk merekrut talenta
    • Orang-orang yang berbakat dan ambisius secara alami akan mencari lingkungan seperti itu

Paradoks keberhasilan transformer: tingkat kematangan yang menghambat inovasi

  • Ia mengatakan keberhasilan transformer “justru menghalangi inovasi baru karena terlalu kuat
  • Ia menganalisis bahwa “semakin sempurna teknologi saat ini, semakin hilang dorongan untuk mencari sesuatu yang lebih baik”
  • Namun, ia tidak menolak riset transformer itu sendiri dan menambahkan bahwa “masih mungkin menciptakan nilai yang nyata”
  • Meski begitu, ia menegaskan bahwa “jika melihat besarnya sumber daya dan talenta saat ini, kita seharusnya bisa melakukan eksplorasi yang jauh lebih luas”
  • Kesimpulannya adalah pentingnya kolaborasi dan eksplorasi terbuka
    • “Kita harus menaikkan dial eksplorasi lewat kolaborasi, bukan kompetisi. Hanya dengan begitu kemajuan sejati bisa terjadi”

Implikasi dari ‘masalah eksplorasi’ di industri AI

  • Peringatan Jones memiliki gaung besar pada saat sekarang, ketika batas penskalaan AI dan kebutuhan untuk menjajaki arsitektur baru sedang dibahas luas
  • Di industri, sudah menyebar pandangan bahwa hanya dengan memperbesar transformer kita mulai mendekati batasnya
  • Para peneliti utama mulai secara terbuka membahas batas mendasar dari paradigma saat ini
    • Muncul kesadaran bahwa bukan hanya skala, tetapi juga inovasi arsitektur yang dibutuhkan untuk membangun sistem AI yang lebih maju
  • Dengan puluhan miliar dolar per tahun diinvestasikan ke pengembangan AI dan persaingan sengit antar-lab yang memperkuat budaya tertutup serta siklus publikasi yang cepat, riset eksploratif yang bebas seperti yang digambarkan Jones makin jarang ditemui
  • Sudut pandang orang dalam dari Jones memiliki bobot khusus karena
    • Sebagai orang yang langsung menciptakan teknologi yang kini mendominasi bidang ini, ia sangat memahami syarat yang diperlukan untuk penemuan inovatif
    • Keputusannya untuk mundur dari transformer yang telah membesarkan namanya memberi kredibilitas pada pesannya
  • Ini adalah persimpangan penting: inovasi sekelas transformer generasi berikutnya bisa saja ditemukan oleh peneliti yang memiliki kebebasan untuk bereksplorasi, atau tetap tidak tergarap sementara ribuan peneliti berlomba pada perbaikan bertahap
  • Pada akhirnya, Jones, sebagai salah satu orang yang paling lama meneliti transformer, memahami lebih baik daripada siapa pun bahwa sekaranglah saatnya melangkah ke tahap berikutnya

“Terobosan sekelas transformer mungkin sebenarnya sudah ada di dekat kita, tetapi tertutup oleh kompetisi”

1 komentar

 
GN⁺ 2025-10-25
Opini Hacker News
  • Menurut saya, transformer adalah salah satu penemuan paling produktif dalam sejarah modern
    Dalam 8 tahun sejak pertama kali muncul pada 2017, ia telah sepenuhnya mengubah banyak bidang, bahkan ikut berkontribusi pada perolehan Nobel
    Saya rasa ide yang secara esensial penting adalah probabilistic graphical model. Pendekatan yang menggabungkan probabilitas dengan urutan, pohon, dan graf akan tetap sangat layak diteliti ke depan

    • Sejujurnya, saya tidak berpikir akan ada terobosan besar dari arsitekturnya sendiri
      transformer sudah merupakan universal approximator yang sangat bagus. Mungkin ada sedikit perbaikan, tetapi secara realistis sulit mencari sesuatu yang lebih “universal”
      Justru menurut saya kita perlu memikirkan ulang auto-regressive task, cross entropy loss, dan gradient descent itu sendiri
    • Saya penasaran bidang mana saja yang benar-benar berubah total
      Di bidang saya juga ada dampaknya, tapi terus terang dampaknya hampir seluruhnya negatif
    • Sebagai orang yang dulu banyak memakai probabilistic graphical model, saya berharap pengalaman saya kembali berguna di era transformer
      Tapi sejauh ini belum terlihat tanda-tandanya. Meski begitu, masih ada harapan
    • Saya juga secara pribadi punya rancangan model hipergraph probabilistik
      Belum saya susun menjadi paper, tetapi saya melihat gerakan yang mengarah ke ide ini di berbagai tempat
      Andai saja ada lebih banyak waktu dalam sehari
    • Setuju. Saya pikir causal inference dan symbolic reasoning adalah tantangan nyata setelah transformer
  • Jones, salah satu pendiri sekaligus CTO Sakana AI, berkata bahwa ia mulai meninggalkan transformer dan sedang mencari “hal besar berikutnya”, tapi terus terang terdengar seperti promosi untuk menarik investasi

    • Kalimat “Attention is all he needs” sangat pas di sini
    • Meski begitu, kalau ingin mengerjakan sesuatu yang baru ya tetap butuh dana, jadi keduanya bisa sama-sama benar
    • Kalau ilmuwan, memang wajar selalu mencari sesuatu yang baru dan kreatif
    • Bagaimanapun juga, ucapannya memang berhasil menarik attention kita
    • Tapi saya penasaran, sebenarnya apa yang sedang mereka coba jual sekarang
  • Kalau bercanda, saya kira singularity akan datang pada 2024, tapi rasanya terhenti karena jeda waktu antara “monetisasi” dan “self-improvement”
    Sepertinya kita akan bertahan 20 tahun lagi memeras semua uang yang bisa diambil dari model transformer

    • Sekarang infrastruktur hardware dan energi sedang berkembang sangat besar
      Karena ini tidak khusus untuk transformer, justru akan muncul insentif untuk mencari arsitektur baru yang bisa memanfaatkan infrastruktur ini semaksimal mungkin
    • Mungkin recursive self-improvement sebenarnya sudah berlangsung
      Hanya saja tidak cukup cepat untuk bisa disadari manusia
  • Bagi kebanyakan orang, “AI” pada akhirnya adalah produk software yang terlihat jelas
    Tetapi model inti di dalamnya hanya sebagian kecil, sisanya adalah proses penyempurnaan lewat human feedback oleh ribuan pekerja bergaji rendah
    Dalam praktiknya, pengembangan produk 90% dan riset ML hanya 10%
    Sebagian besar paper hanyalah riset untuk karier demi meraih gelar PhD, dan riset yang benar-benar eksperimental hanya sedikit

  • transformer dirancang agar sangat cocok dengan GPU, sehingga untuk membuat model baru, kita bahkan harus meyakinkan produsen hardware juga
    Pada akhirnya dibutuhkan evolusi hardware dan software secara bersamaan
    Perubahan mendasar akan terjadi dalam skala puluhan tahun

    • Tapi ini membalik cara melihatnya
      Algoritme yang bisa diparalelkan secara inheren lebih unggul, sehingga GPU berkembang menyesuaikan itu
      RNN bersifat sekuensial sehingga sulit diparalelkan, sedangkan transformer menghilangkan bottleneck itu
  • Rasanya riset non-transformer juga masih tetap aktif
    Hanya saja kurang terlihat karena uang mengalir ke CRM bergaya chatbot
    Saya tidak berpikir arsitektur baru adalah jawabannya. Justru yang penting adalah cara meningkatkan efisiensi data
    Ilya Sutskever juga menekankan “cara belajar yang tetap baik meski tanpa seluruh internet”

    • Yang dikatakan artikel itu bukan “arsitektur baru adalah jawaban”, melainkan bahwa keseimbangan antara eksplorasi dan eksploitasi telah rusak
    • Pembahasan tentang arsitektur baru sebenarnya adalah pembicaraan untuk AGI
      Jika ingin belajar seperti manusia, caranya harus berbeda dari sekadar menelan data internet
    • Sebagian besar peneliti sebelum 2017 sekarang terfokus pada transformer
      Jumlah penelitinya memang bertambah, tetapi proporsi riset non-transformer mungkin justru menurun
  • Ada yang bercanda bahwa em dash (—) di bagian akhir terlalu banyak, jadi tulisan ini terasa seperti ditulis transformer

    • Mungkin tren AI berikutnya adalah “disrupters
  • transformer telah menyedot semua perhatian dan pendanaan
    Para peneliti juga sudah terserap ke dalam industri transformer
    Sepertinya kondisi ini akan terus berlanjut sampai menabrak keterbatasan besar
    Saya berharap konsumsi energi menjadi batas nyata yang mengubah arah riset

    • Memang energi bisa segera menjadi bottleneck
      xAI mengatasi listrik dengan memasang gas turbine di sekitar data center, tetapi ini menimbulkan masalah kesehatan bagi warga sekitar
      Saya rasa cara seperti ini akan segera diregulasi
  • Orang-orang cenderung terlalu terobsesi dengan inovasi arsitektur model baru
    Model pada akhirnya hanyalah alat untuk membuat representasi kompresi data
    Meski kompresinya dibuat lebih efisien, kemampuannya tidak akan banyak berubah
    Yang lebih penting justru meningkatkan efisiensi pelatihan. Reinforcement learning (RL) belakangan ini adalah contohnya

    • Tetapi efisiensi pelatihan pada akhirnya tetap terkait dengan arsitektur
      Menjelajahi struktur baru bukan obsesi berlebihan, melainkan upaya menjaga keseimbangan antara eksplorasi dan eksploitasi
  • Saya rasa struktur industri yang berpusat pada transformer mungkin terbentuk karena kemudahan komputasi GPU/NPU
    Bisa jadi ada teknologi AI yang lebih baik, tetapi dengan hardware yang ada sekarang biaya komputasinya terlalu besar
    Otak kita tidak memakai 500 watt, dan mungkin itu sebuah petunjuk