- Dalam perkembangan AI belakangan ini, pengenalan dataset baru lebih menjadi faktor utama daripada ide baru
- Sebagian besar terobosan besar muncul ketika teknologi yang sudah ada diterapkan ke sumber data baru
- Perubahan data memberi dampak lebih besar pada performa model dibanding inovasi teknis AI itu sendiri
- Pergeseran paradigma berikutnya kemungkinan akan terjadi saat memanfaatkan sumber data baru seperti YouTube dan robot
- Kebanyakan peneliti berfokus pada metodologi baru, padahal sebenarnya data adalah inti dari kemajuan
Kondisi dan pola perkembangan AI
- Dalam 15 tahun terakhir, terutama 5 tahun belakangan, AI telah mengalami kemajuan pesat
- Beberapa peneliti berpendapat bahwa kemampuan AI dalam tugas tertentu berkembang secara eksponensial layaknya 'Hukum Moore untuk AI'
- Namun pada kenyataannya, terobosan besar tidak sering terjadi, dan strukturnya lebih berupa kemajuan yang lambat tetapi konsisten
Dari mana inovasi datang
- Banyak orang mengira perkembangan AI berasal dari ide-ide akademik dan industri seperti MIT, Stanford, dan Google
- Melalui riset, inovasi sistem yang menurunkan biaya pelatihan model dan meningkatkan efisiensi memang terus berlanjut
- Pada 2022, Stanford mengembangkan FlashAttention untuk mengoptimalkan pemanfaatan memori
- Pada 2023, speculative decoding dari Google meningkatkan kecepatan inferensi
- Pada 2024, proyek Muon mengusulkan pendekatan optimizer baru
- Pada 2025, DeepSeek-R1 menyediakan model open-source setara laboratorium AI utama
- Para peneliti dengan cepat membagikan hasil secara terbuka melalui arXiv, konferensi, media sosial, dan lain-lain, sehingga eksperimen ilmiah terdistribusi global berlangsung sangat aktif
Mengapa terasa inovasi AI melambat
- Belakangan ini, peningkatan performa model terbaru seperti Grok 3 dan GPT-4.5 mulai mengecil
- Dalam evaluasi dunia nyata seperti olimpiade matematika, nilainya rendah sehingga ada kritik bahwa pengumumannya dibesar-besarkan
- Perubahan paradigma besar (deep learning, transformer, RLHF, reasoning) jarang muncul dan biasanya berjarak sekitar 10 tahun
Kesamaan terobosan besar: dataset baru
- Empat terobosan utama bertepatan dengan momen ketika sumber data baru pertama kali dimanfaatkan dalam skala besar
- AlexNet: ImageNet (data gambar berlabel berskala besar)
- Transformers: seluruh data teks web (Internet)
- RLHF: data 'teks yang baik' dari umpan balik manusia
- Reasoning: hasil dari alat verifikasi eksternal seperti kalkulator dan compiler
- Setelah tiap dataset diperkenalkan pertama kali dalam skala besar, muncul persaingan untuk mengamankan data yang tersisa dan mengembangkan teknik pemanfaatan yang efisien
Ide baru vs peran data
- Bahkan tanpa arsitektur model tertentu, jika diberi data yang sama, model dengan level serupa tetap bisa dikembangkan
- Dalam praktiknya, pergantian dataset yang dipelajari memberi dampak lebih besar pada performa daripada inovasi teknis
- Meski bukan AlexNet, kemajuan tetap dimungkinkan karena ada ImageNet
- Bahkan tanpa Transformer, LSTM dan SSM menunjukkan performa serupa dengan data yang sama
- Dataset menentukan batas atas hasil pembelajaran, dan hal ini tidak bisa diatasi hanya dengan perbaikan model atau algoritme
- Seperti ditekankan dalam The Bitter Lesson, yang benar-benar penting pada akhirnya bukan metode baru, melainkan data
Kandidat pergeseran paradigma AI berikutnya
- Lompatan besar AI berikutnya lebih mungkin terjadi bukan dari network atau metode RL baru, melainkan dari sumber data baru yang selama ini belum dimanfaatkan
- Dengan kata lain, pergeseran paradigma kemungkinan besar akan terjadi saat dataset baru berhasil diamankan dalam skala besar
- Kandidat yang paling banyak diperhatikan: data video seperti YouTube
- Ke YouTube diunggah 500 jam video setiap menit
- Data ini memuat informasi puluhan kali lebih banyak daripada teks, serta memungkinkan pembelajaran nuansa bahasa hingga konteks fisik dan budaya
- Big Tech seperti Google sangat mungkin segera mulai serius melatih model dengan dataset ini
- Kemungkinan lain: pengumpulan data dunia fisik melalui robot (embodied system)
- Jika infrastruktur untuk memproses dan melatih data kamera serta sensor dalam skala besar di GPU tersedia, data ini juga sangat mungkin menjadi sumber inovasi AI
- Karena data teks mulai mencapai batasnya, sumber data baru seperti video dan robot kemungkinan akan menentukan masa depan AI
Kesimpulan
- Kemajuan AI berikutnya akan datang bukan dari ide atau algoritme baru, tetapi dari sumber data baru
- Meski 95% peneliti berfokus pada metodologi baru, inovasi nyata justru muncul dari perubahan dataset
- Jika ingin mendorong kemajuan AI, fokusnya harus pada mengamankan data baru, bukan ide baru
1 komentar
Opini Hacker News
Disebutkan bahwa cara John Carmack mengeksplorasi topik ini cukup menarik
Ia membagikan pengalamannya melatih model yang bisa bermain video game 2D dengan sangat baik, lalu mengujinya apakah model itu juga bisa tampil baik pada game 2D yang belum pernah dilihat sebelumnya atau pada level baru
Dengan menunjukkan hasil bahwa performa model justru menurun pada game yang belum pernah dialami sebelumnya, ia menekankan bahwa itu bukan kecerdasan buatan, melainkan sekadar kemahiran pada tugas tertentu
Ia menyatakan bahwa dibanding menakut-nakuti soal superintelligence (ASI), membuat kecerdasan umum yang bisa mempelajari game 2D baru lebih cepat daripada manusia jauh lebih sulit
Ditunjukkan bahwa model yang dipakai John Carmack untuk sampai pada kesimpulan ini sebenarnya bukan teknologi mutakhir, melainkan proyek iseng yang tidak memakai foundational model mahal
Disebutkan bahwa untuk riset AI video/vision yang lebih mendalam, pendekatan yang memanipulasi latent space berbasis probabilitas yang dapat diterapkan lintas game akan lebih cocok
Dengan mencontohkan kemampuan veo3 menghasilkan video di bawah batasan prompt, dijelaskan sebagai contoh bahwa AI dapat melakukan generalisasi pada game 2D dan 3D
Diklaim bahwa veo3 bahkan dapat menunjukkan hasil yang seolah bisa memainkan game apa pun secara masuk akal tanpa fine-tuning khusus untuk game tertentu
Dikatakan sulit memahami mengapa orang sengaja mengarahkan diskusi dengan cara seperti ini
Jelas ada banyak cara untuk mencapai tujuan yang diberikan, dan dipertanyakan mengapa eksperimen John Carmack dijadikan standar padahal ia sendiri bukan pakar AI
Ada dugaan bahwa ukuran model diperbesar terlalu jauh sehingga terjadi overfitting, yaitu fenomena ketika model hanya cocok pada dataset tertentu
Ditanyakan apakah dengan memberi batasan pada model, kita bisa mendorongnya mempelajari heuristik yang lebih umum
Ditekankan bahwa AI tanpa batasan pada akhirnya hanya akan memutar ulang catatan speedrun optimal, padahal saat menghadapi konten baru, berbagai heuristik jauh lebih penting
Dijelaskan bahwa topik yang dibahas termasuk bidang Meta-Reinforcement Learning
Disebutkan bahwa eksplorasi John Carmack terhadap bidang ini memang bermakna, tetapi sama sekali bukan topik riset baru
Pengantar singkat Meta-Reinforcement Learning
Disebutkan bahwa persoalan apakah model memiliki ‘kecerdasan sejati’ memang menarik bagi kalangan akademik yang memikirkan AGI, tetapi tidak terlalu penting bagi banyak pengguna yang benar-benar memakai LLM secara berguna
Disampaikan posisi bahwa mereka tidak terlalu peduli apakah perkembangan saat ini akan berujung pada AGI
Dibagikan bahwa bahkan jika semuanya berhenti di Claude 4, itu tetap akan terus berguna
Ditekankan bahwa dibanding perdebatan AGI, topik yang jauh lebih menarik adalah bagaimana orang benar-benar memanfaatkan AI saat ini
Dinyatakan dengan yakin bahwa saat ini kita sedang hidup di era awal AI
Dengan mencontohkan kemajuan menakjubkan AI di dua bidang, bahasa (LLM: GPT-4, Claude) dan visi (CLIP, DALL·E), hal itu dijelaskan
Ditunjukkan bahwa komputer kini dapat menulis puisi dan kode, menjelaskan foto, hingga bercakap pada level manusia, tetapi sebenarnya baru memperluas dua modalitas: teks dan gambar
Kecerdasan manusia memiliki sifat multimodal yang kaya, dengan beragam indra seperti sentuhan, rasa, penciuman, gerak, emosi, dan lain-lain yang saling terkait rapat
Ditekankan bahwa LLM maupun Vision Transformer hampir tidak mewujudkan elemen-elemen ini
Ditekankan bahwa frontier AI yang sesungguhnya adalah dunia sensorik sehari-hari yang kompleks dan kaya
Dijelaskan bahwa untuk itu dibutuhkan sensor baru, representasi data yang melampaui token, dan metode pelatihan model baru yang belajar dari pengalaman
Dengan sopan dibantah pendapat bahwa bidang bahasa dan visi hanyalah titik awal dari esensi kecerdasan buatan
Diakui bahwa sentuhan memang menarik, tetapi untuk semua interaksi online, audio, video, dan bahasa dianggap sudah cukup
Dijelaskan bahwa perbedaan penentu antara manusia dan hewan bukan terletak pada ‘indra yang tersisa’, melainkan pada suara, gambar, dan bahasa
Disebutkan bahwa untuk tindakan di dunia nyata, integrasi sentuhan, propriosepsi, dan penciuman memang penting, tetapi inti dari kecerdasan itu sendiri adalah bahasa dan visi
Ada pandangan bahwa dua hal yang paling perlu maju adalah adaptabilitas organik dan keberlanjutan memori
Ditunjukkan bahwa otak manusia berubah strukturnya secara dinamis, sedangkan LLM bersifat tetap dan baru bisa ‘belajar’ setelah mengulang pelatihan pada informasi yang diberikan
Ditekankan bahwa untuk membuat mesin yang cerdas, ia harus bisa belajar sendiri secara real-time dan mengingat informasi
Ada pandangan bahwa dalam arsitektur AI yang kita miliki sekarang, bahasa dan visi mungkin memang sudah mentok di situ
Disampaikan bahwa walau beberapa tahun terakhir penuh berita tentang LLM, hampir tidak ada terobosan menonjol di bidang AI lainnya
Ditekankan bahwa masa depan kemajuan AI yang sesungguhnya adalah kehidupan itu sendiri yang kaya indera dan terikat pada dunia fisik seperti manusia
Sebagaimana dalam Dr. Who pernah dikatakan bahwa Dalek bukan mesin yang memiliki otak, melainkan memang mesin itu sendiri, hal itu dipakai sebagai analogi untuk menjelaskan bahwa manusia juga pada dasarnya adalah seluruh tubuhnya
Menanggapi penyebutan ‘kemajuan yang sulit dipercaya’, ada pandangan sinis bahwa ini hanyalah penerapan teknologi dari tahun 1970-an pada komputer yang 1 juta kali lebih kuat
Disebutkan bahwa belum tampak inovasi mendasar dalam struktur model atau cara komputasi yang akan membuat performa meningkat secara eksponensial ke depan
Disebutkan adanya kebingungan antara kemajuan ilmiah dan kemajuan teknologis
Dijelaskan bahwa ketika sains berkembang, sering kali ada lompatan cepat ala kurva-S lalu kemudian masuk ke fase hasil yang makin berkurang
Ditunjukkan bahwa orang sering gagal membedakan fase optimasi cepat dan fase perlambatan
Dikritik bahwa menyebut sekadar hype atau ekspektasi sebagai ‘kemajuan teknologis’ adalah terlalu murah hati
Ditambahkan bahwa orang tampaknya kurang memahami perbedaan antara kurva-S dan fungsi eksponensial
Dijelaskan bahwa pada rentang tertentu, keduanya bisa terlihat hampir sama
Dipertanyakan mengapa DeepSeek disebut secara khusus
Dari sudut pandang orang yang membaca riset dan makalah terkait arsitektur model, ditunjukkan bahwa sangat banyak ide baru sedang bermunculan
Namun hanya sebagian kecil yang benar-benar menghasilkan hasil menarik
Diduga bahwa library seperti PyTorch juga mungkin menghambat pengembangan eksperimental
Dinilai bahwa karena memakai komponen dasar siap pakai menjadi terlalu lumrah, orang jadi kurang memikirkan tiap elemen secara mendalam
Ada keraguan terhadap kecenderungan menempelkan tokenizer atau vision model buatan orang lain begitu saja hanya demi mencentang kotak pada ‘model card’
Dijelaskan bahwa arus seperti ini sangat umum dan alami juga dalam dunia manusia
Ketika ROI dari eksplorasi intelektual menurun pada teknologi dasar saat ini, wajar jika sumber daya manusia sementara bergeser ke tempat lain
Namun diperkirakan bahwa saat batas itu tercapai, talenta-talenta inovatif pada akhirnya akan kembali dan menciptakan kemajuan besar di wilayah yang lebih mendasar
Generasi berikutnya dari foundational tech seperti PyTorch juga dipandang akan berevolusi dengan cara seperti itu
Ditunjukkan bahwa memang jarang ada perbaikan arsitektur skala besar dalam 2–3 tahun terakhir yang benar-benar diketahui dan dipakai sehari-hari oleh banyak orang, tetapi juga ada kecenderungan mengabaikan betapa pendeknya perspektif waktu tiga tahun itu sendiri
Selain LLM, masih banyak riset menarik dan berguna yang berjalan, dan meskipun pembicara bukan ahli bidang tersebut, ia merasa begitu banyak eksperimen baru bermunculan
Dikatakan bahwa bahkan tanpa PyTorch, orang yang memang tidak berniat bereksperimen tetap akan menunjukkan kecenderungan yang sama
Ada pandangan bahwa jika kita membayangkan sistem yang meniru kecerdasan setingkat manusia, inti perbedaan antarmodel memang bisa dilihat berada pada ‘perubahan dataset’
Dalam praktiknya, memori, pendidikan, dan latar belakang manusia memang menyumbang porsi besar terhadap kemampuan pemecahan masalah, sehingga ada kemiripan
Dipertanyakan kemungkinan model memperoleh data secara aktif, yaitu mencari data sendiri lalu belajar darinya
Diusulkan perlunya pendekatan seperti bayi manusia yang belajar melalui beragam tindakan dan pengalaman langsung
Disebutkan bahwa alih-alih terus menuangkan data ke dalam model, arah yang baik misalnya adalah menggabungkannya dengan simulator fisika karena sekarang model sudah bisa membuat objek 3D
Dengan mengambil contoh Cursor, diusulkan bahwa setelah aturan ditetapkan, reasoning model dapat menalar alasannya lalu memasukkannya ke data pelatihan sehingga nilai data menjadi jauh lebih tinggi
Dengan meninjau kembali alasan di balik pilihan tindakan pengguna dan menjadikannya data pelatihan, ada kemungkinan memperoleh wawasan yang lebih dalam
Disampaikan bahwa simulation dan ‘embodied AI’ seperti lengan robot dan mobil memang sedang diteliti secara aktif
Disebutkan bahwa pendekatan itu pada dasarnya adalah reinforcement learning, dan memang bukan bidang yang mudah
Diajukan pendapat bahwa sebagian besar ide baru berangkat dari ide-ide lama
AI adalah alat untuk mendekati ide lama dengan lebih cepat dan dengan sudut pandang baru
Ditekankan bahwa inovasi lahir dari celah atau persimpangan di antara ide-ide lama, dan pada akhirnya inovasi selalu berdiri di atas pencapaian para pendahulu
Dijelaskan bahwa AI dapat dipandang sebagai lift yang langsung membawa kita ke bahu para raksasa, dan pada akhirnya semuanya bergantung pada apakah alat itu dimanfaatkan atau tidak
Disetujui bahwa ide-ide lama memang bisa diakses kembali, tetapi dibahas bahwa ada keterbatasan untuk benar-benar mendekatinya dengan sudut pandang baru
Dijelaskan bahwa LLM memang membantu sedikit dalam menafsirkan data, tetapi masih belum cukup untuk melahirkan ide yang benar-benar baru dibanding riset yang sudah ada
Disebutkan bahwa penggunaan LLM bisa mempercepat sebagian area khusus dalam riset, tetapi di area lain tetap ada batasannya
Disampaikan sebagai contoh bahwa sulit membayangkan manusia yang telah menguasai seluruh pengetahuan tetapi tetap tidak mampu menghasilkan ide yang benar-benar baru
Ditekankan bahwa pokok tulisan ini adalah pembahasan tentang inovasi AI itu sendiri serta peningkatan jumlah dan kualitas data
Disebutkan bahwa memang ada inovasi mendasar, tetapi cara terbaik untuk meningkatkan performa tetaplah lebih banyak data dan data yang lebih berkualitas
Dicontohkan siklus perkembangan AI sebagai ‘lebih banyak data → model lebih dalam → ulang lagi’
Diungkapkan kebingungan tentang bagaimana pendapat sebelumnya terhubung dengan sudut pandang ini
Dibantah klaim bahwa semua ide baru hanya berasal dari ide lama dengan mengangkat kisah penemuan cincin benzena
Dijelaskan bahwa gagasan struktur cincin benzena pertama kali muncul dari imajinasi yang belum pernah ada sebelumnya, yaitu mimpi tentang ular yang menggigit ekornya sendiri (‘ouroboros’), sebagai contoh bahwa imajinasi baru kerap menjadi sumber inovasi
Dikatakan bahwa LLM modern pada akhirnya hanyalah penjumlahan dan perkalian angka
Diungkapkan secara ekstrem bahwa ini adalah sesuatu yang sudah dilakukan orang Babilonia sejak 4000 tahun lalu
Dijelaskan bahwa manusia pun pada akhirnya hanyalah hasil interaksi gelombang, dan semua makna pada akhirnya adalah sesuatu yang diberikan
Disebutkan bahwa jika ada cara untuk memberi indeks pada ruang konsep, maka kejutan dapat dieksplorasi, sehingga kemungkinannya tak terbatas
Dibandingkan bahwa orang Babilonia melakukannya di tablet tanah liat, sedangkan dunia modern memprosesnya di dalam semikonduktor dengan dinding setebal atom
Diajukan pendapat bahwa dari sisi caranya, perbedaannya sangat besar
Ada pemikiran bahwa pelatihan AI saat ini sebenarnya lebih dekat ke proses menghafalkan dataset
Ditekankan bahwa ini bukan cara yang membuat model berpikir sendiri lalu menurunkan dan mengingat kesimpulan dari data
Dinilai bahwa walaupun model mungkin tahu lebih banyak ‘fakta’ tentang topik tertentu daripada pemegang PhD, manusia masih jauh lebih unggul dalam benar-benar memikirkan isi tersebut
Lalu ditebak bahwa mungkin karena itulah para doktor juga tetap menyimpan buku teks di dekat mereka
Dipertanyakan apakah memang perlu bagi model AI untuk mengingat semua fakta yang sudah tercatat
Dijelaskan bahwa proses nyatanya sedikit lebih kompleks
Dinilai bahwa model menginternalisasi data dalam bentuk heuristik agar bisa memberi respons yang sesuai terhadap input
Disebutkan bahwa heuristik ini kadang mengejutkan manusia, dan terkadang menunjukkan pemecahan masalah yang terasa segar
Didiagnosis bahwa konsep ‘berpikir’ sendiri terlalu luas untuk dinilai dengan mudah, tetapi untuk AGI kita masih jauh
Penjelasan bahwa model ‘mengingat lebih banyak fakta daripada PhD pada topik tertentu’ dibandingkan dengan laptop
Ditunjukkan bahwa laptop pun bisa menyimpan lebih banyak fakta, bukan?