10 poin oleh GN⁺ 2025-07-01 | 1 komentar | Bagikan ke WhatsApp
  • Dalam perkembangan AI belakangan ini, pengenalan dataset baru lebih menjadi faktor utama daripada ide baru
  • Sebagian besar terobosan besar muncul ketika teknologi yang sudah ada diterapkan ke sumber data baru
  • Perubahan data memberi dampak lebih besar pada performa model dibanding inovasi teknis AI itu sendiri
  • Pergeseran paradigma berikutnya kemungkinan akan terjadi saat memanfaatkan sumber data baru seperti YouTube dan robot
  • Kebanyakan peneliti berfokus pada metodologi baru, padahal sebenarnya data adalah inti dari kemajuan

Kondisi dan pola perkembangan AI

  • Dalam 15 tahun terakhir, terutama 5 tahun belakangan, AI telah mengalami kemajuan pesat
  • Beberapa peneliti berpendapat bahwa kemampuan AI dalam tugas tertentu berkembang secara eksponensial layaknya 'Hukum Moore untuk AI'
  • Namun pada kenyataannya, terobosan besar tidak sering terjadi, dan strukturnya lebih berupa kemajuan yang lambat tetapi konsisten

Dari mana inovasi datang

  • Banyak orang mengira perkembangan AI berasal dari ide-ide akademik dan industri seperti MIT, Stanford, dan Google
  • Melalui riset, inovasi sistem yang menurunkan biaya pelatihan model dan meningkatkan efisiensi memang terus berlanjut
    • Pada 2022, Stanford mengembangkan FlashAttention untuk mengoptimalkan pemanfaatan memori
    • Pada 2023, speculative decoding dari Google meningkatkan kecepatan inferensi
    • Pada 2024, proyek Muon mengusulkan pendekatan optimizer baru
    • Pada 2025, DeepSeek-R1 menyediakan model open-source setara laboratorium AI utama
  • Para peneliti dengan cepat membagikan hasil secara terbuka melalui arXiv, konferensi, media sosial, dan lain-lain, sehingga eksperimen ilmiah terdistribusi global berlangsung sangat aktif

Mengapa terasa inovasi AI melambat

  • Belakangan ini, peningkatan performa model terbaru seperti Grok 3 dan GPT-4.5 mulai mengecil
  • Dalam evaluasi dunia nyata seperti olimpiade matematika, nilainya rendah sehingga ada kritik bahwa pengumumannya dibesar-besarkan
  • Perubahan paradigma besar (deep learning, transformer, RLHF, reasoning) jarang muncul dan biasanya berjarak sekitar 10 tahun

Kesamaan terobosan besar: dataset baru

  • Empat terobosan utama bertepatan dengan momen ketika sumber data baru pertama kali dimanfaatkan dalam skala besar
    • AlexNet: ImageNet (data gambar berlabel berskala besar)
    • Transformers: seluruh data teks web (Internet)
    • RLHF: data 'teks yang baik' dari umpan balik manusia
    • Reasoning: hasil dari alat verifikasi eksternal seperti kalkulator dan compiler
  • Setelah tiap dataset diperkenalkan pertama kali dalam skala besar, muncul persaingan untuk mengamankan data yang tersisa dan mengembangkan teknik pemanfaatan yang efisien

Ide baru vs peran data

  • Bahkan tanpa arsitektur model tertentu, jika diberi data yang sama, model dengan level serupa tetap bisa dikembangkan
  • Dalam praktiknya, pergantian dataset yang dipelajari memberi dampak lebih besar pada performa daripada inovasi teknis
    • Meski bukan AlexNet, kemajuan tetap dimungkinkan karena ada ImageNet
    • Bahkan tanpa Transformer, LSTM dan SSM menunjukkan performa serupa dengan data yang sama
  • Dataset menentukan batas atas hasil pembelajaran, dan hal ini tidak bisa diatasi hanya dengan perbaikan model atau algoritme
  • Seperti ditekankan dalam The Bitter Lesson, yang benar-benar penting pada akhirnya bukan metode baru, melainkan data

Kandidat pergeseran paradigma AI berikutnya

  • Lompatan besar AI berikutnya lebih mungkin terjadi bukan dari network atau metode RL baru, melainkan dari sumber data baru yang selama ini belum dimanfaatkan
  • Dengan kata lain, pergeseran paradigma kemungkinan besar akan terjadi saat dataset baru berhasil diamankan dalam skala besar
    • Kandidat yang paling banyak diperhatikan: data video seperti YouTube
      • Ke YouTube diunggah 500 jam video setiap menit
      • Data ini memuat informasi puluhan kali lebih banyak daripada teks, serta memungkinkan pembelajaran nuansa bahasa hingga konteks fisik dan budaya
      • Big Tech seperti Google sangat mungkin segera mulai serius melatih model dengan dataset ini
    • Kemungkinan lain: pengumpulan data dunia fisik melalui robot (embodied system)
      • Jika infrastruktur untuk memproses dan melatih data kamera serta sensor dalam skala besar di GPU tersedia, data ini juga sangat mungkin menjadi sumber inovasi AI
  • Karena data teks mulai mencapai batasnya, sumber data baru seperti video dan robot kemungkinan akan menentukan masa depan AI

Kesimpulan

  • Kemajuan AI berikutnya akan datang bukan dari ide atau algoritme baru, tetapi dari sumber data baru
  • Meski 95% peneliti berfokus pada metodologi baru, inovasi nyata justru muncul dari perubahan dataset
  • Jika ingin mendorong kemajuan AI, fokusnya harus pada mengamankan data baru, bukan ide baru

1 komentar

 
GN⁺ 2025-07-01
Opini Hacker News
  • Disebutkan bahwa cara John Carmack mengeksplorasi topik ini cukup menarik
    Ia membagikan pengalamannya melatih model yang bisa bermain video game 2D dengan sangat baik, lalu mengujinya apakah model itu juga bisa tampil baik pada game 2D yang belum pernah dilihat sebelumnya atau pada level baru
    Dengan menunjukkan hasil bahwa performa model justru menurun pada game yang belum pernah dialami sebelumnya, ia menekankan bahwa itu bukan kecerdasan buatan, melainkan sekadar kemahiran pada tugas tertentu
    Ia menyatakan bahwa dibanding menakut-nakuti soal superintelligence (ASI), membuat kecerdasan umum yang bisa mempelajari game 2D baru lebih cepat daripada manusia jauh lebih sulit

    • Ditunjukkan bahwa model yang dipakai John Carmack untuk sampai pada kesimpulan ini sebenarnya bukan teknologi mutakhir, melainkan proyek iseng yang tidak memakai foundational model mahal
      Disebutkan bahwa untuk riset AI video/vision yang lebih mendalam, pendekatan yang memanipulasi latent space berbasis probabilitas yang dapat diterapkan lintas game akan lebih cocok
      Dengan mencontohkan kemampuan veo3 menghasilkan video di bawah batasan prompt, dijelaskan sebagai contoh bahwa AI dapat melakukan generalisasi pada game 2D dan 3D
      Diklaim bahwa veo3 bahkan dapat menunjukkan hasil yang seolah bisa memainkan game apa pun secara masuk akal tanpa fine-tuning khusus untuk game tertentu

    • Dikatakan sulit memahami mengapa orang sengaja mengarahkan diskusi dengan cara seperti ini
      Jelas ada banyak cara untuk mencapai tujuan yang diberikan, dan dipertanyakan mengapa eksperimen John Carmack dijadikan standar padahal ia sendiri bukan pakar AI

    • Ada dugaan bahwa ukuran model diperbesar terlalu jauh sehingga terjadi overfitting, yaitu fenomena ketika model hanya cocok pada dataset tertentu
      Ditanyakan apakah dengan memberi batasan pada model, kita bisa mendorongnya mempelajari heuristik yang lebih umum
      Ditekankan bahwa AI tanpa batasan pada akhirnya hanya akan memutar ulang catatan speedrun optimal, padahal saat menghadapi konten baru, berbagai heuristik jauh lebih penting

    • Dijelaskan bahwa topik yang dibahas termasuk bidang Meta-Reinforcement Learning
      Disebutkan bahwa eksplorasi John Carmack terhadap bidang ini memang bermakna, tetapi sama sekali bukan topik riset baru
      Pengantar singkat Meta-Reinforcement Learning

    • Disebutkan bahwa persoalan apakah model memiliki ‘kecerdasan sejati’ memang menarik bagi kalangan akademik yang memikirkan AGI, tetapi tidak terlalu penting bagi banyak pengguna yang benar-benar memakai LLM secara berguna
      Disampaikan posisi bahwa mereka tidak terlalu peduli apakah perkembangan saat ini akan berujung pada AGI
      Dibagikan bahwa bahkan jika semuanya berhenti di Claude 4, itu tetap akan terus berguna
      Ditekankan bahwa dibanding perdebatan AGI, topik yang jauh lebih menarik adalah bagaimana orang benar-benar memanfaatkan AI saat ini

  • Dinyatakan dengan yakin bahwa saat ini kita sedang hidup di era awal AI
    Dengan mencontohkan kemajuan menakjubkan AI di dua bidang, bahasa (LLM: GPT-4, Claude) dan visi (CLIP, DALL·E), hal itu dijelaskan
    Ditunjukkan bahwa komputer kini dapat menulis puisi dan kode, menjelaskan foto, hingga bercakap pada level manusia, tetapi sebenarnya baru memperluas dua modalitas: teks dan gambar
    Kecerdasan manusia memiliki sifat multimodal yang kaya, dengan beragam indra seperti sentuhan, rasa, penciuman, gerak, emosi, dan lain-lain yang saling terkait rapat
    Ditekankan bahwa LLM maupun Vision Transformer hampir tidak mewujudkan elemen-elemen ini
    Ditekankan bahwa frontier AI yang sesungguhnya adalah dunia sensorik sehari-hari yang kompleks dan kaya
    Dijelaskan bahwa untuk itu dibutuhkan sensor baru, representasi data yang melampaui token, dan metode pelatihan model baru yang belajar dari pengalaman

    • Dengan sopan dibantah pendapat bahwa bidang bahasa dan visi hanyalah titik awal dari esensi kecerdasan buatan
      Diakui bahwa sentuhan memang menarik, tetapi untuk semua interaksi online, audio, video, dan bahasa dianggap sudah cukup
      Dijelaskan bahwa perbedaan penentu antara manusia dan hewan bukan terletak pada ‘indra yang tersisa’, melainkan pada suara, gambar, dan bahasa
      Disebutkan bahwa untuk tindakan di dunia nyata, integrasi sentuhan, propriosepsi, dan penciuman memang penting, tetapi inti dari kecerdasan itu sendiri adalah bahasa dan visi

    • Ada pandangan bahwa dua hal yang paling perlu maju adalah adaptabilitas organik dan keberlanjutan memori
      Ditunjukkan bahwa otak manusia berubah strukturnya secara dinamis, sedangkan LLM bersifat tetap dan baru bisa ‘belajar’ setelah mengulang pelatihan pada informasi yang diberikan
      Ditekankan bahwa untuk membuat mesin yang cerdas, ia harus bisa belajar sendiri secara real-time dan mengingat informasi

    • Ada pandangan bahwa dalam arsitektur AI yang kita miliki sekarang, bahasa dan visi mungkin memang sudah mentok di situ
      Disampaikan bahwa walau beberapa tahun terakhir penuh berita tentang LLM, hampir tidak ada terobosan menonjol di bidang AI lainnya

    • Ditekankan bahwa masa depan kemajuan AI yang sesungguhnya adalah kehidupan itu sendiri yang kaya indera dan terikat pada dunia fisik seperti manusia
      Sebagaimana dalam Dr. Who pernah dikatakan bahwa Dalek bukan mesin yang memiliki otak, melainkan memang mesin itu sendiri, hal itu dipakai sebagai analogi untuk menjelaskan bahwa manusia juga pada dasarnya adalah seluruh tubuhnya

    • Menanggapi penyebutan ‘kemajuan yang sulit dipercaya’, ada pandangan sinis bahwa ini hanyalah penerapan teknologi dari tahun 1970-an pada komputer yang 1 juta kali lebih kuat
      Disebutkan bahwa belum tampak inovasi mendasar dalam struktur model atau cara komputasi yang akan membuat performa meningkat secara eksponensial ke depan

  • Disebutkan adanya kebingungan antara kemajuan ilmiah dan kemajuan teknologis
    Dijelaskan bahwa ketika sains berkembang, sering kali ada lompatan cepat ala kurva-S lalu kemudian masuk ke fase hasil yang makin berkurang
    Ditunjukkan bahwa orang sering gagal membedakan fase optimasi cepat dan fase perlambatan

    • Dikritik bahwa menyebut sekadar hype atau ekspektasi sebagai ‘kemajuan teknologis’ adalah terlalu murah hati

    • Ditambahkan bahwa orang tampaknya kurang memahami perbedaan antara kurva-S dan fungsi eksponensial
      Dijelaskan bahwa pada rentang tertentu, keduanya bisa terlihat hampir sama

  • Dipertanyakan mengapa DeepSeek disebut secara khusus

  • Dari sudut pandang orang yang membaca riset dan makalah terkait arsitektur model, ditunjukkan bahwa sangat banyak ide baru sedang bermunculan
    Namun hanya sebagian kecil yang benar-benar menghasilkan hasil menarik
    Diduga bahwa library seperti PyTorch juga mungkin menghambat pengembangan eksperimental
    Dinilai bahwa karena memakai komponen dasar siap pakai menjadi terlalu lumrah, orang jadi kurang memikirkan tiap elemen secara mendalam
    Ada keraguan terhadap kecenderungan menempelkan tokenizer atau vision model buatan orang lain begitu saja hanya demi mencentang kotak pada ‘model card’

    • Dijelaskan bahwa arus seperti ini sangat umum dan alami juga dalam dunia manusia
      Ketika ROI dari eksplorasi intelektual menurun pada teknologi dasar saat ini, wajar jika sumber daya manusia sementara bergeser ke tempat lain
      Namun diperkirakan bahwa saat batas itu tercapai, talenta-talenta inovatif pada akhirnya akan kembali dan menciptakan kemajuan besar di wilayah yang lebih mendasar
      Generasi berikutnya dari foundational tech seperti PyTorch juga dipandang akan berevolusi dengan cara seperti itu

    • Ditunjukkan bahwa memang jarang ada perbaikan arsitektur skala besar dalam 2–3 tahun terakhir yang benar-benar diketahui dan dipakai sehari-hari oleh banyak orang, tetapi juga ada kecenderungan mengabaikan betapa pendeknya perspektif waktu tiga tahun itu sendiri
      Selain LLM, masih banyak riset menarik dan berguna yang berjalan, dan meskipun pembicara bukan ahli bidang tersebut, ia merasa begitu banyak eksperimen baru bermunculan

    • Dikatakan bahwa bahkan tanpa PyTorch, orang yang memang tidak berniat bereksperimen tetap akan menunjukkan kecenderungan yang sama

  • Ada pandangan bahwa jika kita membayangkan sistem yang meniru kecerdasan setingkat manusia, inti perbedaan antarmodel memang bisa dilihat berada pada ‘perubahan dataset’
    Dalam praktiknya, memori, pendidikan, dan latar belakang manusia memang menyumbang porsi besar terhadap kemampuan pemecahan masalah, sehingga ada kemiripan

  • Dipertanyakan kemungkinan model memperoleh data secara aktif, yaitu mencari data sendiri lalu belajar darinya
    Diusulkan perlunya pendekatan seperti bayi manusia yang belajar melalui beragam tindakan dan pengalaman langsung
    Disebutkan bahwa alih-alih terus menuangkan data ke dalam model, arah yang baik misalnya adalah menggabungkannya dengan simulator fisika karena sekarang model sudah bisa membuat objek 3D
    Dengan mengambil contoh Cursor, diusulkan bahwa setelah aturan ditetapkan, reasoning model dapat menalar alasannya lalu memasukkannya ke data pelatihan sehingga nilai data menjadi jauh lebih tinggi
    Dengan meninjau kembali alasan di balik pilihan tindakan pengguna dan menjadikannya data pelatihan, ada kemungkinan memperoleh wawasan yang lebih dalam

    • Disampaikan bahwa simulation dan ‘embodied AI’ seperti lengan robot dan mobil memang sedang diteliti secara aktif

    • Disebutkan bahwa pendekatan itu pada dasarnya adalah reinforcement learning, dan memang bukan bidang yang mudah

  • Diajukan pendapat bahwa sebagian besar ide baru berangkat dari ide-ide lama
    AI adalah alat untuk mendekati ide lama dengan lebih cepat dan dengan sudut pandang baru
    Ditekankan bahwa inovasi lahir dari celah atau persimpangan di antara ide-ide lama, dan pada akhirnya inovasi selalu berdiri di atas pencapaian para pendahulu
    Dijelaskan bahwa AI dapat dipandang sebagai lift yang langsung membawa kita ke bahu para raksasa, dan pada akhirnya semuanya bergantung pada apakah alat itu dimanfaatkan atau tidak

    • Disetujui bahwa ide-ide lama memang bisa diakses kembali, tetapi dibahas bahwa ada keterbatasan untuk benar-benar mendekatinya dengan sudut pandang baru
      Dijelaskan bahwa LLM memang membantu sedikit dalam menafsirkan data, tetapi masih belum cukup untuk melahirkan ide yang benar-benar baru dibanding riset yang sudah ada
      Disebutkan bahwa penggunaan LLM bisa mempercepat sebagian area khusus dalam riset, tetapi di area lain tetap ada batasannya

    • Disampaikan sebagai contoh bahwa sulit membayangkan manusia yang telah menguasai seluruh pengetahuan tetapi tetap tidak mampu menghasilkan ide yang benar-benar baru

    • Ditekankan bahwa pokok tulisan ini adalah pembahasan tentang inovasi AI itu sendiri serta peningkatan jumlah dan kualitas data
      Disebutkan bahwa memang ada inovasi mendasar, tetapi cara terbaik untuk meningkatkan performa tetaplah lebih banyak data dan data yang lebih berkualitas
      Dicontohkan siklus perkembangan AI sebagai ‘lebih banyak data → model lebih dalam → ulang lagi’
      Diungkapkan kebingungan tentang bagaimana pendapat sebelumnya terhubung dengan sudut pandang ini

    • Dibantah klaim bahwa semua ide baru hanya berasal dari ide lama dengan mengangkat kisah penemuan cincin benzena
      Dijelaskan bahwa gagasan struktur cincin benzena pertama kali muncul dari imajinasi yang belum pernah ada sebelumnya, yaitu mimpi tentang ular yang menggigit ekornya sendiri (‘ouroboros’), sebagai contoh bahwa imajinasi baru kerap menjadi sumber inovasi

  • Dikatakan bahwa LLM modern pada akhirnya hanyalah penjumlahan dan perkalian angka
    Diungkapkan secara ekstrem bahwa ini adalah sesuatu yang sudah dilakukan orang Babilonia sejak 4000 tahun lalu

    • Dijelaskan bahwa manusia pun pada akhirnya hanyalah hasil interaksi gelombang, dan semua makna pada akhirnya adalah sesuatu yang diberikan
      Disebutkan bahwa jika ada cara untuk memberi indeks pada ruang konsep, maka kejutan dapat dieksplorasi, sehingga kemungkinannya tak terbatas

    • Dibandingkan bahwa orang Babilonia melakukannya di tablet tanah liat, sedangkan dunia modern memprosesnya di dalam semikonduktor dengan dinding setebal atom
      Diajukan pendapat bahwa dari sisi caranya, perbedaannya sangat besar

  • Ada pemikiran bahwa pelatihan AI saat ini sebenarnya lebih dekat ke proses menghafalkan dataset
    Ditekankan bahwa ini bukan cara yang membuat model berpikir sendiri lalu menurunkan dan mengingat kesimpulan dari data
    Dinilai bahwa walaupun model mungkin tahu lebih banyak ‘fakta’ tentang topik tertentu daripada pemegang PhD, manusia masih jauh lebih unggul dalam benar-benar memikirkan isi tersebut

    • Lalu ditebak bahwa mungkin karena itulah para doktor juga tetap menyimpan buku teks di dekat mereka
      Dipertanyakan apakah memang perlu bagi model AI untuk mengingat semua fakta yang sudah tercatat

    • Dijelaskan bahwa proses nyatanya sedikit lebih kompleks
      Dinilai bahwa model menginternalisasi data dalam bentuk heuristik agar bisa memberi respons yang sesuai terhadap input
      Disebutkan bahwa heuristik ini kadang mengejutkan manusia, dan terkadang menunjukkan pemecahan masalah yang terasa segar
      Didiagnosis bahwa konsep ‘berpikir’ sendiri terlalu luas untuk dinilai dengan mudah, tetapi untuk AGI kita masih jauh

    • Penjelasan bahwa model ‘mengingat lebih banyak fakta daripada PhD pada topik tertentu’ dibandingkan dengan laptop
      Ditunjukkan bahwa laptop pun bisa menyimpan lebih banyak fakta, bukan?