Kreativitas dan Penemuan AI menurut Rich Sutton
(twitter.com/RichardSSutton)- AI generatif yang dilatih dengan supervised learning adalah model imitasi yang bertindak mirip dengan contoh-contohnya; meskipun berguna, model ini memiliki keterbatasan untuk penemuan baru dalam sains dan matematika
- Untuk jawaban internet atau ringkasan dokumen, kebaruan justru menjadi halusinasi, dan jawaban yang baik berasal dari kualitas sumber asli
- Bahkan saat kebaruan dibutuhkan, seperti pada pembuatan novel atau gambar, sulit mengetahui seberapa dekat keluaran dengan materi pelatihan; keacakan memang menciptakan kebaruan, tetapi tanpa evaluasi itu tidak menjadi penemuan yang baik
- Sistem seperti AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code, dan RL-Lyft menemukan hasil yang baru dan baik melalui evaluasi dan retensi selektif
- Jika menginginkan ilmuwan AI yang sepenuhnya utuh, kita harus membagikan tujuan yang eksplisit agar AI dapat membuat, mengevaluasi, dan menemukan; diperlukan otomatisasi kreativitas dan penemuan
Keterbatasan dan Kegunaan AI Generatif
- AI generatif adalah model imitasi yang menerima banyak contoh untuk membuat teks seperti manusia, membuat gambar seperti seniman atau alam, atau membuat video seperti video di internet
- AI generatif bisa sangat berguna, tetapi penilaian dari lelucon lama bahwa “bagian yang baik tidak baru, dan bagian yang baru tidak baik” berlaku untuk sebagian besar kasus
- Saat mencari jawaban di internet atau merangkum dokumen, AI tidak perlu menjadi baru, dan kualitas jawaban berasal dari sumber asli seperti penulis dokumen atau tulisan di internet
- Jika jawaban AI menambahkan sesuatu melampaui sumber aslinya, itulah halusinasi, dan dalam kebanyakan kasus pengguna tidak menginginkan hal yang dikarang AI
Kebaruan, Keacakan, dan Masalah Evaluasi
- Saat pengguna menginginkan novel dan hiburan, bukan fakta atau realitas, kebaruan menjadi kebutuhan yang dikecualikan
- Cerita pengantar tidur untuk anak atau gambar yang berbeda dari gambar internet yang ada namun tetap berbasis padanya dapat diminta dari AI generatif
- Karena internet terlalu besar dan sumber yang mungkin terlalu banyak, secara praktis sulit mengetahui seberapa kreatif sebenarnya cerita, puisi, atau gambar dari AI
- Pemrosesan AI generatif sebagian bersifat stokastik, sehingga setiap keputusan bisa bergerak ke beberapa arah dan menghasilkan lintasan yang berbeda setiap kali
- Jika lintasan didasarkan pada keacakan, hasilnya baru; jika didasarkan pada data pelatihan, hasilnya bisa baik karena kualitas data, tetapi tidak bisa sekaligus baru dan baik
Penemuan yang Diperlukan untuk Sains dan Matematika
- Walaupun AI generatif tidak bisa sekaligus baik dan baru, itu bukan masalah fatal untuk sebagian besar penggunaan; jika cepat, murah, kecil, dapat dikustomisasi, dan dapat direplikasi, ia bisa menjadi teknologi transformatif
- Dalam sains dan matematika, AI imitasi sederhana saja tidak cukup; diperlukan kreativitas sejati dan penemuan
- Langkah ke-37 AlphaGo, gaya catur orisinal AlphaZero, dan performa balap simulasi GT-Sophy adalah contoh menemukan sesuatu yang baru dan baik
- AlphaFold, AlphaProof, dan Claude-Code diajukan sebagai contoh yang membawa kemajuan nyata dalam sains, matematika, dan pemrograman
- RL-Lyft adalah sistem yang mengoptimalkan cara menugaskan kendaraan kepada penumpang dalam bisnis ride-hailing
- Beberapa model bahasa diperkuat dengan cara yang melampaui AI generatif berbasis supervised learning
Tiga Tahap Penemuan
- Penemuan adalah proses mencoba berbagai hal, melihat apa yang berhasil, lalu mempertahankan yang bekerja paling baik
- Evolusi melalui seleksi alam, metode ilmiah, kehidupan sehari-hari, dan pembelajaran semuanya bergerak dengan cara mencoba lalu mengingat apa yang berhasil
- Dalam psikologi, ini disebut pembelajaran instrumental atau pengkondisian operan, dan dalam machine learning disebut reinforcement learning
- Dalam perencanaan dan pencarian kombinatorial pun, gagasan penemuan “generate and test” bekerja
- Inti penemuan adalah menggabungkan tiga tahap: variasi, evaluasi, dan retensi selektif
- Dengan supervised learning saja, tidak ada cara untuk mengevaluasi hasil yang dihasilkan saat runtime; tanpa evaluasi tidak ada retensi selektif, dan karena itu tidak ada penemuan
- Kebaruan bisa muncul sesaat, tetapi jika nilainya tidak dikenali, ia akan hilang dan lenyap
Evaluasi, Tujuan, dan Otonomi
- Ketika manusia membuat beberapa gambar dengan AI generatif lalu memilih satu yang disukai, sistem manusia+AI itu menyelesaikan penemuan
- Evaluasi juga mungkin dilakukan ketika ada tujuan yang jelas: langkah tertentu mengarah ke skakmat, tahap tertentu mengarah ke pembuktian, dan tindakan tertentu mengarah ke reward tinggi
- Genotipe tertentu menghasilkan lebih banyak replikasi, dan teori tertentu menjelaskan data dengan lebih baik
- Variasi tidak harus sepenuhnya acak, dan ilmuwan yang baik tidak memilih teori untuk diuji secara sembarangan
- Jika sudah sepenuhnya ditentukan di mana jawabannya berada, itu bukan penemuan; penemuan membutuhkan ketidakpastian
- Pembaruan bobot melalui backpropagation bersifat deterministik, tetapi bobot diinisialisasi dengan nilai acak kecil sehingga variasi tetap ada
- Inisialisasi acak adalah bentuk variasi yang diperlukan dan harus dilakukan dengan benar untuk memperoleh performa yang baik
- Dalam backpropagation, variasi hanya terjadi sekali saat inisialisasi jaringan, sehingga efeknya sementara dan kemudian jaringan bisa kehilangan kemampuan belajar
- “continual backpropagation” sesekali menginisialisasi ulang neuron yang jarang digunakan dengan bobot acak kecil agar variasi terus berlanjut dan plastisitas tetap terjaga
- Penemuan memerlukan evaluasi yang datang dari manusia atau tujuan eksplisit, dan otonomi penuh dimungkinkan ketika tujuan eksplisit menyediakan evaluasi
- Jika kita menginginkan keseluruhan kemampuan seorang ilmuwan AI, kita harus membagikan tujuannya agar AI dapat membuat, mengevaluasi, menemukan, dan ikut mencapai tujuan tersebut
1 komentar
Komentar Hacker News
Seperti pada coding, penerapan yang paling sukses bukan hasil dari pemodelan LLM/generatif murni, melainkan dari menutup loop dengan harness bergaya agen
Loop hasilkan-uji-perbaikan selektif adalah pola inti kerja ilmiah, dan RL dengan LLM + reward yang bisa diverifikasi + umpan balik eksekusi compiler/terminal meniru proses ini dengan cukup baik
Ini lebih mirip loop umpan balik Fisher/Box yang diimplementasikan di atas sistem komputasi modern (https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...), dan LLM hanyalah salah satu komponennya
Sayang Sutton hanya membahas sisi LLM/backprop, padahal akan lebih baik jika ia membicarakan gambaran besarnya saat ini. Saya benar-benar penasaran apakah loop seperti ini bisa mengotomatisasi penemuan setidaknya sebagian
Penemuan melibatkan lebih banyak unsur, dan masih belum jelas dari mana model/hipotesis awal berasal atau bagaimana pembaruan dipilih. Saya melihat buku Hanson Patterns of Discovery baru-baru ini membahas arah itu, belum sempat membacanya, tapi saya penasaran apakah ada petunjuk yang bersifat mekanistis
Dengan reinforcement learning saja, ada masalah besar karena sangat sulit mencapai reward, sehingga susah mempelajari tugas hanya dengan RL murni. Manusia juga memecahkan masalah penemuan dengan menggabungkan sinyal supervisi dari buku dan eksplorasi pemecahan masalah, dan orang yang sama sekali tidak punya pendidikan awal matematika akan sulit menghasilkan sesuatu yang hebat, seberapa pun cerdasnya. Bootstrap itu adalah eksplorasi yang biayanya sudah dibayar di masa lalu
Hanya saja saya melihat masalah yang sama seperti yang dialami algoritma evolusi. Kita bisa menghasilkan kandidat solusi sampai kehabisan uang, tetapi solusi-solusi itu tetap harus dievaluasi. Diperlukan fitness function, dan itu berarti kita setidaknya harus tahu bentuk kasar dari solusi tersebut. Kalau ada yang tahu pekerjaan tentang fitness function yang lebih terbuka, saya ingin membacanya
Karena keterbatasan matematis itu, mungkin LLM memang bukan jalan menuju AGI sejati, tetapi untuk saat ini terus terang itu tampaknya tidak terlalu penting
Saya sangat suka framing seperti, “sesuatu yang baru dihasilkan harus dievaluasi agar kreativitas bisa terwujud. Tanpa evaluasi dan pelestarian hasil terbaik, tidak ada yang tercipta. Kebaruan mungkin muncul sesaat, tetapi jika nilainya tidak dikenali, ia akan hilang dan lenyap”
Banyak orang di komentar Twitter, dan mungkin sebagian di sini juga, tampaknya tidak membaca setelah pengantar. Ia bukan mengatakan bahwa sistem AI tidak bisa melakukan kreativitas dan penemuan, melainkan bahwa AI generatif tanpa harness tidak bisa melakukannya
Artinya dibutuhkan sistem lain yang mengenali dan mengingat nilai dari ide-ide baru. Ia juga memberi contoh bahwa tahap pengenalan nilai ini bisa diotomatisasi, sehingga kreativitas dan penemuan dapat dicapai dalam sistem yang sepenuhnya otomatis menurut definisinya sendiri
Kalau saya tidak melewatkan sesuatu, argumen ini tampaknya hanya berlaku untuk era prapelatihan asli (misalnya GPT 1~4). Bukankah paradigma pascapelatihan dan reinforcement learning jelas melakukan variasi, evaluasi, dan pelestarian selektif?
Saya penasaran apakah ini pertanda Keen Tech condong ke pendekatan Ineffable Intelligence milik David Silver
Jadi memang ada evaluasi dan pelestarian, tetapi tidak ada variasi atau “perencanaan”
Itu bukan berarti LLM tidak bisa dipakai. AlphaEvolve melakukan tepat itu. Hanya saja ia memakai perencana evolusioner sederhana dari luar. Poin besar yang ia sampaikan adalah bahwa perencana kita masih “bodoh”, dan kita perlu berinvestasi lebih banyak di sana
Saat memandu LLM secara iteratif di Claude Code, pengguna pada dasarnya berperan sebagai perencana eksternal, dan itu juga bekerja dengan baik
Ada yang terasa janggal pada cara masalah untuk AlphaGo dan model AI generatif semacam ini diposisikan
AlphaGo dinilai dengan evaluasi ketat yang diberikan dari luar, bukan diciptakannya sendiri
Model AI generatif juga bisa berhasil di banyak bidang jika diberi evaluasi ketat dari luar. Ia berhasil di beragam ranah, mulai dari tugas pemrograman sederhana, matematika paling mutakhir (baru-baru ini mengajukan kontracontoh untuk sebuah konjektur), hingga menulis kode kernel yang lebih optimal, dan itu adalah hal yang sangat mengejutkan
Di bidang-bidang tempat solusinya sangat kompleks tetapi evaluasinya relatif kurang kompleks, pembelajaran penguatan juga banyak dipakai, dan pemilihan lintasan penemuan serta yang “mirip evolusi” memang benar-benar terjadi
Karena itu, membandingkannya dengan AlphaGo terasa aneh. AlphaGo menerima evaluasi ketat yang independen dari dirinya sendiri, diberikan oleh sumber eksternal yaitu manusia, dalam domain sempit. AI generatif pun bisa menunjukkan hasil yang cukup menakjubkan jika diberi evaluasi semacam itu
Yang lebih aneh lagi, dalam banyak kasus inovasi dan kemajuan tidak sungguh-sungguh menuntut ide yang benar-benar baru, melainkan lahir dari eksekusi berlapis yang berkualitas tinggi atas metode, taktik, dan ide yang berbeda-beda. Di banyak bidang, pengetahuan kolektif kita amat jarang tersebar dan kompleks, sehingga kemampuan untuk merekombinasikan alat, model, dan ide secara selektif dengan kualitas tinggi adalah sesuatu yang sangat kuat
Dalam horizon pencarian yang terbatas (waktu, sumber daya), perbedaan antara “pilihan bagus” sebanyak 1% dan 3% adalah dunia yang benar-benar berbeda
Yang paling penting, pembahasan di atas bukan tentang kecerdasan, melainkan tentang pertanian solusi yang kering untuk masalah-masalah penting dan bernilai yang kita miliki. Sebagian besar perdebatan tentang AGI dan kecerdasan tampaknya melewatkan fakta sederhana ini. Ini seperti analogi umum bahwa mengatakan pesawat tidak bisa terbang seperti burung atau kapal selam tidak bisa berenang adalah hal yang tidak relevan terhadap kegunaannya
Terakhir, apakah Anda benar-benar berpikir sistem ini rata-rata tidak bisa lebih baik pada masalah-masalah yang dihadapi orang biasa sepanjang hidupnya? Dalam kenyataan ketika nilai 60~70% pada ujian masalah umum di bidang sains atau kedokteran sudah cukup untuk mendapat gelar, bagaimana seharusnya kita mendefinisikan kecerdasan manusia?
Ada juga burung seperti albatros yang terbang hampir tanpa mengepakkan sayapnya
Saya memandang sebagian besar deep learning sebagai generalisasi komposisional. Model mempelajari potongan-potongan yang bisa digunakan ulang, yakni abstraksi, gaya, prosedur, kendala, dan sebagainya, lalu merekombinasikannya dengan cara yang tidak pernah muncul sebagai satu kesatuan di data latih
Jadi, meskipun bahan-bahannya berasal dari data masa lalu, susunan akhirnya bisa tetap baru dalam pengertian yang bermakna
Saya kurang bisa mengikuti inti argumennya. a) Apakah maksudnya kita memerlukan algoritme dasar baru yang secara langsung mengintegrasikan tujuan, yakni “selera”, ke dalam tahap pelatihan, atau b) model yang sudah dilatih perlu diarahkan ke tujuan saat melakukan iterasi?
Jika a), dia tidak mengusulkan algoritme seperti itu, dan saya juga tidak tahu bagaimana tujuan abstrak bisa dikuantifikasi pada tingkat serendah itu. Apakah dia sebenarnya mengusulkan algoritme semacam itu dan saya salah membacanya? Jika b), itu sudah ada. AlphaEvolve dan berbagai contoh yang dia sebut termasuk di dalamnya, dan kalau mau sedikit sinis, Anda tinggal mengetik
/goallalu menjalankannyaSelain itu, saya rasa pernyataan bahwa LLM tidak bisa melakukan hal yang baik dan baru adalah keliru secara kategoris. Jika bisa, orang mungkin akan berkata, “itu tidak baru, hanya turunan”, tetapi misalnya jika saya membuat bahasa pemrograman dengan LLM dan itu bekerja sesuai tujuan saya, bukankah itu sesuatu yang baru dan baik? Apakah itu berarti semua bahasa selain FORTRAN tidak baru?
Semua hal bersifat turunan, dan LLM bisa dimasukkan ke dalam loop yang mengevaluasi hal-hal yang dicoba oleh LLM. Dia bukan orang yang cukup tumpul untuk bisa salah separah ini, jadi rasanya saya sedang salah paham terhadap sesuatu
AlphaGo menggunakan penemuan ketika mengevaluasi langkah yang mungkin dan melakukan iterasi
Claude Code juga menggunakan penemuan ketika membuat skrip lalu mengevaluasi apakah skrip itu berfungsi
Yang dia maksud adalah bahwa dalam sains dan rekayasa juga, kita harus membiarkan sistem AI melakukan evaluasi dan iterasi sendiri seperti yang dilakukan pada kode
Pada dasarnya ini adalah rekayasa harness untuk rekayasa
https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
Sekitar menit ke-35
Saat memakai kata seperti “kreatif” untuk AI, kita harus sangat spesifik.
Bisakah AI membuat seni? AI bisa membuat sesuatu yang menyenangkan secara indrawi. Tetapi pada akhirnya, seni menyampaikan emosi dan perasaan manusia. Bahkan di antara manusia sendiri, pemahaman atas seni tidak bersifat universal. “Emosi dan perasaan”; karena itu, seni bisa terikat sangat dalam pada keyakinan dan pengalaman bersama dari kelompok tertentu
Bisakah ia kreatif di bidang non-subjektif seperti matematika atau sains? Einstein menurunkan teori relativitas umum lewat eksperimen pikiran yang kreatif. Jika AI menguji berbagai kerangka matematika untuk menyelesaikan masalah yang terungkap lewat eksperimen lalu menghasilkan persamaan medan relativitas umum, apakah itu kreatif? Mungkin bisa dibilang begitu, tetapi jelas bukan dengan cara yang sama
Jika pertanyaannya adalah apakah mesin bisa membuat seni, pada akhirnya seseorang harus menyalakan mesin itu dan merancangnya agar membuat seni, jadi kalau ditelusuri, bisa juga dikatakan bahwa orang itu atau orang-orang itulah yang membuat seni
Secara historis, jawaban atas pertanyaan “apakah x itu seni?” pada akhirnya selalu menjadi “ya”. Saya tidak tahu kenapa orang terus jatuh ke perangkap yang sama
Artikel Wikipedia tentang seni dimulai seperti ini
“Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience”
https://en.wikipedia.org/wiki/Art
Karena itu AI juga bisa berkesenian. Sebab yang diperlukan hanyalah memunculkan respons emosional pada penerima
Masalah nyatanya adalah kemampuan model untuk mengikuti prompt masih sangat terbatas. Tingkat detail yang bisa ditentukan dalam perancangan adegan terlalu kasar. Jadi ia mungkin bisa menghasilkan efek “slop” dengan banyak detail pastiche isian, tetapi tidak bisa membuat karya seperti ini, di mana setiap objek sampingan ditempatkan dengan sengaja untuk memperkuat pesan
https://en.wikipedia.org/wiki/The_Awakening_Conscience
Pada dasarnya ini versi ahli dari masalah “tolong gambar pelikan yang mengendarai sepeda”
Dalam beberapa situasi, tingkat kontrol kreatif seperti itu memang diperlukan, dan generator gambar saat ini belum mendekatinya
Dan tanpa kontrol itu, ia tidak bisa mencapai tingkat meta-kreativitas untuk menciptakan estetika baru yang menjadi penanda budaya, seperti yang telah dan masih dilakukan para seniman besar
Mereka hanya ingin dopamin. Mereka tidak mau berpikir karena berpikir itu menyakitkan
Saya tidak menganggap machine learning tidak bisa kreatif atau tidak bisa membuat penemuan. Pada akhirnya kreativitas dan penemuan adalah kemampuan memikirkan sekaligus konsep-konsep benar yang tampak terpisah, sementara saya memandang pemikiran algoritmis sebagai menangani konsep-konsep yang hubungannya lebih jelas
Bahkan tanpa LLM pun, sebuah model bisa menghasilkan ide acak, memberi peringkat, lalu mengeluarkan hasil terbaik
Hanya saja saya rasa manusia lebih unggul untuk hal semacam itu, dan machine learning lebih unggul untuk pemikiran algoritmis. “Lebih unggul” di sini berarti lebih efisien dan juga lebih kami nikmati untuk dilakukan, serta terutama bisa menilai dengan lebih akurat apa yang secara subjektif menarik bagi manusia, termasuk diri kita sendiri, yaitu selera
Saya rasa machine learning membutuhkan lebih banyak generalisasi daripada pemrograman, tetapi tetap seharusnya dioptimalkan terutama untuk pekerjaan yang logis. Misalnya pengembangan perangkat lunak, penerjemahan, dan alat untuk seni serta penemuan
Tidak apa-apa. LLM tetap berguna dalam bentuknya yang sekarang. Bahkan jika ia sama sekali tidak akan pernah menghasilkan matematika atau fisika generasi berikutnya
Bahkan di antara manusia, otak yang menciptakan lompatan bertahap dalam pemikiran itu sangat langka, sampai-sampai kita mengingat mereka dari namanya
Tautan alternatif: <https://xcancel.com/RichardSSutton/status/206121608774494665...>
Saat ini dari sisi saya muncul 502 “Bad Gateway”, tetapi sepertinya nanti akan pulih