Pencarian AI: pelajaran yang lebih pahit

(yellow-apartment-148.notion.site)

1 poin oleh GN⁺ 2024-06-16 | 1 komentar | Bagikan ke WhatsApp

Menambahkan kemampuan pencarian (search) yang memakai waktu inferensi lebih panjang ke model fondasi dapat membuka jalur kemajuan AI yang berbeda dari sekadar menunggu rilis model yang lebih besar
Leela Chess Zero mengalahkan Stockfish dengan self-play dan deep learning, tetapi Stockfish kembali unggul dengan menggabungkan jaringan saraf yang lebih kecil ke pipeline pencarian yang kuat
Pencarian di sini berarti kemampuan meningkatkan kinerja pemecahan masalah dengan memakai lebih banyak komputasi inferensi, bukan komputasi pelatihan, dan tidak hanya merujuk pada MCTS atau AlphaBeta ala catur
Pencarian dapat memusatkan komputasi hanya pada area yang diperlukan, sehingga perusahaan seperti Pfizer punya opsi untuk langsung membayar biaya inferensi alih-alih menunggu model OpenAI yang lebih besar
Jika pencarian lebih dulu diterapkan pada riset AI, itu bisa dipakai untuk menemukan algoritme pencarian dan arsitektur model yang lebih efisien, sehingga AI yang dapat memperbaiki dirinya sendiri mungkin lebih dekat dari perkiraan

“Pelajaran yang lebih pahit” dari Leela dan Stockfish

Leela Chess Zero adalah mesin catur yang mulai hanya dengan mengetahui aturan, lalu belajar melalui miliaran permainan self-play
- Alih-alih meng-hardcode pengetahuan catur manusia secara langsung, ia belajar sendiri dan menghasilkan langkah-langkah yang membalikkan pakem catur manusia
- Ia menunjukkan pengorbanan jangka panjang dan langkah kreatif, lalu menjuarai kejuaraan dunia
Kekuatan Leela ada pada deep learning, dan ini menunjukkan dengan baik kekuatan komputasi besar serta pembelajaran yang dibahas dalam The Bitter Lesson
- Ini sejalan dengan gagasan bahwa representasi yang dipelajari sendiri bisa menjadi lebih kuat daripada pengetahuan yang dirancang manusia
Pada 2018, tim Leela mengamati bahwa jaringan yang lebih besar secara konsisten lebih kuat daripada jaringan yang lebih kecil
- Jaringan yang lebih besar menunjukkan sifat emergen seolah-olah bisa melihat beberapa langkah ke depan bahkan tanpa pencarian eksplisit
Pada 2020, tim Leela mengumpulkan komputasi dari donatur perusahaan dan GPU seperti GTX 1070 milik kenalan untuk melatih jaringan yang lebih besar, dan menyiapkan model terbesar mereka tepat sebelum kejuaraan dunia, tetapi kalah

Kebangkitan Stockfish: model kecil dan pencarian kuat

Stockfish adalah program catur dominan pada 2010-an, dan pada 2019 masih mendekati AI gaya lama yang menanamkan pengetahuan permainan manusia ke dalam kode lewat teknik matematis
Leela mengalahkan Stockfish pada 2019 dengan deep learning dan pendekatan tabula rasa, tetapi setelah itu Stockfish mengambil teknik deep learning Leela dan melatih model yang jauh lebih kecil
- Model itu ratusan kali lebih kecil daripada model Leela terbaik
- Stockfish memasukkan model kecil ini ke pipeline pencarian yang sudah ada, lalu segera mendominasi Leela
Kemenangan ini tampak bertentangan dengan scaling law yang mengejar model lebih besar
- Modelnya lebih kecil, tetapi algoritme pencariannya lebih efisien, memanfaatkan hardware lebih baik, dan dapat melihat lebih jauh
“Pelajaran yang lebih pahit” adalah bahwa bahkan di era deep learning yang gemerlap, kita tidak boleh meremehkan kekuatan pencarian AI

Definisi pencarian pada model fondasi dan keterbatasan saat ini

Model fondasi seperti GPT-4 masih kekurangan pencarian dalam arti yang dimaksud tulisan ini
- Saat ini tidak memungkinkan untuk meminta GPT-4 memikirkan sebuah masalah selama sebulan dan berharap jawaban yang lebih baik
- Permintaan seperti “berpikirlah langkah demi langkah” dapat meningkatkan kinerja, tetapi hasil tambahannya cepat menurun
Pencarian pada model fondasi adalah kemampuan menyelesaikan masalah lebih baik dengan memakai lebih banyak komputasi inferensi, bukan komputasi pelatihan
- Ini tidak hanya merujuk pada pencarian MCTS atau AlphaBeta ala catur
- Pemikiran introspektif manusia dan kolaborasi juga termasuk dalam definisi ini
Peneliti AI, ekonom, dan CEO mungkin meremehkan seberapa dekat dan pentingnya memberi kemampuan pencarian pada model fondasi
Ada tiga alasan utama mengapa pencarian penting
- Implementasinya belum tentu memerlukan skala model yang lebih besar
- Komputasi bisa difokuskan hanya ke tempat yang diperlukan
- Ini dapat mempercepat otomatisasi riset AI

Skala mungkin bukan prasyarat untuk pencarian

Asumsi yang tersebar luas adalah bahwa untuk memungkinkan pencarian pada LLM, dibutuhkan model yang lebih besar
- Sholto Douglas mengatakan bahwa untuk menangani pemikiran jangka panjang, reliabilitas LLM membutuhkan lebih banyak “nines”
- Leopold Aschenbrenner berpandangan bahwa pretraining mungkin sudah memuat bahan yang diperlukan untuk pencarian, dan yang dibutuhkan adalah “sedikit lebih banyak scaling” serta token tambahan
Namun, kasus catur menggoyahkan gagasan bahwa skala adalah prasyarat bagi pencarian
- DeepMind meneliti dalam algoritme catur tanpa pencarian bahwa perilaku yang terlihat seperti memandang ke depan bisa muncul secara alami tanpa scaffolding eksternal
- Karena di catur algoritme pencarian sudah ada, logikanya menjadi lemah untuk menunggu kemampuan melihat ke depan yang tidak efisien muncul secara kebetulan dari model besar
Scaling Scaling Laws with Board Games menunjukkan bahwa setiap peningkatan komputasi pelatihan 10 kali lipat dapat mengurangi kebutuhan komputasi saat pengujian sekitar 15 kali lipat
- Hasil ini tetap teramati bahkan sampai pada model satu neuron
- Ini terkait dengan kasus Stockfish yang menang atas Leela dengan model 3 digit lebih kecil
Model saat ini mungkin sudah cukup besar untuk memungkinkan pencarian, dan bahkan mungkin lebih besar dari yang diperlukan

Ekonomi pencarian dan kemungkinan otomatisasi riset AI

Pencarian memungkinkan pertukaran antara komputasi saat pelatihan dan komputasi saat inferensi, serta membuat biaya hanya dikeluarkan untuk domain tertentu
Contoh Pfizer menunjukkan bagaimana pencarian dapat berujung pada pengeluaran komputasi per domain
- Untuk meneliti obat baru, Pfizer bisa menunggu sampai OpenAI merilis model yang 4 digit lebih besar pada 2030
- Atau Pfizer bisa mencoba memperoleh kemampuan serupa sekarang dengan memakai komputasi inferensi 4 digit lebih banyak
Jika diasumsikan Pfizer menghabiskan 100 ribu dolar per tahun untuk GPT-4, maka untuk mendekati kemampuan setingkat ASI pada 2030, anggaran AI-nya harus dinaikkan 4 digit menjadi 1 miliar dolar per tahun
- Anggaran R&D Pfizer sendiri sudah 12 miliar dolar
- Sementara itu, untuk melatih model dengan kemampuan yang sama, OpenAI bisa saja membutuhkan triliunan dolar
Jalur menuju ASI 2030 menurut Leopold Aschenbrenner adalah alur di mana klaster besar, kenaikan pendapatan, pinjaman korporasi skala besar, dan pembangunan klaster yang lebih besar oleh pemerintah membuat model menjadi cukup besar untuk melakukan riset AI sendiri
- Di dunia tanpa pencarian, jalur ini tampak masuk akal
Di dunia tempat pencarian bekerja, jalur lain menjadi mungkin
- Pencarian bekerja pada model yang sudah ada
- Lab besar dan pemerintah segera menerapkan pencarian pada riset AI atau intelijen luar negeri
- Komputasi inferensi menjadi terbatas sehingga pemerintah atau lab besar membatasi penggunaannya untuk keamanan atau riset AI
- Kemajuan AI berbasis pencarian menemukan algoritme pencarian dan arsitektur model yang lebih efisien
- Karena pencarian tidak menuntut lebih banyak data pelatihan, masalah hambatan data menjadi lebih lemah
- Ini mengarah pada pandangan bahwa ledakan kecerdasan bisa dimulai bukan pada 2030, melainkan tahun berikutnya
Jika pencarian dipakai untuk riset AI, tidak seperti penemuan obat baru, hasilnya dapat langsung berkontribusi pada penciptaan AI yang lebih baik lagi
- Model awal yang diperkuat pencarian mungkin belum memiliki agensi mirip manusia untuk memakai alat atau menjalankan pengujian
- Meski begitu, model seperti itu tetap dapat mendorong kemajuan algoritme layaknya “armchair theorists” yang melampaui manusia
- Jika GPT-4 yang dilatih dengan 1 triliun token dan biaya 15 juta dolar menemukan algoritme yang menurunkan biaya pelatihan 3% atau meningkatkan efisiensi pencarian 10%, maka biayanya bisa kembali tertutup
Prediksi ini bergantung pada dua prasyarat
- Adanya algoritme pencarian untuk model fondasi yang memungkinkan peningkatan kinerja serupa dengan yang terlihat pada sistem RL
- Pencarian mengubah modal yang ada menjadi kecerdasan secara lebih efisien daripada scaling model
Berbeda dari scaling law pada 2020-an, bukti kuat tentang kinerja dan keekonomian pencarian masih kurang, dan masih ada unsur ekstrapolasi berdasarkan pengalaman reinforcement learning pada game

1 komentar

GN⁺ 2024-06-16

Pendapat di Hacker News

Efektivitas pencarian berjalan seiring dengan kualitas fungsi nilai. Namun fungsi nilai saat ini terlalu kuat bergantung pada karakteristik tiap domain, dan menurut saya bukti bahwa kita bisa membuat fungsi nilai yang dapat tergeneralisasi dengan baik ke domain baru itu lemah atau tidak ada
Tulisan ini pada dasarnya melakukan lompatan konseptual dari “ada fungsi nilai yang bagus untuk catur” menjadi “kita bisa membuat fungsi nilai yang bagus yang memungkinkan pencarian untuk riset AI”
Tentu saja kalau itu terjadi, itu akan luar biasa dan seperti cawan suci, tetapi saya ragu apakah benar-benar mungkin. Selain itu, jika menjalankan LLM menambah biaya waktu inferensi 1000x atau 10000x, biayanya akan naik ke tingkat yang tidak masuk akal
- Menurut saya fungsi nilai yang tergeneralisasi, yaitu benchmark LLM, memang ada sampai batas tertentu. Masalahnya adalah tidak ada aproksimasi yang cukup murah untuk melakukan pencarian pohon pada saat inferensi
  Catur bisa berjalan karena keunggulan materi merupakan aproksimasi kemenangan yang cukup baik dan juga sangat mudah dihitung
- Saya penasaran apakah orang percaya akan ada terobosan “AI serbaguna”. Bagian yang disebutkan tadi terasa merangkum dengan baik alasan saya skeptis terhadap para peneliti AI yang percaya bahwa “kita akan segera mencapainya”
  Sepertinya sejak awal AI serbaguna itu sendiri juga tidak terdefinisi dengan jelas
- Di sebagian domain, evaluasi mandiri saja mungkin sudah cukup. Dengan begitu AI akan mencoba berkali-kali dan mengevaluasi dirinya secara berulang untuk menemukan jawaban yang mendapat skor lebih tinggi menurut kriterianya sendiri
- Yang dibutuhkan untuk fungsi nilai yang baik hanyalah simulasi berkualitas tinggi untuk tugas tersebut
  Ini lebih mudah dilakukan di beberapa domain. Misalnya, pembukti teorema dalam matematika bisa memberi tahu secara tepat apakah berhasil atau tidak
  Sebagai efek samping, kita bisa menambahkan fitur mirip pencarian ke Lean untuk membantu peneliti manusia, dan itu juga dapat membantu kemajuan AI dalam matematika
- Stockfish, meskipun jumlah langkah legal pada posisi tertentu terbatas dan cabang yang kalah bisa dipangkas lebih awal secara agresif, kemungkinan tetap mengevaluasi jutaan posisi saat melihat 40 langkah ke depan
  Sulit membayangkan biaya mengevaluasi jutaan kelanjutan kalimat dari LLM hanya untuk memilih satu jawaban optimal
  Titik di mana pencarian pohon lebih masuk akal untuk LLM mungkin bukan alternatif pada tingkat kata, melainkan penalaran yang menelusuri jalur “bagaimana jika berpikir seperti ini” pada unit yang lebih kasar. Meski begitu, biaya generasi serta evaluasi dan pemangkasan bisa dengan mudah menjadi tidak tertanggung, dan pendekatan yang bias seperti ini tampaknya dalam beberapa hal justru bertentangan langsung dengan pelajaran pahit, bukan sejalan dengannya
Ini adalah masalah yang benar-benar sulit dipecahkan secara umum, dan peneliti cerdas seperti Yann LeCun pun masih mencari apa peran pencarian dalam menciptakan AGI
Taruhan Yann saat ini tampaknya mengarah pada penggunaan Joint Embedding Predictive Architectures, yaitu JEPA, untuk pembelajaran representasi guna membangun model dunia yang tangguh, lalu membuat agen mencoba berbagai tindakan untuk menguji teorinya
Makalah ini [0] merangkum visi potensialnya dengan baik, tetapi tentu saja ini jauh lebih sulit daripada sekadar pencarian + transformer
Ada asumsi bahwa bahasa merepresentasikan dunia dengan cukup baik sehingga agen dapat menelusurinya secara efektif dan menghasilkan ide-ide baru yang berguna. Ini terasa seperti pertanyaan terbuka. Apa yang diketahui LLM? Apakah ia benar-benar mengetahui sesuatu? Para peneliti perlu mencari tahu
Jika LLM saat ini dapat mensimulasikan model dunia yang cukup kaya, pencarian memang bisa menjadi berguna, tetapi jika hanya meniru, maka itu hanya menelusuri keyakinan yang tidak dapat diandalkan
Karena itu video penting. Sebab manusia adalah bukti bahwa model dunia yang berguna dapat diekstrak dari rangkaian gambar
Bahasa dan catur memiliki ruang tindakan yang pada dasarnya diskret, sehingga pelatihan model generatif yang merekonstruksi seluruh input untuk menghitung loss dimungkinkan. Ketika beralih ke video, transformer harus diskalakan di atas distribusi kontinu, sehingga jauh lebih sulit membuat model dunia prediktif yang berguna
[0]: https://arxiv.org/abs/2306.02572
- Saya merasa gagasan bahwa AGI itu mungkin berasal dari imajinasi yang mendalam dan luas yang memandang otak manusia sebagai komputer. Namun otak manusia bukan komputer
  Seberapa pun rumit program yang ditulis, ia tetaplah mesin Turing, dan manusia pada dasarnya bukan itu
  https://aeon.co/essays/your-brain-does-not-process-informati...
  Metafora pemrosesan informasi tentang kecerdasan manusia kini mendominasi pemikiran manusia, baik dalam keseharian maupun sains. Namun pada akhirnya ini juga hanyalah metafora lain yang kita buat untuk memahami sesuatu yang sebenarnya belum kita pahami, dan suatu hari akan digantikan oleh metafora lain atau pengetahuan nyata
  Bahkan ketika mendengar Simfoni No. 5 Beethoven di konser yang sama, perubahan yang terjadi di otak saya dan di otak orang lain hampir pasti sepenuhnya berbeda. Karena perubahan itu terjadi di atas struktur saraf yang dibentuk oleh pengalaman unik masing-masing
  Karena itu, meski dua orang mendengar cerita yang sama, mereka tidak mengulanginya dengan persis sama, dan seiring waktu pengulangan itu makin berbeda. Bukan “salinan” cerita yang dibuat, melainkan setiap individu yang mendengar cerita itu berubah sampai tingkat tertentu
- Untuk pertanyaan “apakah ia benar-benar mengetahui sesuatu?”, menurut saya jawabannya ya. Hanya saja, ia juga mengira mengetahui hal-hal yang sepenuhnya salah
  Ciri terbesar yang saya amati pada LLM adalah ketidakmampuannya menangani logika dan matematika dengan baik. Bahkan ketika lebih baik menjawab “tidak tahu”, ia dengan percaya diri memberikan informasi yang jelas-jelas salah. Menurut saya sangat kecil kemungkinan ini adalah desain yang disengaja
Tulisan ini dimulai dengan premis yang menarik, tetapi terasa kurang karena tidak mendefinisikan apa itu search/penelusuran dalam konteks LLM, dan juga tidak menjelaskan pernyataan bahwa “Pfizer bisa mendekati kemampuan GPT-8 hari ini dengan lebih banyak komputasi inferensi”
Saya praktisi AI, tetapi tetap sulit mengikutinya. Perlu ada orang yang bisa menjelaskan lebih jauh apa maksud tulisan aslinya
Penelusuran pada engine catur, yaitu cara melihat beberapa langkah ke depan, tampaknya dimungkinkan karena ada fungsi tujuan yang bisa memeringkat hasil. Ada metrik untuk menilai apakah suatu langkah potensial “lebih baik”, dan ini biasanya lebih dekat dengan karakteristik bawaan reinforcement learning. Saya bertanya-tanya apakah LLM juga punya metrik seperti itu
- Bagian ini juga sangat membingungkan bagi saya
  Kalau menebak, mungkin maksudnya adalah menjalankan beberapa token ke depan untuk masing-masing token prediksi teratas model, melacak cabang mana yang berkinerja paling baik dibanding data latih, lalu memanfaatkan informasi itu untuk pelatihan
  Namun penelusuran seharusnya meningkatkan efisiensi pada saat inferensi, sementara cara ini tidak melakukan itu
- Mungkin memang itu maksudnya, dan menurut saya metrik seperti itu tidak ada. Orang-orang akan mencoba evaluasi adversarial, tetapi pada akhirnya tampaknya besar kemungkinan akan konvergen ke prediksi rata-rata
  Selain itu, inferensi LLM tidak murah. Trade-off antara biaya inferensi dan biaya pelatihan sangat berbeda menurut aplikasinya. Mungkin ada domain yang masuk akal untuk menerima biaya inferensi 100 kali atau 1000 kali lebih besar sebagai ganti menurunkan biaya pelatihan 10 kali
Charlie Steiner sudah menyinggung hal ini 5 tahun lalu di Less Wrong
Jika GPT-3 dilatih dengan sekumpulan buku teks kedokteran lalu diminta menyebutkan obat untuk Alzheimer, ia tidak akan menyebutkan obatnya, melainkan akan mengatakan apa yang pernah dikatakan manusia tentang pengobatan Alzheimer
Intinya, ia menjadi oracle intuitif yang bercerita secara masuk akal berdasarkan keterkaitan dalam data latih, bukan oracle logis
Fakta bahwa pengobatan Alzheimer itu sulit menyiratkan bahwa ada sesuatu yang hilang dari rancangan seperti ini, dan sesuatu itu adalah search/penelusuran. Ini bukan berarti mustahil bagi jaringan saraf untuk langsung mengeluarkan obatnya, tetapi tampaknya harus sudah ada dimensi “obat Alzheimer” di dalam model yang telah dilatih
Jika kita belum mengetahui obatnya, cara yang realistis adalah bergerak perlahan melalui ruang logis lewat banyak langkah logika, makin mempersempit kemungkinan, hingga akhirnya menemukan sesuatu yang memenuhi syarat. Dengan kata lain, menyelesaikan masalah penelusuran
Jika AI bisa menyebutkan obat Alzheimer, besar kemungkinan ia secara eksplisit sedang menelusuri obatnya, atau state internalnya secara implisit menjalankan penelusuran
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- Saya penasaran apakah ini bisa digeneralisasi, tidak hanya terbatas pada GPT, menjadi seperti ini
  “Jika sebuah mesin logika dilatih dengan sekumpulan buku teks kedokteran lalu diminta menyebutkan obat Alzheimer, ia akan mengatakan bukan obatnya, melainkan apa yang dikatakan buku-buku teks itu tentang pengobatan Alzheimer”
  Sepertinya mungkin tidak begitu. GPT tampaknya pada dasarnya terbatas pada mengulang dan mengombinasikan ulang apa yang dibacanya, tetapi algoritme lain dengan logika yang lebih baik pada dasarnya bisa melakukan riset meta. Artinya, ia bisa mengambil semua hasil eksperimen Alzheimer sejauh ini dan mempersempitnya ke ruang solusi yang lebih kecil daripada yang dicapai manusia
  Manusia mungkin tidak punya kapasitas untuk menampung semua hasil yang relevan sekaligus, tetapi komputer mungkin bisa
  Jika GPT diminta “berpikirlah langkah demi langkah”, performanya membaik, jadi jelas ia memiliki suatu bentuk logika yang diperlukan. Ia juga menjalankan “ini datanya, tolong transformasikan” dengan baik
  Batasannya ada pada kualitas logika dan ukuran jendela yang memungkinkan transformasi itu dilakukan. Namun data yang diingat dari pelatihan bisa jauh lebih banyak daripada jendela token input, sehingga bisa menjadi jalan pintas parsial
  Jika memiliki kedua kemampuan itu, sulit mengatakan bahwa skalanya tidak bisa diperbesar. Saya tidak tahu apakah kita bisa mengesampingkan kemungkinan evolusi GPT menemukan obat Alzheimer di dalam data yang sudah ada, dan untuk sistem yang lebih cocok bagi tugas ini, mungkin AGI pun tidak diperlukan
  Tentu saja komponen yang diperlukan untuk solusi harus ada di dalam data. Namun kutipan itu tampaknya menolak kemungkinan untuk mengidentifikasi obat, sekalipun semua informasi ada di dalam data dan yang belum ada hanya solusi final yang sudah tersusun
Penelusuran hampir pasti diperlukan, dan orang-orang yang mengusulkan klaster bernilai triliunan dolar sekarang perlu berbicara dengan para pembuat engine catur superhuman yang kini bahkan berjalan di smartphone
Karena bisa saja seseorang menemukan cara mengalahkan klaster bernilai triliunan dolar dengan klaster bernilai sejuta dolar, atau 500 ribu klaster masing-masing bernilai sejuta dolar
Kesimpulan saya tentang catur adalah bahwa branching factor catur tidak cukup besar sampai membuat pendekatan breadth-first mustahil. Branching factor median, yaitu jumlah langkah legal, paling tinggi sekitar 40 dan biasanya tetap di sekitar 30
Jumlah langkah terbanyak yang pernah saya lihat dalam posisi permainan nyata adalah 147, tetapi pada saat itu hampir semua langkah adalah skakmat
Alasan mengapa membuat engine Go menjadi superhuman begitu lama terasa sulit adalah karena branching factor-nya jauh lebih besar daripada catur
Masuk akal bahwa karena MCTS kurang menyeluruh, penelusuran penuh bisa menemukan dan mengeksploitasi kelemahannya. Masalahnya adalah apakah pendekatan breadth-first bisa diterapkan pada permainan dan situasi yang lebih besar, dan menurut saya jawabannya jelas tidak
Branching factor situasi dunia nyata, berbeda dari catur, lebih besar beberapa orde besaran
Namun tidak seperti catur, di dunia nyata sebagian besar keputusan kecil tidak terlalu penting. Saat pergi dari New York ke LA, apakah menyetir, naik pesawat, atau berjalan kaki itu sangat penting. Namun ketika keluar rumah, apakah melangkah dengan kaki kiri atau kanan terlebih dahulu, apakah berkedip sekarang atau 2 detik lagi, umumnya tidak penting
- Branching factor LLM, berdasarkan jumlah token berikutnya yang mungkin, menurut saya sekitar 50 ribu
Tulisan ini terasa cukup sulit digenggam dan agak terlalu percaya diri dalam memprediksi masa depan, tetapi tampaknya tetap layak dicoba
“Eksplorasi” adalah generalisasi dari “buat lalu uji” dan rejection sampling. Ini AI klasik
Saat saya mengikuti kelas pengantar AI sebelum era dot-com, saya belajar menulis program eksplorasi dengan Prolog
Kecepatannya bergantung pada waktu yang dibutuhkan untuk menghasilkan satu kandidat, waktu untuk mengujinya, dan berapa banyak kandidat yang harus dicoba. Jika hal-hal ini lambat, keseluruhannya juga lambat
Contoh rejection sampling dengan manusia di dalam loop adalah saat memakai generator gambar dan terus mencoba prompt berbeda sampai muncul gambar yang disukai. Namun loop-nya lambat karena menghasilkan gambar baru memakan waktu lama
Jika pembuatan gambar bisa bekerja secepat Google Image Search, itu bisa menjadi sesuatu yang benar-benar berarti
Pembuktian teorema dan fuzzing program tampak cocok untuk menggabungkan LLM dengan eksplorasi karena keduanya terotomasi, cepat, dan memiliki fungsi evaluasi yang baik
Sepertinya Google merilis fuzzer [1] yang bisa dihubungkan ke LLM yang diinginkan; saya penasaran apakah ada yang sudah mencobanya
[1] https://github.com/google/oss-fuzz-gen
- Dalam bidang pembuktian teorema atau perencanaan, prosedur eksplorasi dan “fungsi evaluasi” yang dikenal sudah secara teoretis mendekati batas optimal
  Jadi yang dibutuhkan bukan evaluasi atau prosedur eksplorasi baru, melainkan matematika baru yang menjamin bahwa ada alasan untuk mencobanya sejak awal
  Ambil pembuktian teorema sebagai contoh: SLD-Resolution adalah prosedur pembuktian teorema otomatis yang sound dan complete untuk penalaran induktif. Untuk implementasi yang efisien ruang, bisa digunakan depth-first search, tetapi ia bisa terjebak loop pada rekursi kiri; untuk implementasi yang efisien waktu, bisa digunakan breadth-first search dengan memoization, tetapi kompleksitas ruangnya tumbuh secara eksponensial
  Di sini “fungsi evaluasi” tidak berlaku. Sebab Resolution itu sendiri adalah semacam fungsi yang mengevaluasi kebenaran, atau kepastian nilai kebenaran, dari kalimat logika formal
  Dan ini sound serta complete, dan semi-decidable untuk logika yang jelas. Selama tidak melanggar Church-Turing, itulah yang terbaik
  Efisiensi bisa ditingkatkan dengan pencarian heuristik. Misalnya, pernah ada upaya seperti itu untuk menghindari NP-hardness dari relasi subsumsi, yang merupakan bagian penting dari SLD-Resolution praktis; di titik ini fungsi biaya heuristik dalam arti yang lebih luas ikut masuk
  Namun ada dua masalah. a) memakai pencarian heuristik berarti mengorbankan completeness, dan b) dalam perencanaan, sudah ada metode yang cukup solid untuk menurunkan fungsi heuristik dengan merelaksasi masalah perencanaan
  Pelajarannya adalah pilih dua saja dari soundness, completeness, efisiensi. Pendekatan machine learning statistik seperti LLM hanya bisa memilih dua yang berbeda dari teknik yang sudah ada
  Pada dasarnya, dalam batas kinerja keseluruhan AI berbasis eksplorasi, kita kini berada di titik yang hanya bisa memperoleh keuntungan di pinggiran. Sampai ada yang menghadirkan matematika yang lebih baik, kita akan tetap di sana
- Terence Tao, matematikawan terkenal dan pendukung kuat pembuktian teorema berbantuan komputer, memandang machine learning akan membuka jalan baru di ranah theorem prover
Saya rasa saya memahami ruang permainan yang dieksplorasi Leela dan Stockfish saat ini. Namun saya tidak tahu ruang kemungkinan seperti apa yang menurut penulis dieksplorasi oleh LLM
Tidak jelas apakah itu 1) kata-kata yang ditulis, 2) model matematika, reinforcement learning, dan ilmu material, 3) ruang yang lebih kecil dan terformalisasi seperti ruang permainan catur, semuanya, atau sesuatu yang lain. Entah apakah penulis sudah memperjelasnya di suatu tempat dan saya melewatkannya
- Sepertinya yang diinginkan adalah algoritma eksplorasi itu sendiri melakukan eksplorasi untuk menemukan algoritma eksplorasi yang lebih baik. Dengan kata lain, perbaikan diri. Jika begitu, sebagian batasan domain yang lebih sempit bisa hilang
Sebelum LLM menemukan obat kanker, saya mengusulkan agar kita membuatnya lebih dulu menemukan masalah yang lebih mudah ditangani: “cheesecake ilahi”
Yaitu cheesecake yang begitu lezat sampai 100 koki yang adil menilainya sebagai yang paling enak yang pernah mereka makan
LLM hanya perlu secara cerdas mengeksplorasi “ruang cheesecake” yang jauh lebih terbatas secara kombinatorial untuk menemukan resep cheesecake yang selezat mungkin
Namun LLM tidak bisa memanggang cheesecake, dan sekalipun memanggangnya, ia tidak bisa menilai rasanya
Sampai AI memecahkan masalah “cheesecake ilahi”, sebaiknya kita semua sedikit lebih tenang soal AGI
- Kue-kue ini sangat enak, tetapi belum sampai tingkat ilahi. Dengan sedikit investasi dan teknik yang lebih modern, saya rasa resep yang cukup bagus bisa dibuat, bahkan mungkin lebih baik daripada manusia mana pun
  Saya pikir AI bisa membuat resep yang menang dalam kompetisi baking yang sangat kompetitif. Hanya saja mengalahkan seluruh 100 juri mustahil bagi siapa pun
  https://static.googleusercontent.com/media/research.google.c...
- Saya penasaran bagaimana jika jawabannya adalah “untuk memberi jawaban yang bermakna, dibutuhkan 2 minggu dan 5000 dolar”
- Bahkan dalam batasan LLM yang berjalan murni di komputer, jika LLM bisa menulis cerpen yang benar-benar hebat atau copy iklan yang bagus, itu akan mengubah dunia
- TikTok adalah versi digital dari masalah ini
- Saya bertanya-tanya apakah ada yang berpikir bahwa mencoba-coba resep cheesecake dengan program berbantuan LLM lalu meminta panel juri menilainya tidak akan menghasilkan cheesecake terbaik dalam sejarah
  Bagian memanggangnya adalah robotika, jadi perbandingannya memang kurang adil, tetapi sampai taraf tertentu hal itu sudah mungkin
Masalah terbesar yang tidak disadari penulis adalah seberapa besar komputasi yang dibutuhkan di sini
Tulisan ini sama seperti ungkapan bahwa jika diberi waktu, monyet akan menulis Shakespeare. Tentu saja benar, tetapi ruang pencariannya begitu besar hingga tak tertangani, dan sekalipun jawabannya ada di suatu tempat, kita tidak akan menemukannya di tengah kekacauan itu
Saya sudah lebih dari setahun bekerja penuh waktu membangun sistem LLM berbasis pruning dan evolusi
Saya sudah mencoba membuat berbagai algoritma “pencarian” atau “eksplorasi”. Masalahnya, setelah melewati beberapa langkah, agen yang semula diberi tugas meneliti atau menjalankan biologi malah sedang berbicara tentang kapal perang. Ini contoh dari pekerjaan nyata sebelumnya
Satu langkah saja hampir merupakan satu-satunya situasi ketika fungsi pencarian benar-benar bekerja. Pada agen multi-langkah, kemungkinan meledak menjadi tak terhingga dengan sangat cepat
Satu langkah pun bermasalah. Misalnya, menjalankan pertanyaan zero-shot untuk menyelesaikan soal coding sebanyak 1000 kali bisa membantu menemukan solusi yang lebih baik, tetapi itu mungkin karena ruang pencariannya terbatas. Batasan itu justru hal yang baik
Baru-baru ini saya menguji beberapa model LLM dengan menjalankan 10 ribu inferensi atas satu prompt input, hanya dengan mengubah pengaturan input. Satu prompt individual tidak memiliki kemungkinan respons yang tak terbatas. Ia terbatas. Karena itulah LLM saat ini bisa berfungsi
Fenomena agen yang tidak berjalan baik adalah contoh dari masalah ini. Ruang pencarian satu langkah saja sudah sangat besar, tetapi setiap kali agen bergerak satu langkah, ukurannya bertambah secara eksponensial
Saya sedang membuat alat dan sistem untuk menyelesaikan masalah ini, tetapi pencarian berskala besar tampaknya sama jauhnya dengan mengatakan “ini akan selesai kalau ukuran model AI diperbesar 100 kali”
Otonomi tidak sama dengan kecerdasan atau penalaran
Ungkapan bahwa “Leela Chess Zero disebut zero karena dimulai hanya dengan mengetahui aturan” memang umum, tetapi keliru
Leela dan keluarganya memiliki pengetahuan khusus catur lain yang esensial bagi performanya. Yaitu model dunia permainan yang merepresentasikan permainan catur sebagai game tree. Strukturnya dibagi menjadi satu ply pada setiap giliran masing-masing pemain
Game tree ini dieksplorasi oleh algoritma pencarian adversarial seperti minimax atau Monte Carlo Tree Search. Sejauh yang saya pahami, Leela memilih MCTS
Cara memodelkan permainan secara lebih akurat sebagai game tree berlaku bukan hanya untuk catur, tetapi juga banyak permainan lain. Namun game tree spesifik yang dipakai di engine catur berbentuk sesuai untuk permainan papan dua pemain, zero-sum, dengan informasi sempurna yang mirip catur
Jenis permainan lain membutuhkan model dan algoritma pencarian yang berbeda. Contohnya Poker dan Libratus [1]
Game tree semacam ini, yaitu model dunia permainan, untuk saat ini tidak bisa dihilangkan jika tujuannya adalah performa unggul. Tulisan itu menyebut algoritma tanpa pencarian dan menyinggung singkat batasan intinya, yaitu “mengapa?”
Ini juga merupakan persoalan yang saya lihat dalam pelajaran pahit. Sebab ada pemilihan yang oportunistis tentang apa yang dianggap sebagai pengetahuan domain, yaitu “model” sebagai teori
Seperti yang juga dikatakan Rodney Brooks [2] dan lainnya, convolutional neural network mendominasi klasifikasi gambar berkat penggunaan lapisan konvolusi untuk menetapkan invariansi posisi. Itu adalah model visi mesin yang diciptakan manusia
Sama seperti game tree adalah model permainan yang diciptakan manusia, dan hal yang sama berlaku untuk sebagian besar yang sejauh ini dilakukan dalam AI dan machine learning. Manusia membuat model dunia, lingkungan, domain, dan proses; komputer menghitung dengan model itu; dan kadang-kadang, seperti dalam catur dan Go, menghasilkan sesuatu yang melampaui manusia atau setidaknya tidak dapat dicapai dengan solusi buatan tangan
Pelajaran yang harus dipetik sebenarnya berbeda. Model manusia + komputasi mesin telah memecahkan semua masalah sulit AI selama 80 tahun terakhir. Dan kita sama sekali belum tahu bagaimana melakukan sesuatu yang sedikit saja berbeda dari itu
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- Saya belum pernah melihat algoritma yang membuat model dunia hanya dari observasi. Saya sudah melihat beberapa petunjuk, tetapi belum pada level seperti manusia
  Suatu hari nanti itu akan datang. Kita hidup di zaman yang menarik

Pencarian AI: pelajaran yang lebih pahit

“Pelajaran yang lebih pahit” dari Leela dan Stockfish

Kebangkitan Stockfish: model kecil dan pencarian kuat

Definisi pencarian pada model fondasi dan keterbatasan saat ini

Skala mungkin bukan prasyarat untuk pencarian

Ekonomi pencarian dan kemungkinan otomatisasi riset AI

Bacaan terkait

1 komentar

Pendapat di Hacker News