Richard Sutton dan Andrew Barto Memenangkan Turing Award 2024

(awards.acm.org)

1 poin oleh GN⁺ 2025-03-06 | 1 komentar | Bagikan ke WhatsApp

ACM memilih Andrew G. Barto dan Richard S. Sutton, yang membangun fondasi konseptual dan algoritmik reinforcement learning, sebagai penerima 2024 ACM A.M. Turing Award
Sejak 1980-an, keduanya memformalkan pembelajaran berbasis reward sebagai kerangka kerja masalah umum, dan mengembangkan pendekatan yang tetap bekerja meski lingkungan dan reward tidak diketahui
Kontribusi utama mereka berlanjut ke temporal difference learning, metode policy gradient, representasi fungsi berbasis neural network, serta rancangan agen yang menggabungkan pembelajaran dan perencanaan
Buku ajar 1998 Reinforcement Learning: An Introduction telah dikutip lebih dari 75.000 kali, dan memengaruhi AlphaGo, RLHF pada ChatGPT, manipulasi robot, pengendalian kemacetan jaringan, desain chip, dan lainnya
Turing Award didukung Google dengan hadiah 1 juta dolar AS, dan ACM menilai reinforcement learning berkontribusi baik pada kemajuan AI maupun pemahaman cara kerja otak

Penerima penghargaan dan alasan pemilihan

ACM memilih Andrew G. Barto dan Richard S. Sutton sebagai penerima 2024 ACM A.M. Turing Award
Alasan pemilihannya adalah jasa mereka dalam mengembangkan fondasi konseptual dan algoritmik reinforcement learning
Sejak 1980-an, keduanya memperkenalkan gagasan inti reinforcement learning melalui makalah, serta membangun landasan matematis dan algoritme-algoritme utamanya
Barto adalah profesor emeritus Information and Computer Sciences di University of Massachusetts, Amherst
Sutton adalah profesor ilmu komputer di University of Alberta, research scientist di Keen Technologies, dan fellow Amii (Alberta Machine Intelligence Institute)
ACM A.M. Turing Award disebut sebagai “Nobel bidang komputasi”, dan dengan dukungan finansial Google, Inc. diberikan hadiah 1 juta dolar AS

Masalah yang dipecahkan reinforcement learning

Kecerdasan buatan pada umumnya adalah bidang untuk membuat agen yang mempersepsi lingkungan dan bertindak
Agen yang lebih cerdas harus memilih jalur tindakan yang lebih baik, dan penilaian bahwa suatu tindakan lebih baik daripada tindakan lain berada di pusat AI
Reward adalah istilah dari psikologi dan neurosains, yang berarti sinyal yang diberikan terkait kualitas tindakan agen
Reinforcement learning adalah proses mempelajari cara bertindak lebih sukses berdasarkan sinyal reward ini
Dalam makalah tahun 1950 “Computing Machinery and Intelligence”, Alan Turing membahas “dapatkah mesin berpikir?” dan mengusulkan pendekatan machine learning berbasis reward dan punishment
Pada akhir 1950-an, Arthur Samuel mengembangkan program checkers yang belajar melalui self-play, tetapi selama beberapa dekade berikutnya hampir tidak ada kemajuan besar dalam lini AI ini

Kontribusi teknis Barto dan Sutton

Pada awal 1980-an, Barto dan Sutton, yang saat itu mahasiswa doktoral, terinspirasi oleh pengamatan psikologi dan mulai memformalkan reinforcement learning sebagai kerangka kerja masalah umum
Keduanya memanfaatkan landasan matematis Markov decision process (MDP)
- Dalam MDP, agen membuat keputusan di lingkungan probabilistik
- Setelah setiap transisi, agen menerima sinyal reward, dengan tujuan memaksimalkan reward kumulatif jangka panjang
Teori MDP standar mengasumsikan semua informasi diketahui oleh agen, tetapi kerangka reinforcement learning juga menangani situasi ketika lingkungan dan reward tidak diketahui
Karena kebutuhan informasinya kecil dan kerangka MDP bersifat umum, reinforcement learning dapat diterapkan pada beragam masalah
Melalui riset bersama dan kolaborasi lanjutan, Barto dan Sutton mengembangkan beberapa pendekatan algoritme reinforcement learning dasar
- Kontribusi terpentingnya adalah temporal difference learning, yang menghasilkan kemajuan besar dalam menyelesaikan masalah prediksi reward
- Metode policy gradient juga termasuk pendekatan utama
- Mereka mengembangkan pendekatan yang menggunakan neural network sebagai alat untuk merepresentasikan fungsi yang dipelajari
- Mereka juga mengusulkan rancangan agen gabungan pembelajaran dan perencanaan yang memperoleh pengetahuan lingkungan dan menjadikannya dasar perencanaan

Pengaruh yang berlanjut ke buku ajar dan deep reinforcement learning

Buku ajar 1998 Reinforcement Learning: An Introduction tetap menjadi referensi standar bidang ini dan telah dikutip lebih dari 75.000 kali
Buku ini membantu ribuan peneliti memahami dan berkontribusi pada reinforcement learning, yang saat itu merupakan bidang baru, serta masih memengaruhi aktivitas riset ilmu komputer saat ini
Algoritme Barto dan Sutton dikembangkan puluhan tahun lalu, tetapi dalam 15 tahun terakhir, penggabungan reinforcement learning dan algoritme deep learning telah menghasilkan kemajuan besar dalam aplikasi nyata
Penggabungan ini berlanjut menjadi teknik deep reinforcement learning
Algoritme deep learning diperkenalkan sebagai hal yang dipelopori oleh Bengio, Hinton, dan LeCun, penerima Turing Award 2018

Contoh penerapan dan perluasan riset

Contoh representatif reinforcement learning adalah kemenangan AlphaGo atas para pemain Go manusia terbaik pada 2016 dan 2017
ChatGPT juga termasuk capaian utama
- ChatGPT adalah large language model yang dilatih dalam dua tahap
- Pada tahap kedua, untuk menangkap ekspektasi manusia, digunakan reinforcement learning from human feedback (RLHF)
Di bidang robotika, ada contoh manipulasi robot dalam genggaman tangan dan penyelesaian Rubik’s Cube fisik
- Ini menunjukkan bahwa reinforcement learning, meski dilakukan dalam simulasi, dapat berhasil di dunia nyata yang cukup berbeda
Area penerapan lain mencakup pengendalian kemacetan jaringan, desain chip, iklan internet, optimisasi, optimisasi rantai pasok global, peningkatan kemampuan perilaku dan penalaran chatbot, serta perbaikan algoritme perkalian matriks
Teknologi yang terinspirasi neurosains kembali memengaruhi neurosains
- Riset terbaru, termasuk riset Barto, menilai bahwa algoritme reinforcement learning tertentu yang dikembangkan dalam AI paling baik menjelaskan berbagai temuan terkait sistem dopamin otak manusia

Penilaian ACM dan Google

Presiden ACM Yannis Ioannidis menilai riset Barto dan Sutton menunjukkan potensi penerapan pendekatan multidisipliner pada tantangan lama dalam komputasi
Ilmu kognitif, psikologi, dan neurosains menginspirasi perkembangan reinforcement learning, dan reinforcement learning memberikan fondasi bagi kemajuan penting AI serta wawasan yang lebih besar tentang cara kerja otak
Ioannidis menyatakan reinforcement learning bukanlah batu loncatan yang sudah berlalu, melainkan masih terus tumbuh dan menawarkan potensi kemajuan tambahan dalam komputasi serta berbagai bidang
Senior Vice President Google Jeff Dean mengutip pernyataan Alan Turing dalam kuliah tahun 1947 bahwa “yang kita inginkan adalah mesin yang dapat belajar dari pengalaman”
Dean menilai reinforcement learning yang dipelopori Barto dan Sutton menjawab langsung tantangan Turing, telah menjadi poros utama kemajuan AI selama beberapa dekade terakhir, dan tetap menjadi pilar pusat boom AI

Profil penerima penghargaan

Andrew Barto adalah profesor emeritus di departemen Information and Computer Sciences, University of Massachusetts, Amherst
- Ia memulai kariernya sebagai peneliti pascadoktoral di UMass Amherst pada 1977
- Setelah itu ia menjabat sebagai Associate Professor, Professor, Department Chair, dan posisi lainnya
- Ia meraih gelar sarjana matematika, serta master dan doktor Computer and Communication Sciences dari University of Michigan
- Ia menerima UMass Neurosciences Lifetime Achievement Award, IJCAI Award for Research Excellence, dan IEEE Neural Network Society Pioneer Award
- Ia adalah IEEE Fellow dan AAAS Fellow
Richard Sutton adalah profesor ilmu komputasi di University of Alberta, research scientist di Keen Technologies, perusahaan artificial general intelligence berbasis di Dallas, dan chief scientific advisor Amii
- Dari 2017 hingga 2023, ia adalah DeepMind Distinguished Research Scientist
- Dari 1998 hingga 2002, ia bekerja sebagai Principal Technical Staff Member di divisi AI AT&T Shannon Laboratory
- Kolaborasinya dengan Barto dimulai pada 1978 di University of Massachusetts at Amherst, dan Barto adalah pembimbing doktoral serta pascadoktoral Sutton
- Ia meraih gelar sarjana psikologi dari Stanford University, serta master dan doktor Computer and Information Science dari University of Massachusetts at Amherst
- Ia menerima IJCAI Research Excellence Award, Canadian Artificial Intelligence Association Lifetime Achievement Award, dan University of Massachusetts at Amherst Outstanding Achievement in Research Award
- Ia adalah fellow Royal Society of London, Association for the Advancement of Artificial Intelligence, dan Royal Society of Canada

1 komentar

GN⁺ 2025-03-06

Komentar di Hacker News

Senang sekali melihat ini. Ternyata kami, pasangan suami istri, membeli rumah pasangan Andy Barto
Dalam proses pembelian ada perang penawaran, dan ketika diminta mengajukan “penawaran terbaik”, karena tahu ia seorang matematikawan, saya mengajukan jumlah berupa bilangan prima. Keren melihat kiprahnya diakui
- Akan lucu juga kalau bercanda, “Biar adil untuk kita berdua, bagaimana kalau 2 dolar?”
- Kalau “jumlah berupa bilangan prima”, apakah $12345678910987654321?
- Cerita yang luar biasa. Penasaran berapa jumlah prima itu
Keren, dan sangat layak mendapatkannya. Kedua edisi buku ajar reinforcement learning tersedia gratis sebagai PDF
Saya sudah bekerja sebagai praktisi AI berbayar sejak 1982, tetapi reinforcement learning adalah topik yang sulit saya pelajari sendiri; buku Sutton/Barto dan kuliah reinforcement learning Coursera dari para profesor White sangat membantu. Saya rekomendasikan
Program contoh dari bukunya tersedia dalam Common Lisp dan Python: http://incompleteideas.net/book/the-book-2nd.html
Sekarang saat yang tepat untuk membaca ulang The Bitter Lesson: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- URL resminya ada di sini: <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- Benar-benar pelajaran yang pahit. Dulu, mengodekan pengetahuan manusia ke komputer terasa menyenangkan, dan itu membuat kita bisa memahami apa yang terjadi
  Sekarang semuanya makin menjadi kotak hitam raksasa yang sulit dinalar. Selain itu, Hukum Moore telah menjadi nubuat yang mewujudkan dirinya sendiri. Karena AI mendorong naik besar-besaran permintaan daya komputasi, produsen chip membuat perangkat keras khusus, dan ini berputar seperti flywheel
- Ini sedikit bergantung pada apa tujuan riset AI. Jika tujuannya membuat mesin yang pandai melakukan tugas-tugas yang dulu dianggap hanya bisa atau perlu dilakukan oleh pikiran manusia, pelajaran pahit seperti ini sangat berharga
  Namun jika tujuannya adalah mengajari mesin melakukan X sambil memahami bagaimana manusia melakukan X, konstruksi statistik yang makin kompleks hanya memberi informasi yang terbatas. Saya tidak memihak salah satu kubu; maksudnya mungkin diperlukan pendekatan yang lebih bernuansa
- Di computer vision juga ada arus serupa. Metode awal menangani penglihatan dengan mencari edge, generalized cylinder, dan fitur SIFT, tetapi kini hal-hal itu ditinggalkan, dan jaringan saraf deep learning modern bekerja jauh lebih baik hanya dengan konvolusi dan invariansi tertentu
  Saya berada di lapangan pada saat pattern matching mulai mati di bidang vision. Bukan berarti hilang sepenuhnya, dan hal-hal yang dipelajari saat itu masih berguna di tempat lain
- Membayangkan pelajaran pahit yang pasti dipelajari para praktisi natural language processing klasik membuat ngeri. Tulisan itu masih tetap benar hingga sekarang
Buku mereka Reinforcement Learning: An Introduction adalah salah satu teks paling mudah didekati di bidang AI/machine learning, jadi sangat saya rekomendasikan
- Saya pernah mencoba masuk ke reinforcement learning, tetapi selalu merasa formula dan berbagai hal bertanda bintang itu jauh melampaui level saya
- Saya penasaran latar belakangnya seperti apa. Sayangnya, saya tidak merasa buku itu terlalu mudah didekati
- Buku itu menyenangkan untuk dibaca. Sangat direkomendasikan
- Buku yang dimaksud Reinforcement Learning: An Introduction? Atau mereka juga menulis buku lain?
Untuk menyeimbangkannya, seharusnya diberikan kepada fisikawan
Perlu diingat bahwa Sutton adalah human successionist dan orang yang tidak peduli meski seluruh umat manusia mati. Ia bukan sosok yang layak dipercaya atau dirayakan: https://www.youtube.com/watch?v=NgHFMolXs3U
- Penghargaan ACM diberikan untuk prestasi akademik profesional mereka. Kita harus berhenti terobsesi mengorek kehidupan pribadi seseorang untuk menemukan bagian paling aneh yang pernah ia katakan, lalu menjadikannya alasan untuk menyelimuti seluruh capaian hidupnya dengan kejahatan
  Bodoh dan berbahaya jika siapa pun bisa membatalkan pencapaian mulia tentang B yang dapat mengubah dunia hanya karena tidak suka A, atau karena orang itu pernah mengatakan/melakukan A. Internet menempatkan penilaian orang-orang yang benar-benar memahami persoalan pada bobot yang sama dengan rasa tidak suka yang sederhana. Saya kesal karena cara seperti ini memecah-belah orang pada skala yang lebih besar
- Pernah bertemu Sutton langsung? Ia termasuk orang paling hangat, penuh perhatian, dan bersemangat yang pernah saya temui—hampir seperti hippie. Ia tidak menginginkan semua manusia mati
  Ceramah yang ditautkan juga tidak mendukung klaim itu. Jika saya melewatkannya, tolong beri timestamp. Dalam ceramah itu ia mengatakan bahwa meskipun umat manusia tidak lagi mengendalikan takdirnya sendirian, hal itu akan mengarah ke era kemakmuran. Slide kesimpulan pada 12:33 secara harfiah memuat butir “harapan terbaik bagi masa depan jangka panjang umat manusia”. Ini kebalikan dari “tidak peduli meski seluruh umat manusia mati”
  Hanya karena saya mempersiapkan suksesi, bukan berarti saya ingin atau mengharapkan putri saya membunuh saya. Yang saya harapkan adalah menjalani masa pensiun yang sehat dan panjang, lalu tertidur tenang dengan mengetahui bahwa saya telah mewariskan sebanyak mungkin yang terbaik kepada putri saya dalam hubungan simbiotik dengan alam semesta
- “Tidak peduli meski seluruh umat manusia mati” tampaknya merupakan ungkapan yang keras dan menyesatkan tentang posisinya
  Menurut saya, ia lebih dekat pada keyakinan bahwa manusia pada akhirnya tak terhindarkan akan digantikan oleh transhuman. Itu terlihat seperti utopianisme fiksi ilmiah yang kasar, bukan niat jahat, dan tampaknya bukan alasan untuk tidak merayakan pencapaian akademiknya
- Menarik untuk memberi tahu orang tentang pandangan seperti itu, tetapi saya tidak mengerti mengapa seseorang tidak boleh dipercaya atau dirayakan hanya karena memiliki pandangan yang tidak kita setujui
  Terutama, sindiran bahwa Sutton secara aktif menginginkan semua orang mati tampaknya sangat lemah dasarnya
- Slide terakhirnya secara harfiah berbunyi “harapan terbaik bagi masa depan jangka panjang umat manusia”. Itu kebalikan langsung dari klaim tersebut
Saya menggunakan buku reinforcement learning mereka di kelas yang saya ajar. Tulisannya indah dan tersedia gratis: http://incompleteideas.net/book/the-book-2nd.html
Kalimat-kalimatnya begitu bagus sampai kadang saya melewatkan isi sebenarnya saat membacanya
Selamat besar untuk Andrew Barto dan Richard Sutton atas Turing Award. Saat saya masih mahasiswa, Reinforcement Learning: An Introduction adalah gerbang masuk ke bidang ini
Khususnya Bab 6, Temporal Difference Learning, secara mendasar mengubah cara saya memandang pengambilan keputusan berurutan. Ini klasik yang tak lekang waktu dan masih sangat saya rekomendasikan untuk dibaca
Penghargaan yang sudah lama dinantikan. Mereka membawa satu ide dari awal sampai akhir, dan menumbuhkannya bukan sebagai subbab dalam buku dynamic programming, melainkan menjadi satu bidang utuh
Saya berharap reinforcement learning jauh lebih banyak dipakai dalam game, tempat semua ini juga bermula. Itu akan sangat keren
Penghargaan yang layak. Reinforcement learning akan makin penting seiring waktu berkat fleksibilitas yang dimilikinya bersama jaringan saraf
Saat skalanya terus diperbesar, pelajaran pahit itu rasanya tidak akan terlalu pahit lagi

Richard Sutton dan Andrew Barto Memenangkan Turing Award 2024

Penerima penghargaan dan alasan pemilihan

Masalah yang dipecahkan reinforcement learning

Kontribusi teknis Barto dan Sutton

Pengaruh yang berlanjut ke buku ajar dan deep reinforcement learning

Contoh penerapan dan perluasan riset

Penilaian ACM dan Google

Profil penerima penghargaan

Bacaan terkait

1 komentar

Komentar di Hacker News