1 poin oleh GN⁺ 2024-12-25 | 1 komentar | Bagikan ke WhatsApp

Ilmu Komputer > Pembelajaran Mesin

  • Judul: Adversarial Policies Beat Superhuman Go AIs
  • Penulis: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
  • Tanggal Pengiriman: 1 November 2022 (v1), terakhir diperbarui 13 Juli 2023 (v4)

Ringkasan

  • Tim peneliti melatih kebijakan adversarial pada sistem AI Go mutakhir KataGo dan mencapai tingkat kemenangan di atas 97% melawan KataGo dalam konfigurasi superhuman.
  • Kebijakan adversarial tidak menang karena memainkan Go dengan lebih baik, tetapi dengan memaksa KataGo membuat kesalahan serius.
  • Serangan ini dapat ditransfer secara zero-shot ke AI Go superhuman lain, dan dapat dipahami sampai titik di mana seorang ahli manusia mampu secara konsisten mengalahkan AI superhuman tanpa bantuan algoritme.
  • Kerentanan utama yang ditemukan ini tetap bertahan bahkan pada agen KataGo yang dilatih secara adversarial agar kebal terhadap serangan.
  • Hasil penelitian ini menunjukkan bahwa sistem AI superhuman pun bisa memiliki mode kegagalan yang mengejutkan.

Informasi Tambahan

  • Status makalah: Diterima di ICML 2023
  • Topik: Pembelajaran Mesin (cs.LG); Kecerdasan Buatan (cs.AI); Kriptografi dan Keamanan (cs.CR); Pembelajaran Mesin (stat.ML)
  • Klasifikasi ACM: I.2.6
  • Sitasi: arXiv:2211.00241 [cs.LG] (atau arXiv:2211.00241v4 [cs.LG] untuk versi ini)
  • Riwayat pengiriman:
    • [v1] 1 November 2022
    • [v2] 9 Januari 2023
    • [v3] 18 Februari 2023
    • [v4] 13 Juli 2023

Akses

  • Tersedia dalam format PDF dan format lain
  • Menyediakan makalah terkait dan alat sitasi

Informasi arXiv

  • arXiv adalah platform untuk berbagi makalah penelitian, yang menyediakan makalah dari berbagai topik.

1 komentar

 
GN⁺ 2024-12-25
Pendapat Hacker News
  • Seorang pengguna menyebutkan bahwa makalah ini terlihat mengesankan di awal, tetapi sulit dipahami. Ia menyatakan meski memiliki sedikit pengetahuan tentang Go dan AI Go, serta banyak pengetahuan tentang catur dan AI catur, penjelasannya kurang memadai dan terlalu banyak istilah teknis sehingga sulit dimengerti.

    • Ia berpendapat bahwa makalah itu menyembunyikan gagasan mereka; gagasan yang ditawarkan mungkin memang mengejutkan sekaligus sederhana.
  • Ia mengemukakan kasus-kasus tepi pada catur dan membandingkan evaluasi Stockfish serta Lc0.

    • Dalam kasus pertama, Stockfish dan Lc0 menilai warna putih sedikit unggul.
    • Pada kasus kedua dan ketiga, keduanya menilai warna hitam menang.
    • Pada kasus keempat, Lc0 memahaminya sementara Stockfish tidak.
  • Ia menyatakan bahwa di Go, pemain amatir bisa menjadi lawan yang menantang karena langkah-langkah yang sulit diprediksi.

    • Langkah dengan bentuk yang tidak normal kadang-kadang bisa efektif.
  • Ia mengingatkan bahwa setelah Deep Blue, para pemain catur meningkatkan strateginya terhadap komputer.

    • Pada Go, ruang yang lebih besar membuat kemungkinan lebih banyak strategi anti-komputer.
    • Ini adalah metode yang mengeksploitasi kelemahan fungsi evaluasi.
  • Ia juga menyebut bahwa dalam catur, semakin banyak perhitungan berarti kemenangan.

    • Elo adalah pengukuran kemenangan, dan mencampurkannya dengan tingkat kesulitan dapat menyebabkan inferensi yang salah.
  • Ia menyebut makalah yang diperbarui dari 2022 hingga 2023, yang mungkin pernah ia baca sebelumnya.

    • Ia ingin tahu seberapa efektif pendekatan ini untuk mesin catur bergaya Leela.
  • Ia menyebut bahwa manusia juga masih memiliki harapan.

  • Ia mengatakan bahwa makalah ini akan digunakan untuk mengintegrasikan pertahanan terhadap strategi adversarial dalam AI Go.

    • Ini hanya rasa ingin tahu, tetapi mencerminkan kondisi keseluruhan pengembangan AI.
  • Ia menyebut kesimpulan seperti "hasil kami menunjukkan bahwa bahkan sistem AI superintelektual pun dapat memiliki mode kegagalan yang mengejutkan" terasa hampa.

    • Ini tidak punya arti untuk "superintelligence" di masa depan, dan bisa saja memiliki, atau tidak memiliki, "mode kegagalan" semacam itu.