AI DeepMind menyelesaikan soal Olimpiade Matematika Internasional pada tingkat medali perak
(deepmind.google)- AlphaProof dan AlphaGeometry 2 dari Google DeepMind berhasil menyelesaikan soal Olimpiade Matematika Internasional
- AlphaProof: sistem penalaran matematis berbasis reinforcement learning
- AlphaGeometry 2: sistem pemecahan soal geometri yang ditingkatkan
- Kedua sistem tersebut menyelesaikan 4 dari 6 soal pada Olimpiade Matematika Internasional (IMO) tahun ini, mencapai performa setara medali perak
Pencapaian AI dalam menyelesaikan masalah matematika yang kompleks
-
Pengenalan IMO
- Kompetisi matematika remaja tertua dan paling bergengsi yang diadakan setiap tahun sejak 1959
- Soal kompetisi mencakup aljabar, kombinatorika, geometri, teori bilangan, dan bidang lainnya
- Banyak peraih Fields Medal berasal dari IMO
-
Tantangan IMO bagi sistem AI
- AlphaProof dan AlphaGeometry 2 menyelesaikan soal IMO tahun ini
- Soal dinilai sesuai aturan resmi kompetisi
- AlphaProof menyelesaikan 2 soal aljabar dan 1 soal teori bilangan
- AlphaGeometry 2 menyelesaikan 1 soal geometri
- Dua soal kombinatorika tidak berhasil diselesaikan
- Total memperoleh 28 dari 42 poin, mencapai performa setara medali perak
AlphaProof: pendekatan penalaran formal
-
Cara kerja AlphaProof
- Membuktikan proposisi matematika dalam bahasa formal Lean
- Menggabungkan model bahasa yang telah dipra-latih dengan algoritma reinforcement learning AlphaZero
- Menerjemahkan soal bahasa alami menjadi proposisi formal untuk menyelesaikan soal dengan berbagai tingkat kesulitan
- Saat soal diberikan, AlphaProof menghasilkan kandidat solusi lalu membuktikan atau membantahnya
- Hasil yang berhasil dibuktikan memperkuat model bahasa AlphaProof sehingga meningkatkan kemampuan menyelesaikan soal yang lebih sulit
-
Proses pelatihan
- Dilatih dengan membuktikan atau membantah jutaan soal
- Selama periode kompetisi pun loop pelatihan diterapkan untuk membuktikan variasi soal
AlphaGeometry 2 yang lebih kompetitif
-
Peningkatan pada AlphaGeometry 2
- Model bahasa berbasis Gemini dan sistem hibrida neural-simbolik
- Dilatih dengan data sintetis 10 kali lebih banyak daripada versi sebelumnya
- Kecepatan dan akurasi penyelesaian soal geometri meningkat
- Menggunakan mekanisme berbagi pengetahuan saat menyelesaikan soal baru
-
Pencapaian IMO 2024
- Menyelesaikan 83% soal geometri IMO selama 25 tahun terakhir
- Menyelesaikan soal nomor 4 pada kompetisi tahun ini hanya dalam 19 detik
Frontier baru dalam penalaran matematis
-
Eksperimen sistem penalaran bahasa alami
- Eksperimen sistem penalaran bahasa alami berbasis Gemini
- Dapat menyelesaikan soal tanpa menerjemahkannya ke bahasa formal
- Menjelajahi kemungkinan untuk digabungkan dengan sistem AI lain
-
Prospek ke depan
- Matematikawan dapat berkolaborasi dengan alat AI untuk mengeksplorasi hipotesis baru, mencoba pendekatan pemecahan masalah, dan mempersingkat proses pembuktian
- Sistem AI seperti Gemini meningkatkan kemampuan matematika dan penalaran umum
Ringkasan GN⁺
- AlphaProof dan AlphaGeometry 2 menunjukkan potensi AI dalam penalaran matematis
- Mencapai performa setara medali perak di Olimpiade Matematika Internasional, membuktikan kemampuan AI dalam memecahkan soal matematika
- Membuka kemungkinan bagi matematikawan untuk berkolaborasi dengan AI dalam menjelajahi pendekatan pemecahan masalah yang baru
- Proyek dengan fungsi serupa mencakup model pemrosesan bahasa alami seperti GPT-3 dari OpenAI
3 komentar
Semakin banyak matematikawan yang berkontribusi pada pengembangan pustaka matematika formal, akan semakin mudah membuat AI matematika dengan kinerja tinggi. Setahu saya, saat ini ada 3 orang Korea yang sedang memindahkan teori matematika yang mereka formalkan sendiri ke dalam bahasa asisten pembuktian Lean ke pustaka matematika Lean, Mathlib.
Tahun lalu saya ikut sedikit berpartisipasi dalam pekerjaan memindahkan Mathlib dari Lean 3 ke Lean 4, dan tahun ini saya membuktikan satu teorema yang belum terselesaikan di pustaka baterai Lean 4.
Komentar Hacker News
Komentar pertama
Komentar kedua
Komentar ketiga
Komentar keempat
Komentar kelima
Komentar keenam
Komentar ketujuh
Komentar kedelapan
Komentar kesembilan
Komentar kesepuluh
Diskusi terbaik itu bisa dilihat di sini. https://leanprover.zulipchat.com/#narrow/stream/219941-Machine-Learnin…