- LLM penalaran eksperimental yang dikembangkan oleh OpenAI mencatat hasil setingkat medali emas di Olimpiade Matematika Internasional (IMO) 2025
- Mengikuti aturan resmi IMO yang sama, model ini memecahkan soal dan menulis pembuktian dalam bahasa alami, lalu dinilai dengan suara bulat oleh 3 penilai manusia, memperoleh 35 poin dari total 42 poin (menyelesaikan 5 dari 6 soal)
- Soal IMO menuntut pemikiran kreatif tingkat tinggi dan pembuktian multi-langkah, dan ini menunjukkan kemungkinan LLM menghasilkan pembuktian logis setingkat manusia melampaui keterbatasan pendekatan RL sebelumnya
- Pencapaian ini sangat bermakna karena diraih melalui reinforcement learning umum dan perluasan komputasi saat waktu uji, bukan pendekatan yang berfokus pada tugas tertentu
- Model ini adalah versi riset yang terpisah dari GPT-5 yang akan segera dirilis, dan pengungkapan performa matematika tertinggi ke publik dijadwalkan beberapa bulan lagi
Ringkasan pencapaian IMO 2025 oleh LLM OpenAI
- Alexander Wei (@alexwei_) dari OpenAI mengumumkan bahwa model bahasa penalaran eksperimental terbaru mereka mencatat hasil setara standar medali emas di IMO 2025
- IMO adalah kompetisi sangat sulit yang diikuti remaja paling unggul dalam matematika dari seluruh dunia, dan terkenal dengan soal-soal yang menuntut penalaran logis kompleks serta pemahaman konseptual yang mendalam
- Metode evaluasinya sama dengan peserta manusia: dua sesi ujian masing-masing 4,5 jam, menggunakan lembar soal resmi, tanpa alat eksternal, dan menyerahkan pembuktian dalam bahasa alami
- Setiap soal dinilai secara independen oleh 3 mantan peraih medali IMO, lalu skor ditetapkan melalui kesepakatan bulat
Makna pencapaian dan tingkat kesulitan yang meningkat
- Soal IMO menuntut waktu berpikir yang jauh lebih panjang, kreativitas, dan argumentasi kompleks dibanding benchmark sebelumnya (GSM8K, MATH, AIME)
- Model kali ini menyelesaikan penuh 5 soal (P1~P5), dan tidak mengumpulkan P6, sehingga memperoleh 35/42 poin dan memenuhi ambang medali emas IMO yang sebenarnya
- Kemampuan menghasilkan pembuktian logis sepanjang beberapa halaman melampaui batas pendekatan reinforcement learning (RL) sebelumnya
Pendekatan riset dan konteks perkembangan AI
- Performa tinggi dicapai bukan oleh model yang hanya ditujukan untuk penyelesaian soal tertentu, melainkan berbasis RL umum dan perluasan komputasi
- Model ini berhasil menghasilkan luaran kreatif yang kompleks tanpa skema hadiah yang jelas seperti yang biasanya disediakan RL sebelumnya
- Ini adalah model eksperimental yang terpisah dari GPT-5 yang akan segera dirilis, dan kemampuan matematika pada level ini tidak direncanakan untuk dibuka ke publik dalam beberapa bulan ke depan
Prospek ke depan dan komentar komunitas
- Kecepatan kemajuan kemampuan matematika AI jauh melampaui perkiraan (dibanding prediksi 30% pada benchmark MATH pada 2021, kini telah mencapai medali emas IMO)
- Alexander juga menyampaikan ucapan selamat kepada seluruh peserta IMO 2025, sambil menekankan bahwa banyak anggota timnya adalah mantan peserta IMO
- Solusi model untuk soal IMO 2025 juga akan dipublikasikan, meski dengan gaya yang masih eksperimental
1 komentar
Komentar Hacker News
Noam Brown: kalau bekerja di lab terdepan, biasanya kita bisa melihat kemampuan baru beberapa bulan lebih awal, tetapi hasil kali ini benar-benar pencapaian baru yang memakai teknik yang sangat baru dikembangkan, bahkan para peneliti internal OpenAI pun terkejut, dan baru hari ini semua orang bisa melihat di mana batas terdepan itu berada
Selain itu, pencapaian kali ini dipimpin oleh tim kecil, dan Alex Wei berhasil mewujudkan ide riset yang tadinya tidak terlalu dipercaya banyak orang menjadi hasil nyata, sementara riset dan rekayasa bertahun-tahun dari OpenAI dan komunitas AI juga berperan besar
Tautan: https://x.com/polynoamial/status/1946478258968531288
Menariknya, solusi IMO tampak memakai kosakata yang cukup terbatas
Tautan: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Tidak perlu bicara panjang lebar kalau kata-kata yang sedikit lebih efektif”
Dan hal lain yang patut dicatat adalah Alex Wei sendiri juga peraih medali emas IOI
Bagi orang yang meremehkan ini karena katanya setingkat siswa SMA, saya sarankan mencoba menyelesaikan satu soal IMO; semuanya terbuka untuk umum, termasuk soal tahun ini
Tautan: https://www.imo-official.org/problems.aspx
Kepala saya langsung pusing
Misalnya saya pernah melihat soal x+y=1, xy=1, tetapi ternyata penyelesaiannya hanya memakai aljabar dasar yang kita kenal (faktorisasi, rumus kuadrat, dan sebagainya), dan bahkan penjelasannya pun indah
Rasanya seolah kalau dipikir lama-lama kita bisa menemukan jawabannya, tetapi dari pengalaman saya ternyata sama sekali tidak begitu
Tautan: https://www.youtube.com/watch?v=csS4BjQuhCc
Sepertinya ada sekitar 50 bahasa, dan saya langsung terpikir bahwa kalau sebanyak itu, menjaga keamanan seperti mencegah kebocoran soal tentu jadi jauh lebih sulit
Bahwa soal-soal ini berada di level siswa SMA itu hanya soal prasyarat pengetahuan; tingkat kesulitannya tetap sangat tinggi
Bahkan matematikawan profesional yang bukan lulusan IMO pun sulit menampilkan performa seperti ini
Ini bukan berarti AI sudah lebih unggul dari manusia dalam matematika, karena matematikawan fokus pada memperluas frontier matematika
Katanya jawaban yang benar tidak ada di data pelatihan
Dan mereka juga mengklaim model ini bukan model yang dikhususkan hanya untuk soal IMO
Kita terus menyetel proses pelatihan, lalu ketika performa validation set membaik, kita kembali memilih arsitektur dan data berdasarkan itu
Tanpa disengaja pun, sedikit demi sedikit informasi validation set bisa meresap ke model
Kalau validation set-nya dipilih berbeda saja, model yang dihasilkan bisa benar-benar berbeda
Cara model itu menjawab juga terasa seperti itu
Contoh: https://xcancel.com/alexwei_/status/1946477742855532918
Screenshot jawaban asli: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
Terlihat seperti gaya AlphaProof yang bolak-balik antara bahasa alami dan sistem seperti Lean
OpenAI tampaknya tidak akan membagikan detail implementasi seperti ini
Di thread disebutkan: “model menyelesaikan P1~P5, tetapi tidak memberi jawaban untuk P6”
Soal tersulit (P6) memang hampir tidak bisa diselesaikan manusia juga; bahkan tim Tiongkok pun hanya mendapat 21 dari 42 poin, dan di kebanyakan negara lain tidak ada seorang pun yang bisa menyelesaikannya
Biasanya urutan kesulitannya memang dimaksudkan sebagai P1, P4, P2, P5, P3, P6; P1 paling mudah dan P6 paling sulit
Dalam praktiknya, kadang urutan ini juga bisa berbeda
Kalaupun itu hanya kebetulan mekanis, model seharusnya juga bisa menghasilkan jawaban yang salah, jadi timbul pertanyaan apakah yang dipilih hanya jawaban yang benar, yakni apakah hanya hasil yang berhasil saja yang diseleksi
Google juga ikut IMO kali ini dan mendapat emas
Tautan: https://x.com/natolambert/status/1946569475396120653
Karena OAI mengumumkan lebih dulu, kemungkinan Google juga akan segera merilis pengumuman resmi
Di Twitter ada yang bilang Google memakai Lean, sementara OpenAI hanya memakai LLM tanpa alat bantu
Apa pun pendekatannya, hasil akhirnya memang lebih penting, tetapi batasan teknik konkret dan proses perkembangannya juga menarik untuk dicermati
Yang khas dari emas OpenAI adalah kabarnya ini bisa dicapai dengan LLM murni saja
Kalau Google merilis pengumuman resmi, kita mungkin bisa tahu pendekatan apa yang mereka pakai
Kelebihan pendekatan LLM adalah potensinya untuk digeneralisasi bukan hanya ke pembuktian matematika, tetapi juga ke berbagai masalah penalaran lain
Noam Brown:
Ini bukan model yang dikhususkan untuk IMO, melainkan LLM penalaran dengan teknik umum eksperimental baru
Proses berpikirnya jauh lebih efisien daripada o1 dan o3, dan efisiensi saat pengujian masih bisa terus didorong lebih jauh ke depan
Perkembangan AI belakangan ini memang cepat, dan saya berharap ini akan terus berlanjut
Terutama, saya merasa kita sedang mendekati titik ketika AI mulai benar-benar berkontribusi pada penemuan ilmiah
Sampai baru-baru ini saya sempat merasa kemajuan mulai melambat, tetapi dari berbagai klaim ini (bahwa modelnya tidak spesifik dan efisiensinya masih bisa ditingkatkan), terlihat sangat jelas adanya kemajuan nyata
Tautan: https://x.com/polynoamial/status/1946478249187377206
“Jika lawan memakai strategi respons (tetap) maka ia tidak akan pernah kalah. Agar dia menang (membuat lawan kalah), harus berlaku Q_{even-1}>even, yakni ada suatu a_j> sqrt2, tetapi sudah diketahui a_j<=c< sqrt2. Jadi ia tidak mungkin kalah” dan seterusnya
Terlihat ada upaya memaksimalkan efisiensi dengan kata-kata sesedikit mungkin
Tautan: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
Ini benar-benar pencapaian yang mengesankan, tetapi saya penasaran bagaimana mereka melakukannya
Melihat dugaan Wei tentang “scaling up test-time compute”, rasanya mereka mungkin menghabiskan uang dalam jumlah besar
Kalau ternyata dijalankan paralel ribuan sampai puluhan ribu kali lalu hanya hasil terbaik yang dipilih, itu akan mengecewakan
Kalau ini benar-benar pencapaian yang solid, mereka harus transparan soal alat apa yang dipakai dan bagaimana cara memakainya
Kemungkinan ada berbagai teknik untuk meningkatkan performa pada masalah yang sulit diverifikasi, dan mungkin itu yang dipakai di sini
Justru itu berarti model bisa membedakan ketepatan dan ketelitian jawaban, dan itu tidak berbeda jauh dari manusia yang sesekali juga berhasil memecahkannya
Itu juga pendekatan yang dipakai pada benchmark ARC awal o3
Mungkin juga memakai banyak agen yang bekerja sama, jadi batas panjang konteks (batas jumlah token) bisa diakali
Sekarang AI sudah melampaui 99,99% manusia untuk kebanyakan soal matematika, jadi bahkan kalau menang dari 99,999% pun rasanya tidak terlalu mengejutkan lagi
Kalau LLM sendiri yang memverifikasi lalu mengadopsinya, itu mirip proses manusia mencoba berkali-kali untuk menyelesaikan soal sulit
Bedanya, AI bisa melakukannya secara paralel karena punya sumber daya komputasi, sementara manusia hanya bisa mencoba secara berurutan
Kompetisi ini (IMO) memang sangat elit sehingga tampaknya bahkan di komunitas programmer pun banyak yang tidak benar-benar tahu persis kompetisi ini apa
Kalau dihitung kasar, di AS ada sekitar 20 orang yang lolos ke camp (dan punya peluang emas), dibandingkan sekitar 20 juta siswa SMA dalam satu angkatan, jadi ini talenta pada level “satu dari sejuta”
Saya sendiri lulusan sekolah unggulan, tetapi baru mendengar IMO saat kuliah setelah bertemu para pesertanya
Dalam praktiknya, jumlah siswa yang sadar akan kompetisi ini dan benar-benar ikut jauh lebih sedikit daripada total jumlah siswa
Terlepas dari kemampuan, rasanya banyak siswa mungkin juga bisa mendapat hasil baik kalau saja mereka punya akses dan informasi yang tepat
Saya baru melihat laporan terbaru terkait evaluasi LLM pada IMO 2025, dan o3 high bahkan tidak mencapai level perunggu
Tautan: https://matharena.ai/imo/
Saya juga menantikan pendapat Terry Tao, tetapi perkembangan di bidang seperti ini justru saya anggap sebagai penggunaan AI yang positif
Daripada inovasi serampangan ketika ekonomi pun belum siap, saya berharap kontribusinya diarahkan untuk mempercepat kemajuan sains
Tautan: https://mathstodon.xyz/@tao/114881419368778558