OpenAI mengumumkan pencapaian setara medali emas di Olimpiade Matematika Internasional (IMO) 2025

(twitter.com/alexwei_)

5 poin oleh GN⁺ 2025-07-20 | 1 komentar | Bagikan ke WhatsApp

LLM penalaran eksperimental yang dikembangkan oleh OpenAI mencatat hasil setingkat medali emas di Olimpiade Matematika Internasional (IMO) 2025
Mengikuti aturan resmi IMO yang sama, model ini memecahkan soal dan menulis pembuktian dalam bahasa alami, lalu dinilai dengan suara bulat oleh 3 penilai manusia, memperoleh 35 poin dari total 42 poin (menyelesaikan 5 dari 6 soal)
Soal IMO menuntut pemikiran kreatif tingkat tinggi dan pembuktian multi-langkah, dan ini menunjukkan kemungkinan LLM menghasilkan pembuktian logis setingkat manusia melampaui keterbatasan pendekatan RL sebelumnya
Pencapaian ini sangat bermakna karena diraih melalui reinforcement learning umum dan perluasan komputasi saat waktu uji, bukan pendekatan yang berfokus pada tugas tertentu
Model ini adalah versi riset yang terpisah dari GPT-5 yang akan segera dirilis, dan pengungkapan performa matematika tertinggi ke publik dijadwalkan beberapa bulan lagi

Ringkasan pencapaian IMO 2025 oleh LLM OpenAI

Alexander Wei (@alexwei_) dari OpenAI mengumumkan bahwa model bahasa penalaran eksperimental terbaru mereka mencatat hasil setara standar medali emas di IMO 2025
- IMO adalah kompetisi sangat sulit yang diikuti remaja paling unggul dalam matematika dari seluruh dunia, dan terkenal dengan soal-soal yang menuntut penalaran logis kompleks serta pemahaman konseptual yang mendalam
Metode evaluasinya sama dengan peserta manusia: dua sesi ujian masing-masing 4,5 jam, menggunakan lembar soal resmi, tanpa alat eksternal, dan menyerahkan pembuktian dalam bahasa alami
Setiap soal dinilai secara independen oleh 3 mantan peraih medali IMO, lalu skor ditetapkan melalui kesepakatan bulat

Makna pencapaian dan tingkat kesulitan yang meningkat

Soal IMO menuntut waktu berpikir yang jauh lebih panjang, kreativitas, dan argumentasi kompleks dibanding benchmark sebelumnya (GSM8K, MATH, AIME)
Model kali ini menyelesaikan penuh 5 soal (P1~P5), dan tidak mengumpulkan P6, sehingga memperoleh 35/42 poin dan memenuhi ambang medali emas IMO yang sebenarnya
Kemampuan menghasilkan pembuktian logis sepanjang beberapa halaman melampaui batas pendekatan reinforcement learning (RL) sebelumnya

Pendekatan riset dan konteks perkembangan AI

Performa tinggi dicapai bukan oleh model yang hanya ditujukan untuk penyelesaian soal tertentu, melainkan berbasis RL umum dan perluasan komputasi
Model ini berhasil menghasilkan luaran kreatif yang kompleks tanpa skema hadiah yang jelas seperti yang biasanya disediakan RL sebelumnya
Ini adalah model eksperimental yang terpisah dari GPT-5 yang akan segera dirilis, dan kemampuan matematika pada level ini tidak direncanakan untuk dibuka ke publik dalam beberapa bulan ke depan

Prospek ke depan dan komentar komunitas

Kecepatan kemajuan kemampuan matematika AI jauh melampaui perkiraan (dibanding prediksi 30% pada benchmark MATH pada 2021, kini telah mencapai medali emas IMO)
Alexander juga menyampaikan ucapan selamat kepada seluruh peserta IMO 2025, sambil menekankan bahwa banyak anggota timnya adalah mantan peserta IMO
Solusi model untuk soal IMO 2025 juga akan dipublikasikan, meski dengan gaya yang masih eksperimental

1 komentar

GN⁺ 2025-07-20

Komentar Hacker News

Noam Brown: kalau bekerja di lab terdepan, biasanya kita bisa melihat kemampuan baru beberapa bulan lebih awal, tetapi hasil kali ini benar-benar pencapaian baru yang memakai teknik yang sangat baru dikembangkan, bahkan para peneliti internal OpenAI pun terkejut, dan baru hari ini semua orang bisa melihat di mana batas terdepan itu berada
Selain itu, pencapaian kali ini dipimpin oleh tim kecil, dan Alex Wei berhasil mewujudkan ide riset yang tadinya tidak terlalu dipercaya banyak orang menjadi hasil nyata, sementara riset dan rekayasa bertahun-tahun dari OpenAI dan komunitas AI juga berperan besar
Tautan: https://x.com/polynoamial/status/1946478258968531288
- Semoga saja teknik baru itu bukan berarti melatih dengan data uji /bercanda
Menariknya, solusi IMO tampak memakai kosakata yang cukup terbatas
Tautan: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Tidak perlu bicara panjang lebar kalau kata-kata yang sedikit lebih efektif”
Dan hal lain yang patut dicatat adalah Alex Wei sendiri juga peraih medali emas IOI
- Di satu sisi, menarik karena ini mirip catatan yang ditulis peserta sungguhan saat sedang mengerjakan soal; kalau kata-kata yang tidak perlu dikurangi, noise informasi juga berkurang sehingga lebih membantu fokus, apalagi karena LLM menghasilkan satu token setiap kali dan punya batas panjang konteks, jadi saya penasaran apakah dengan hanya memakai token yang bermakna, ini bisa mengarah pada alur berpikir yang lebih panjang dan konsisten
- Menarik bahwa dia peraih emas IOI (Olimpiade Informatika), sementara diskusi di sini tentang IMO (Olimpiade Matematika)
- Terence Tao juga baru-baru ini memprediksi di podcast bahwa tahun ini LLM akan meraih emas
- Pada transformer, berapa pun makna yang dibawa, setiap token butuh waktu yang sama untuk dihasilkan; kalau bagian yang berulang atau tidak perlu dipangkas dari teks, kecepatannya bisa meningkat drastis
- Saya ingin bertanya apakah “see the world” itu maksudnya “lihat dunia” atau permainan bunyi seperti “seaworld”
Bagi orang yang meremehkan ini karena katanya setingkat siswa SMA, saya sarankan mencoba menyelesaikan satu soal IMO; semuanya terbuka untuk umum, termasuk soal tahun ini
Tautan: https://www.imo-official.org/problems.aspx
Kepala saya langsung pusing
- Terkait itu, ada video-video yang menunjukkan bagaimana orang benar-benar memikirkan dan menyelesaikan soal seperti ini
  - Penyelesaian soal sulit IMO 2011 Q2 dari kanal 3Blue1Brown: https://www.youtube.com/watch?v=M64HUIJFTZM
  - Video penyelesaian soal Putnam dengan tingkat kesulitan serupa: https://www.youtube.com/watch?v=OkmNXy7er84
  - Timothy Gowers, peraih Fields Medal dan pemegang skor sempurna di IMO, menyelesaikan soal IMO tahun ini secara langsung
    - Q1: https://www.youtube.com/watch?v=1G1nySyVs2w
    - Q4: https://www.youtube.com/watch?v=O-vp4zGzwIs
- Saya suka menonton video YouTube penyelesaian soal seperti ini; kelihatannya sederhana di permukaan, tapi seperti tipuan
  Misalnya saya pernah melihat soal x+y=1, xy=1, tetapi ternyata penyelesaiannya hanya memakai aljabar dasar yang kita kenal (faktorisasi, rumus kuadrat, dan sebagainya), dan bahkan penjelasannya pun indah
  Rasanya seolah kalau dipikir lama-lama kita bisa menemukan jawabannya, tetapi dari pengalaman saya ternyata sama sekali tidak begitu
  Tautan: https://www.youtube.com/watch?v=csS4BjQuhCc
- Saya penasaran bagaimana perbandingan soal IMO seperti ini dengan soal tingkat hard di leetcode
- Baru kali ini saya tahu bahwa soal IMO tersedia dalam banyak versi bahasa
  Sepertinya ada sekitar 50 bahasa, dan saya langsung terpikir bahwa kalau sebanyak itu, menjaga keamanan seperti mencegah kebocoran soal tentu jadi jauh lebih sulit
Bahwa soal-soal ini berada di level siswa SMA itu hanya soal prasyarat pengetahuan; tingkat kesulitannya tetap sangat tinggi
Bahkan matematikawan profesional yang bukan lulusan IMO pun sulit menampilkan performa seperti ini
Ini bukan berarti AI sudah lebih unggul dari manusia dalam matematika, karena matematikawan fokus pada memperluas frontier matematika
Katanya jawaban yang benar tidak ada di data pelatihan
Dan mereka juga mengklaim model ini bukan model yang dikhususkan hanya untuk soal IMO
- Setahu saya, saat melakukan data science, mencegah kebocoran validation set ternyata jauh lebih sulit daripada yang dibayangkan
  Kita terus menyetel proses pelatihan, lalu ketika performa validation set membaik, kita kembali memilih arsitektur dan data berdasarkan itu
  Tanpa disengaja pun, sedikit demi sedikit informasi validation set bisa meresap ke model
  Kalau validation set-nya dipilih berbeda saja, model yang dihasilkan bisa benar-benar berbeda
- Saya ragu ini benar-benar bukan model yang dikhususkan untuk IMO; di thread Twitter mereka bilang ini “general reasoning”, tetapi kalau memang benar-benar tidak melakukan RL pada soal matematika olimpiade, saya ingin sekali mendengar pernyataan resmi OpenAI tentang itu
- Saya penasaran dasar dari klaim “bukan model yang dikhususkan untuk IMO” itu apa
- Saya penasaran bukti atau dasar untuk “jawaban yang benar tidak ada di data pelatihan” dan “bukan model yang dikhususkan untuk IMO”
- Semakin dilihat, rasanya hampir pasti ini model yang dikhususkan untuk IMO
  Cara model itu menjawab juga terasa seperti itu
  Contoh: https://xcancel.com/alexwei_/status/1946477742855532918
  Screenshot jawaban asli: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
  Terlihat seperti gaya AlphaProof yang bolak-balik antara bahasa alami dan sistem seperti Lean
  OpenAI tampaknya tidak akan membagikan detail implementasi seperti ini
Di thread disebutkan: “model menyelesaikan P1~P5, tetapi tidak memberi jawaban untuk P6”
Soal tersulit (P6) memang hampir tidak bisa diselesaikan manusia juga; bahkan tim Tiongkok pun hanya mendapat 21 dari 42 poin, dan di kebanyakan negara lain tidak ada seorang pun yang bisa menyelesaikannya
- Di IMO, pada hari pertama peserta mengerjakan P1, P2, P3, dan pada hari kedua P4, P5, P6
  Biasanya urutan kesulitannya memang dimaksudkan sebagai P1, P4, P2, P5, P3, P6; P1 paling mudah dan P6 paling sulit
  Dalam praktiknya, kadang urutan ini juga bisa berbeda
- Sepertinya ada seseorang dari tim Kanada yang berhasil menyelesaikan P6, tetapi secara keseluruhan jumlahnya sangat sedikit
- Fakta bahwa mesin gagal pada soal yang juga dirasakan sangat sulit oleh manusia, terutama P6, terasa seperti petunjuk bahwa mungkin ada campur tangan manusia
  Kalaupun itu hanya kebetulan mekanis, model seharusnya juga bisa menghasilkan jawaban yang salah, jadi timbul pertanyaan apakah yang dipilih hanya jawaban yang benar, yakni apakah hanya hasil yang berhasil saja yang diseleksi
Google juga ikut IMO kali ini dan mendapat emas
Tautan: https://x.com/natolambert/status/1946569475396120653
Karena OAI mengumumkan lebih dulu, kemungkinan Google juga akan segera merilis pengumuman resmi
- Melihat komentar Noam Brown bahwa “bahkan peneliti internal OpenAI pun terkejut dengan hasil ini”, kalau beberapa lab mendapatkan hasil seperti ini secara bersamaan, itu justru akan lebih mengejutkan lagi
  Di Twitter ada yang bilang Google memakai Lean, sementara OpenAI hanya memakai LLM tanpa alat bantu
  Apa pun pendekatannya, hasil akhirnya memang lebih penting, tetapi batasan teknik konkret dan proses perkembangannya juga menarik untuk dicermati
- AlphaProof milik Google tahun lalu meraih perak dan memakai pendekatan neural+symbolic
  Yang khas dari emas OpenAI adalah kabarnya ini bisa dicapai dengan LLM murni saja
  Kalau Google merilis pengumuman resmi, kita mungkin bisa tahu pendekatan apa yang mereka pakai
  Kelebihan pendekatan LLM adalah potensinya untuk digeneralisasi bukan hanya ke pembuktian matematika, tetapi juga ke berbagai masalah penalaran lain
Noam Brown:
Ini bukan model yang dikhususkan untuk IMO, melainkan LLM penalaran dengan teknik umum eksperimental baru
Proses berpikirnya jauh lebih efisien daripada o1 dan o3, dan efisiensi saat pengujian masih bisa terus didorong lebih jauh ke depan
Perkembangan AI belakangan ini memang cepat, dan saya berharap ini akan terus berlanjut
Terutama, saya merasa kita sedang mendekati titik ketika AI mulai benar-benar berkontribusi pada penemuan ilmiah
Sampai baru-baru ini saya sempat merasa kemajuan mulai melambat, tetapi dari berbagai klaim ini (bahwa modelnya tidak spesifik dan efisiensinya masih bisa ditingkatkan), terlihat sangat jelas adanya kemajuan nyata
Tautan: https://x.com/polynoamial/status/1946478249187377206
- Menurut saya ada perbedaan besar antara “model yang menyelesaikan soal ujian” dan “AI yang berkontribusi pada penemuan ilmiah”
- Ini terdengar seperti mimpi, tetapi seperti halnya fine-tuning untuk ujian tertentu seperti ujian pengacara, model-model seperti ini juga sering kali sudah dilatih pada soal-soal ujian versi sebelumnya
- Saya penasaran apakah penggunaan alat bantu (seperti automated prover) juga dipakai selama proses fine-tuning
- Bagian “lebih efisien daripada o1 dan o3”,
  “Jika lawan memakai strategi respons (tetap) maka ia tidak akan pernah kalah. Agar dia menang (membuat lawan kalah), harus berlaku Q_{even-1}>even, yakni ada suatu a_j> sqrt2, tetapi sudah diketahui a_j<=c< sqrt2. Jadi ia tidak mungkin kalah” dan seterusnya
  Terlihat ada upaya memaksimalkan efisiensi dengan kata-kata sesedikit mungkin
  Tautan: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
- Sekarang, ketika kita sudah mencapai “peak data” dengan data yang mulai langka, saya jadi penasaran jalur kemajuan yang jelas untuk peningkatan efisiensi itu seperti apa
Ini benar-benar pencapaian yang mengesankan, tetapi saya penasaran bagaimana mereka melakukannya
Melihat dugaan Wei tentang “scaling up test-time compute”, rasanya mereka mungkin menghabiskan uang dalam jumlah besar
Kalau ternyata dijalankan paralel ribuan sampai puluhan ribu kali lalu hanya hasil terbaik yang dipilih, itu akan mengecewakan
Kalau ini benar-benar pencapaian yang solid, mereka harus transparan soal alat apa yang dipakai dan bagaimana cara memakainya
Kemungkinan ada berbagai teknik untuk meningkatkan performa pada masalah yang sulit diverifikasi, dan mungkin itu yang dipakai di sini
- Bahkan kalau dijalankan paralel 10000 kali pun, itu tetap tidak lantas jadi kurang menarik
  Justru itu berarti model bisa membedakan ketepatan dan ketelitian jawaban, dan itu tidak berbeda jauh dari manusia yang sesekali juga berhasil memecahkannya
- Menurut thread Twitter, tidak ada alat bantu terpisah yang diberikan
- Saya rasa sangat mungkin OpenAI memang menjalankannya ribuan sampai puluhan ribu kali secara paralel lalu hanya memilih hasilnya
  Itu juga pendekatan yang dipakai pada benchmark ARC awal o3
  Mungkin juga memakai banyak agen yang bekerja sama, jadi batas panjang konteks (batas jumlah token) bisa diakali
  Sekarang AI sudah melampaui 99,99% manusia untuk kebanyakan soal matematika, jadi bahkan kalau menang dari 99,999% pun rasanya tidak terlalu mengejutkan lagi
- Kalau OpenAI menjalankannya 10000 kali lalu manusia yang memilih hasilnya secara manual, maknanya jadi sangat berbeda
  Kalau LLM sendiri yang memverifikasi lalu mengadopsinya, itu mirip proses manusia mencoba berkali-kali untuk menyelesaikan soal sulit
  Bedanya, AI bisa melakukannya secara paralel karena punya sumber daya komputasi, sementara manusia hanya bisa mencoba secara berurutan
Kompetisi ini (IMO) memang sangat elit sehingga tampaknya bahkan di komunitas programmer pun banyak yang tidak benar-benar tahu persis kompetisi ini apa
Kalau dihitung kasar, di AS ada sekitar 20 orang yang lolos ke camp (dan punya peluang emas), dibandingkan sekitar 20 juta siswa SMA dalam satu angkatan, jadi ini talenta pada level “satu dari sejuta”
- Bukan bermaksud meremehkan betapa sulitnya kompetisi ini
  Saya sendiri lulusan sekolah unggulan, tetapi baru mendengar IMO saat kuliah setelah bertemu para pesertanya
  Dalam praktiknya, jumlah siswa yang sadar akan kompetisi ini dan benar-benar ikut jauh lebih sedikit daripada total jumlah siswa
  Terlepas dari kemampuan, rasanya banyak siswa mungkin juga bisa mendapat hasil baik kalau saja mereka punya akses dan informasi yang tepat
Saya baru melihat laporan terbaru terkait evaluasi LLM pada IMO 2025, dan o3 high bahkan tidak mencapai level perunggu
Tautan: https://matharena.ai/imo/
Saya juga menantikan pendapat Terry Tao, tetapi perkembangan di bidang seperti ini justru saya anggap sebagai penggunaan AI yang positif
Daripada inovasi serampangan ketika ekonomi pun belum siap, saya berharap kontribusinya diarahkan untuk mempercepat kemajuan sains
- Ini tanggapan Terry Tao
  Tautan: https://mathstodon.xyz/@tao/114881419368778558

OpenAI mengumumkan pencapaian setara medali emas di Olimpiade Matematika Internasional (IMO) 2025

Ringkasan pencapaian IMO 2025 oleh LLM OpenAI

Makna pencapaian dan tingkat kesulitan yang meningkat

Pendekatan riset dan konteks perkembangan AI

Prospek ke depan dan komentar komunitas

Bacaan terkait

1 komentar

Komentar Hacker News