5 poin oleh GN⁺ 2025-07-20 | 1 komentar | Bagikan ke WhatsApp
  • LLM penalaran eksperimental yang dikembangkan oleh OpenAI mencatat hasil setingkat medali emas di Olimpiade Matematika Internasional (IMO) 2025
  • Mengikuti aturan resmi IMO yang sama, model ini memecahkan soal dan menulis pembuktian dalam bahasa alami, lalu dinilai dengan suara bulat oleh 3 penilai manusia, memperoleh 35 poin dari total 42 poin (menyelesaikan 5 dari 6 soal)
  • Soal IMO menuntut pemikiran kreatif tingkat tinggi dan pembuktian multi-langkah, dan ini menunjukkan kemungkinan LLM menghasilkan pembuktian logis setingkat manusia melampaui keterbatasan pendekatan RL sebelumnya
  • Pencapaian ini sangat bermakna karena diraih melalui reinforcement learning umum dan perluasan komputasi saat waktu uji, bukan pendekatan yang berfokus pada tugas tertentu
  • Model ini adalah versi riset yang terpisah dari GPT-5 yang akan segera dirilis, dan pengungkapan performa matematika tertinggi ke publik dijadwalkan beberapa bulan lagi

Ringkasan pencapaian IMO 2025 oleh LLM OpenAI

  • Alexander Wei (@alexwei_) dari OpenAI mengumumkan bahwa model bahasa penalaran eksperimental terbaru mereka mencatat hasil setara standar medali emas di IMO 2025
    • IMO adalah kompetisi sangat sulit yang diikuti remaja paling unggul dalam matematika dari seluruh dunia, dan terkenal dengan soal-soal yang menuntut penalaran logis kompleks serta pemahaman konseptual yang mendalam
  • Metode evaluasinya sama dengan peserta manusia: dua sesi ujian masing-masing 4,5 jam, menggunakan lembar soal resmi, tanpa alat eksternal, dan menyerahkan pembuktian dalam bahasa alami
  • Setiap soal dinilai secara independen oleh 3 mantan peraih medali IMO, lalu skor ditetapkan melalui kesepakatan bulat

Makna pencapaian dan tingkat kesulitan yang meningkat

  • Soal IMO menuntut waktu berpikir yang jauh lebih panjang, kreativitas, dan argumentasi kompleks dibanding benchmark sebelumnya (GSM8K, MATH, AIME)
  • Model kali ini menyelesaikan penuh 5 soal (P1~P5), dan tidak mengumpulkan P6, sehingga memperoleh 35/42 poin dan memenuhi ambang medali emas IMO yang sebenarnya
  • Kemampuan menghasilkan pembuktian logis sepanjang beberapa halaman melampaui batas pendekatan reinforcement learning (RL) sebelumnya

Pendekatan riset dan konteks perkembangan AI

  • Performa tinggi dicapai bukan oleh model yang hanya ditujukan untuk penyelesaian soal tertentu, melainkan berbasis RL umum dan perluasan komputasi
  • Model ini berhasil menghasilkan luaran kreatif yang kompleks tanpa skema hadiah yang jelas seperti yang biasanya disediakan RL sebelumnya
  • Ini adalah model eksperimental yang terpisah dari GPT-5 yang akan segera dirilis, dan kemampuan matematika pada level ini tidak direncanakan untuk dibuka ke publik dalam beberapa bulan ke depan

Prospek ke depan dan komentar komunitas

  • Kecepatan kemajuan kemampuan matematika AI jauh melampaui perkiraan (dibanding prediksi 30% pada benchmark MATH pada 2021, kini telah mencapai medali emas IMO)
  • Alexander juga menyampaikan ucapan selamat kepada seluruh peserta IMO 2025, sambil menekankan bahwa banyak anggota timnya adalah mantan peserta IMO
  • Solusi model untuk soal IMO 2025 juga akan dipublikasikan, meski dengan gaya yang masih eksperimental

1 komentar

 
GN⁺ 2025-07-20
Komentar Hacker News
  • Noam Brown: kalau bekerja di lab terdepan, biasanya kita bisa melihat kemampuan baru beberapa bulan lebih awal, tetapi hasil kali ini benar-benar pencapaian baru yang memakai teknik yang sangat baru dikembangkan, bahkan para peneliti internal OpenAI pun terkejut, dan baru hari ini semua orang bisa melihat di mana batas terdepan itu berada
    Selain itu, pencapaian kali ini dipimpin oleh tim kecil, dan Alex Wei berhasil mewujudkan ide riset yang tadinya tidak terlalu dipercaya banyak orang menjadi hasil nyata, sementara riset dan rekayasa bertahun-tahun dari OpenAI dan komunitas AI juga berperan besar
    Tautan: https://x.com/polynoamial/status/1946478258968531288

    • Semoga saja teknik baru itu bukan berarti melatih dengan data uji /bercanda
  • Menariknya, solusi IMO tampak memakai kosakata yang cukup terbatas
    Tautan: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Tidak perlu bicara panjang lebar kalau kata-kata yang sedikit lebih efektif”
    Dan hal lain yang patut dicatat adalah Alex Wei sendiri juga peraih medali emas IOI

    • Di satu sisi, menarik karena ini mirip catatan yang ditulis peserta sungguhan saat sedang mengerjakan soal; kalau kata-kata yang tidak perlu dikurangi, noise informasi juga berkurang sehingga lebih membantu fokus, apalagi karena LLM menghasilkan satu token setiap kali dan punya batas panjang konteks, jadi saya penasaran apakah dengan hanya memakai token yang bermakna, ini bisa mengarah pada alur berpikir yang lebih panjang dan konsisten
    • Menarik bahwa dia peraih emas IOI (Olimpiade Informatika), sementara diskusi di sini tentang IMO (Olimpiade Matematika)
    • Terence Tao juga baru-baru ini memprediksi di podcast bahwa tahun ini LLM akan meraih emas
    • Pada transformer, berapa pun makna yang dibawa, setiap token butuh waktu yang sama untuk dihasilkan; kalau bagian yang berulang atau tidak perlu dipangkas dari teks, kecepatannya bisa meningkat drastis
    • Saya ingin bertanya apakah “see the world” itu maksudnya “lihat dunia” atau permainan bunyi seperti “seaworld”
  • Bagi orang yang meremehkan ini karena katanya setingkat siswa SMA, saya sarankan mencoba menyelesaikan satu soal IMO; semuanya terbuka untuk umum, termasuk soal tahun ini
    Tautan: https://www.imo-official.org/problems.aspx
    Kepala saya langsung pusing

    • Terkait itu, ada video-video yang menunjukkan bagaimana orang benar-benar memikirkan dan menyelesaikan soal seperti ini
    • Saya suka menonton video YouTube penyelesaian soal seperti ini; kelihatannya sederhana di permukaan, tapi seperti tipuan
      Misalnya saya pernah melihat soal x+y=1, xy=1, tetapi ternyata penyelesaiannya hanya memakai aljabar dasar yang kita kenal (faktorisasi, rumus kuadrat, dan sebagainya), dan bahkan penjelasannya pun indah
      Rasanya seolah kalau dipikir lama-lama kita bisa menemukan jawabannya, tetapi dari pengalaman saya ternyata sama sekali tidak begitu
      Tautan: https://www.youtube.com/watch?v=csS4BjQuhCc
    • Saya penasaran bagaimana perbandingan soal IMO seperti ini dengan soal tingkat hard di leetcode
    • Baru kali ini saya tahu bahwa soal IMO tersedia dalam banyak versi bahasa
      Sepertinya ada sekitar 50 bahasa, dan saya langsung terpikir bahwa kalau sebanyak itu, menjaga keamanan seperti mencegah kebocoran soal tentu jadi jauh lebih sulit
  • Bahwa soal-soal ini berada di level siswa SMA itu hanya soal prasyarat pengetahuan; tingkat kesulitannya tetap sangat tinggi
    Bahkan matematikawan profesional yang bukan lulusan IMO pun sulit menampilkan performa seperti ini
    Ini bukan berarti AI sudah lebih unggul dari manusia dalam matematika, karena matematikawan fokus pada memperluas frontier matematika
    Katanya jawaban yang benar tidak ada di data pelatihan
    Dan mereka juga mengklaim model ini bukan model yang dikhususkan hanya untuk soal IMO

    • Setahu saya, saat melakukan data science, mencegah kebocoran validation set ternyata jauh lebih sulit daripada yang dibayangkan
      Kita terus menyetel proses pelatihan, lalu ketika performa validation set membaik, kita kembali memilih arsitektur dan data berdasarkan itu
      Tanpa disengaja pun, sedikit demi sedikit informasi validation set bisa meresap ke model
      Kalau validation set-nya dipilih berbeda saja, model yang dihasilkan bisa benar-benar berbeda
    • Saya ragu ini benar-benar bukan model yang dikhususkan untuk IMO; di thread Twitter mereka bilang ini “general reasoning”, tetapi kalau memang benar-benar tidak melakukan RL pada soal matematika olimpiade, saya ingin sekali mendengar pernyataan resmi OpenAI tentang itu
    • Saya penasaran dasar dari klaim “bukan model yang dikhususkan untuk IMO” itu apa
    • Saya penasaran bukti atau dasar untuk “jawaban yang benar tidak ada di data pelatihan” dan “bukan model yang dikhususkan untuk IMO”
    • Semakin dilihat, rasanya hampir pasti ini model yang dikhususkan untuk IMO
      Cara model itu menjawab juga terasa seperti itu
      Contoh: https://xcancel.com/alexwei_/status/1946477742855532918
      Screenshot jawaban asli: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      Terlihat seperti gaya AlphaProof yang bolak-balik antara bahasa alami dan sistem seperti Lean
      OpenAI tampaknya tidak akan membagikan detail implementasi seperti ini
  • Di thread disebutkan: “model menyelesaikan P1~P5, tetapi tidak memberi jawaban untuk P6”
    Soal tersulit (P6) memang hampir tidak bisa diselesaikan manusia juga; bahkan tim Tiongkok pun hanya mendapat 21 dari 42 poin, dan di kebanyakan negara lain tidak ada seorang pun yang bisa menyelesaikannya

    • Di IMO, pada hari pertama peserta mengerjakan P1, P2, P3, dan pada hari kedua P4, P5, P6
      Biasanya urutan kesulitannya memang dimaksudkan sebagai P1, P4, P2, P5, P3, P6; P1 paling mudah dan P6 paling sulit
      Dalam praktiknya, kadang urutan ini juga bisa berbeda
    • Sepertinya ada seseorang dari tim Kanada yang berhasil menyelesaikan P6, tetapi secara keseluruhan jumlahnya sangat sedikit
    • Fakta bahwa mesin gagal pada soal yang juga dirasakan sangat sulit oleh manusia, terutama P6, terasa seperti petunjuk bahwa mungkin ada campur tangan manusia
      Kalaupun itu hanya kebetulan mekanis, model seharusnya juga bisa menghasilkan jawaban yang salah, jadi timbul pertanyaan apakah yang dipilih hanya jawaban yang benar, yakni apakah hanya hasil yang berhasil saja yang diseleksi
  • Google juga ikut IMO kali ini dan mendapat emas
    Tautan: https://x.com/natolambert/status/1946569475396120653
    Karena OAI mengumumkan lebih dulu, kemungkinan Google juga akan segera merilis pengumuman resmi

    • Melihat komentar Noam Brown bahwa “bahkan peneliti internal OpenAI pun terkejut dengan hasil ini”, kalau beberapa lab mendapatkan hasil seperti ini secara bersamaan, itu justru akan lebih mengejutkan lagi
      Di Twitter ada yang bilang Google memakai Lean, sementara OpenAI hanya memakai LLM tanpa alat bantu
      Apa pun pendekatannya, hasil akhirnya memang lebih penting, tetapi batasan teknik konkret dan proses perkembangannya juga menarik untuk dicermati
    • AlphaProof milik Google tahun lalu meraih perak dan memakai pendekatan neural+symbolic
      Yang khas dari emas OpenAI adalah kabarnya ini bisa dicapai dengan LLM murni saja
      Kalau Google merilis pengumuman resmi, kita mungkin bisa tahu pendekatan apa yang mereka pakai
      Kelebihan pendekatan LLM adalah potensinya untuk digeneralisasi bukan hanya ke pembuktian matematika, tetapi juga ke berbagai masalah penalaran lain
  • Noam Brown:
    Ini bukan model yang dikhususkan untuk IMO, melainkan LLM penalaran dengan teknik umum eksperimental baru
    Proses berpikirnya jauh lebih efisien daripada o1 dan o3, dan efisiensi saat pengujian masih bisa terus didorong lebih jauh ke depan
    Perkembangan AI belakangan ini memang cepat, dan saya berharap ini akan terus berlanjut
    Terutama, saya merasa kita sedang mendekati titik ketika AI mulai benar-benar berkontribusi pada penemuan ilmiah
    Sampai baru-baru ini saya sempat merasa kemajuan mulai melambat, tetapi dari berbagai klaim ini (bahwa modelnya tidak spesifik dan efisiensinya masih bisa ditingkatkan), terlihat sangat jelas adanya kemajuan nyata
    Tautan: https://x.com/polynoamial/status/1946478249187377206

    • Menurut saya ada perbedaan besar antara “model yang menyelesaikan soal ujian” dan “AI yang berkontribusi pada penemuan ilmiah”
    • Ini terdengar seperti mimpi, tetapi seperti halnya fine-tuning untuk ujian tertentu seperti ujian pengacara, model-model seperti ini juga sering kali sudah dilatih pada soal-soal ujian versi sebelumnya
    • Saya penasaran apakah penggunaan alat bantu (seperti automated prover) juga dipakai selama proses fine-tuning
    • Bagian “lebih efisien daripada o1 dan o3”,
      “Jika lawan memakai strategi respons (tetap) maka ia tidak akan pernah kalah. Agar dia menang (membuat lawan kalah), harus berlaku Q_{even-1}>even, yakni ada suatu a_j> sqrt2, tetapi sudah diketahui a_j<=c< sqrt2. Jadi ia tidak mungkin kalah” dan seterusnya
      Terlihat ada upaya memaksimalkan efisiensi dengan kata-kata sesedikit mungkin
      Tautan: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • Sekarang, ketika kita sudah mencapai “peak data” dengan data yang mulai langka, saya jadi penasaran jalur kemajuan yang jelas untuk peningkatan efisiensi itu seperti apa
  • Ini benar-benar pencapaian yang mengesankan, tetapi saya penasaran bagaimana mereka melakukannya
    Melihat dugaan Wei tentang “scaling up test-time compute”, rasanya mereka mungkin menghabiskan uang dalam jumlah besar
    Kalau ternyata dijalankan paralel ribuan sampai puluhan ribu kali lalu hanya hasil terbaik yang dipilih, itu akan mengecewakan
    Kalau ini benar-benar pencapaian yang solid, mereka harus transparan soal alat apa yang dipakai dan bagaimana cara memakainya
    Kemungkinan ada berbagai teknik untuk meningkatkan performa pada masalah yang sulit diverifikasi, dan mungkin itu yang dipakai di sini

    • Bahkan kalau dijalankan paralel 10000 kali pun, itu tetap tidak lantas jadi kurang menarik
      Justru itu berarti model bisa membedakan ketepatan dan ketelitian jawaban, dan itu tidak berbeda jauh dari manusia yang sesekali juga berhasil memecahkannya
    • Menurut thread Twitter, tidak ada alat bantu terpisah yang diberikan
    • Saya rasa sangat mungkin OpenAI memang menjalankannya ribuan sampai puluhan ribu kali secara paralel lalu hanya memilih hasilnya
      Itu juga pendekatan yang dipakai pada benchmark ARC awal o3
      Mungkin juga memakai banyak agen yang bekerja sama, jadi batas panjang konteks (batas jumlah token) bisa diakali
      Sekarang AI sudah melampaui 99,99% manusia untuk kebanyakan soal matematika, jadi bahkan kalau menang dari 99,999% pun rasanya tidak terlalu mengejutkan lagi
    • Kalau OpenAI menjalankannya 10000 kali lalu manusia yang memilih hasilnya secara manual, maknanya jadi sangat berbeda
      Kalau LLM sendiri yang memverifikasi lalu mengadopsinya, itu mirip proses manusia mencoba berkali-kali untuk menyelesaikan soal sulit
      Bedanya, AI bisa melakukannya secara paralel karena punya sumber daya komputasi, sementara manusia hanya bisa mencoba secara berurutan
  • Kompetisi ini (IMO) memang sangat elit sehingga tampaknya bahkan di komunitas programmer pun banyak yang tidak benar-benar tahu persis kompetisi ini apa
    Kalau dihitung kasar, di AS ada sekitar 20 orang yang lolos ke camp (dan punya peluang emas), dibandingkan sekitar 20 juta siswa SMA dalam satu angkatan, jadi ini talenta pada level “satu dari sejuta”

    • Bukan bermaksud meremehkan betapa sulitnya kompetisi ini
      Saya sendiri lulusan sekolah unggulan, tetapi baru mendengar IMO saat kuliah setelah bertemu para pesertanya
      Dalam praktiknya, jumlah siswa yang sadar akan kompetisi ini dan benar-benar ikut jauh lebih sedikit daripada total jumlah siswa
      Terlepas dari kemampuan, rasanya banyak siswa mungkin juga bisa mendapat hasil baik kalau saja mereka punya akses dan informasi yang tepat
  • Saya baru melihat laporan terbaru terkait evaluasi LLM pada IMO 2025, dan o3 high bahkan tidak mencapai level perunggu
    Tautan: https://matharena.ai/imo/
    Saya juga menantikan pendapat Terry Tao, tetapi perkembangan di bidang seperti ini justru saya anggap sebagai penggunaan AI yang positif
    Daripada inovasi serampangan ketika ekonomi pun belum siap, saya berharap kontribusinya diarahkan untuk mempercepat kemajuan sains