-
Pengantar o3 dan FrontierMath
- o3 adalah model bahasa baru dari OpenAI yang mencetak skor 25% pada dataset rahasia FrontierMath.
- FrontierMath adalah dataset tertutup yang terdiri dari soal-soal matematika sulit yang dirilis oleh Epoch AI.
- Dataset ini terdiri dari soal seperti "Temukan angka!" dan meminta jawaban yang jelas serta dapat diverifikasi secara otomatis.
-
Tingkat Kesulitan Dataset FrontierMath
- Soal-soal FrontierMath juga tidak umum bagi para matematikawan riset, dan beberapa soal memerlukan pengetahuan setara tingkat doktoral.
- Soal-soal dataset ini lebih menekankan pada menemukan angka daripada pembuktian matematika.
- Karena para matematikawan biasanya menghabiskan waktu untuk menemukan pembuktian atau ide, FrontierMath menjadi dataset yang penting untuk penelitian matematika AI.
-
Kemampuan Matematika AI
- AI saat ini sangat mampu menyelesaikan soal matematika tingkat sekolah menengah, dan diperkirakan akan segera lolos ujian matematika universitas.
- Namun, menghasilkan ide inovatif pada tingkat sarjana lanjut atau lebih tinggi masih tetap menantang.
- Pencapaian o3 yang memperoleh 25% merupakan hal yang mengejutkan, meski ada argumen bahwa beberapa soal berada pada level universitas.
-
Peran AI dalam Penelitian Matematika
- Dalam penelitian matematika, yang paling penting adalah memecahkan tantangan "Buktikan teorema ini!".
- DeepMind AlphaProof menyelesaikan 4 dari soal Olimpiade Matematika Internasional 2024, dan beberapa diverifikasi dengan bukti Lean yang lengkap.
- Agar AI dapat berperan lebih besar dalam penelitian matematika, ia harus mampu menjelaskan bukti dengan cara yang dipahami manusia.
-
Prospek Masa Depan
- Agar AI dapat berperan lebih besar dalam penelitian matematika, ia harus mampu menjelaskan bukti dengan cara yang dipahami manusia.
- Perkembangan AI berjalan cepat, namun jalan yang harus ditempuh masih panjang.
- Waktu kapan AI akan melewati batas tingkat sarjana masih belum pasti.
1 komentar
Komentar Hacker News
Dalam thread Reddit, dari tiga tingkatan kesulitan, 25% adalah T1 (yang paling mudah) dan 50% adalah T2. Dari lima soal publik yang dilihat penulis, dua di antaranya adalah T1 dan dua lainnya T2. Glazer menggambarkan T1 sebagai “soal tingkat IMO/sarjana”, tetapi penulis opini ini tidak menganggapnya soal tingkat sarjana. LLM sudah melakukan hal-hal yang membuat penulis tercengang.
Saya mencoba memahami aljabar linear menggunakan ChatGPT, tetapi dalam matematika nyata ia sering membuat kesalahan bodoh. Misalnya mengindeks melampaui dimensi vektor, mencoba mendekomposisi matriks pada skalar, atau mengalikan matriks dengan dimensi yang tidak cocok.
O1 lebih baik daripada 4o dalam menemukan kesalahan, tetapi masih sering membuat banyak kesalahan bodoh. Tanpa bantuan seseorang yang memiliki pengetahuan tertentu, sulit untuk menghasilkan hasil secara konsisten.
Dalam kuliah Akshay Venkatesh dibahas masa depan “pekerjaan matematika” jika pembuktian teori yang otomatis menjadi lebih umum. Ia membahas bagaimana perkembangan penalaran otomatis dapat mengubah cara mengonsepkan dan menjalankan matematika riset.
Sebagai orang tua dari anak laki-laki usia 18 tahun yang ingin belajar matematika, ada kekhawatiran apakah otomatisasi akan menghilangkan pekerjaan tersebut. Namun ia meragukan LLM bisa sepenuhnya menggantikannya. Karena LLM tidak punya waktu/sumber daya tak terbatas untuk menyelesaikan semuanya, menurutnya akan tetap ada peran manusia.
Ia tidak percaya LLM akan menjadi pemecah masalah generik yang menggantikan penalaran manusia, meskipun mungkin bisa dibuat himpunan soal yang hampir semua bisa diselesaikan oleh LLM. Penalaran belum mungkin sampai AI mengembangkan rasionalitas sosial yang mandiri ala manusia.
Ia memberi contoh kesalahan mendasar ChatGPT. Misalnya saat menurunkan rumus efisiensi Stop-and-Wait ARQ, ia menjelaskan langkah yang salah. Contoh lain, saat meminta silogisme untuk dilatih, ia memberi silogisme yang tidak konsisten.
Ia mengungkapkan kemungkinan dataset FrontierMath mungkin rusak. Jika OpenAI mengetahui pertanyaannya, ia memperkirakan pada versi berikutnya dapat mencapai lebih dari 80% di tes FrontierMath.
Ia menghadapi masalah serupa dengan penelitian quantum. Untuk membuktikan kemajuan, harus dilakukan komputasi yang tidak mungkin dilakukan dengan komputer tradisional. Saat ChatGPT mendapat skor 25%, dipertanyakan seberapa dekat 25% itu dengan pertanyaan yang ada di set pelatihan.
Ia khawatir model bahasa bisa memberikan “pembuktian” atas hipotesis Riemann. Matematikawan mungkin mencoba memverifikasi “pembuktian” semacam itu, tetapi itu bisa memakan waktu lama.
Mesin tidak akan berpartisipasi dalam IMO 2025. IMO tidak memiliki konsep “grader”; skor ditentukan melalui negosiasi antara ketua tim tiap negara dan juri. Tidak banyak orang yang akan bertahan lebih lama untuk menilai pekerjaan AI.