Akurasi o1-preview turun 30% ketika soal Putnam dimodifikasi sedikit
(openreview.net)-
Pengenalan benchmark Putnam-AXIOM
- Putnam-AXIOM adalah benchmark menantang untuk mengevaluasi kemampuan penalaran matematis model bahasa besar (LLM).
- Berisi 236 soal matematika dari William Lowell Putnam Mathematical Competition serta solusi bertahapnya.
- Benchmark Putnam-AXIOM Variation dibuat dengan menerapkan transformasi fungsional pada 52 soal untuk mencegah kontaminasi data.
- Elemen-elemen soal (seperti variabel, konstanta, dan sebagainya) diubah secara programatik sehingga bisa menghasilkan soal baru yang tidak ada di internet secara tak terbatas.
-
Pentingnya benchmark dan hasil
- Mayoritas model menunjukkan penurunan akurasi yang cukup besar pada soal yang dimodifikasi dibandingkan soal asli.
- Model OpenAI o1-preview mencatat akurasi 41.95% di Putnam-AXIOM Original, tetapi mengalami penurunan sekitar 30% pada dataset yang dimodifikasi.
-
Umpan balik reviewer
- Reviewer 9XA: Benchmark ini dirancang untuk meminimalkan noise pada formalisasi soal, pemeriksaan kesetaraan jawaban, dan lain-lain, tetapi tingkat pencegahan kontaminasi mungkin belum cukup. Karena transformasi fungsional hanya diterapkan pada 53 soal, kekuatan evaluasi dapat menurun.
- Reviewer krr4: Karena dataset terdiri dari 236 contoh, benchmark ini mungkin kurang meyakinkan sebagai benchmark. Sebagian besar model menunjukkan akurasi rendah, sehingga tingkat kesulitan masalah perlu lebih berjenjang.
- Reviewer Nbvs: Menyediakan kontribusi yang baik dengan kumpulan soal menantang untuk menilai kemampuan pemecahan masalah matematika. Variasi soal bisa menjadi strategi yang baik untuk mengurangi "problem leakage" dalam kerangka evaluasi berbasis kotak saat ini.
- Reviewer MsMi: Sebuah benchmark penalaran baru yang sulit, di mana model yang kuat pun tidak tampil baik pada benchmark ini. Kewajiban untuk menggunakan perintah "\boxed{}" membatasi ekspresivitas benchmark.
-
Pertanyaan dan usulan tambahan
- Pertanyaan tentang jumlah soal yang dinilai salah karena tidak menggunakan perintah "\boxed{}" dengan tepat.
- Pertanyaan mengenai metode algoritmik untuk terus menyunting soal agar dataset tetap tidak dapat dihafal oleh model apa pun.
1 komentar
Komentar Hacker News
Ada komentar yang mengingat masa ketika ChatGPT menjawab dengan tepat pertanyaan "batu apa yang lebih berat: bulu 10 pound atau batu bata 10 pound?" Namun dikemukakan bahwa performanya menurun jika soal itu sedikit dimodifikasi.
Ada pendapat agar dilakukan eksperimen dengan melatih model berdasarkan seluruh data digital yang ada sebelum tahun 1905 dan kemudian bertanya tentang persamaan ekuivalensi massa-energi.
Ada pendapat bahwa kinerja kerja nyata LLM mirip dengan siswa yang menghafal menjelang ujian gaya Asia.
Ada pendapat bahwa model bisa kembali ke pertanyaan yang diharapkan dan menghasilkan jawaban salah jika input sedikit dimodifikasi.
Ada pendapat bahwa LLM masih unggul dalam menyelesaikan masalah matematika dan pemrograman kompetitif yang sangat sulit.
Muncul pertanyaan apakah model memang hardcoded untuk benchmark acak saat ini adalah rahasia umum.
Ada pendapat bahwa rekonstruksi soal juga bisa membingungkan manusia.
Ada pendapat bahwa model sangat efektif untuk pattern matching, tetapi tidak berfungsi saat polanya diubah.
Ada pendapat yang menunjukkan bahwa OpenAI tidak mengklaim performa pada dataset tertentu.
Ada pendapat bahwa ada peningkatan performa dari o1-preview ke o1, dan memberikan jawaban yang tepat untuk soal yang dimodifikasi.