Akurasi o1-preview turun 30% ketika soal Putnam dimodifikasi sedikit

(openreview.net)

1 poin oleh GN⁺ 2025-01-02 | 1 komentar | Bagikan ke WhatsApp

Pengenalan benchmark Putnam-AXIOM
- Putnam-AXIOM adalah benchmark menantang untuk mengevaluasi kemampuan penalaran matematis model bahasa besar (LLM).
- Berisi 236 soal matematika dari William Lowell Putnam Mathematical Competition serta solusi bertahapnya.
- Benchmark Putnam-AXIOM Variation dibuat dengan menerapkan transformasi fungsional pada 52 soal untuk mencegah kontaminasi data.
- Elemen-elemen soal (seperti variabel, konstanta, dan sebagainya) diubah secara programatik sehingga bisa menghasilkan soal baru yang tidak ada di internet secara tak terbatas.
Pentingnya benchmark dan hasil
- Mayoritas model menunjukkan penurunan akurasi yang cukup besar pada soal yang dimodifikasi dibandingkan soal asli.
- Model OpenAI o1-preview mencatat akurasi 41.95% di Putnam-AXIOM Original, tetapi mengalami penurunan sekitar 30% pada dataset yang dimodifikasi.
Umpan balik reviewer
- Reviewer 9XA: Benchmark ini dirancang untuk meminimalkan noise pada formalisasi soal, pemeriksaan kesetaraan jawaban, dan lain-lain, tetapi tingkat pencegahan kontaminasi mungkin belum cukup. Karena transformasi fungsional hanya diterapkan pada 53 soal, kekuatan evaluasi dapat menurun.
- Reviewer krr4: Karena dataset terdiri dari 236 contoh, benchmark ini mungkin kurang meyakinkan sebagai benchmark. Sebagian besar model menunjukkan akurasi rendah, sehingga tingkat kesulitan masalah perlu lebih berjenjang.
- Reviewer Nbvs: Menyediakan kontribusi yang baik dengan kumpulan soal menantang untuk menilai kemampuan pemecahan masalah matematika. Variasi soal bisa menjadi strategi yang baik untuk mengurangi "problem leakage" dalam kerangka evaluasi berbasis kotak saat ini.
- Reviewer MsMi: Sebuah benchmark penalaran baru yang sulit, di mana model yang kuat pun tidak tampil baik pada benchmark ini. Kewajiban untuk menggunakan perintah "\boxed{}" membatasi ekspresivitas benchmark.
Pertanyaan dan usulan tambahan
- Pertanyaan tentang jumlah soal yang dinilai salah karena tidak menggunakan perintah "\boxed{}" dengan tepat.
- Pertanyaan mengenai metode algoritmik untuk terus menyunting soal agar dataset tetap tidak dapat dihafal oleh model apa pun.

1 komentar

GN⁺ 2025-01-02

Opini Hacker News

Saya ingat ketika soal ini pertama kali muncul, orang-orang sempat antusias karena ChatGPT bisa menjawab “mana yang lebih berat, 10 pon bulu atau 10 pon batu bata?”
Tapi tentu saja jawabannya benar, dan besar kemungkinan soal itu ada di data pelatihan
Jika hanya mengganti kata benda atau mengubah angkanya sehingga salah satu sisi benar-benar lebih berat, performanya jadi tidak konsisten
Barusan di chatgpt.com saya bertanya, “mana yang lebih berat, sekantong batangan baja seberat 9,99 pon atau sekantong kapas empuk seberat 10,01 pon?”, dan pada jawaban pertama ia mengatakan batangan baja lebih berat, lalu di akhir mengatakan kapas sedikit lebih berat, sehingga menghasilkan jawaban yang benar sekaligus salah
Untuk benar-benar menilai kemampuan seperti ini, kita harus keluar dari data pelatihan, dan soal-soal yang terpikir dalam 5 detik biasanya sudah sering dilihat atau mudah terpikirkan juga oleh orang lain
Begitu sedikit saja keluar dari jalur yang familier, performa matematikanya terlihat jauh kurang mengesankan
- Di ChatGPT Plus, jika memakai sesi baru tanpa jebakan dan hanya melihat jawaban pertama, GPT-4, GPT-4o, dan GPT o1 semuanya menjawab dengan tepat bahwa sekantong kapas 10,01 pon lebih berat daripada sekantong batangan baja 9,99 pon
  Penjelasannya kira-kira bahwa ini perbandingan berat dalam satuan yang sama, terlepas dari bahan atau kerapatan, sehingga 10,01 lebih besar daripada 9,99
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  Sejauh ini o1-mini menangani dengan baik semua tugas yang di thread ini disebut orang-orang tidak bisa dilakukan LLM
- Jika mencoba tanpa berlangganan, saat ini kemungkinan besar Anda akan mendapat jawaban yang dibuat oleh 4o-mini
  Itu bukan keluarga model penalaran yang dibahas dalam makalah tertaut, yaitu o1, o1-mini, dan o1-preview sebelumnya
  Bahkan mungkin juga bukan model non-penalaran utama 4o, dan “4o auto” yang ditampilkan pada akun gratis tampaknya bukan nama model, melainkan mekanisme untuk memilih model secara otomatis demi efisiensi biaya
  Tanpa langganan ChatGPT, kini juga tidak lagi memungkinkan memilih model tertentu dengan batas pemakaian seperti dulu
- Saya menanyakan teka-teki dokter klasik kepada Claude 3.5 Sonnet; jawabannya membaik karena ia menambahkan proses berpikir, tetapi juga terlihat tanda bahwa ia sebenarnya tidak memahami
  Untuk pertanyaan, “Seorang perempuan dan putranya mengalami kecelakaan mobil; perempuan itu meninggal, lalu dokter yang melihat anak itu berkata, ‘Saya tidak bisa mengoperasi anak ini karena dia anak saya.’ Bagaimana itu mungkin?”, ia menjawab, “Dokter itu adalah ayah anak tersebut,” dan menjelaskan bahwa ini adalah teka-teki klasik yang menunjukkan bias gender
  Padahal maksud aslinya adalah menanyakan bahwa dokter itu bisa saja ibunya, dan meski ia menambahkan kemungkinan orang tua sesama jenis, jawabannya meleset dari inti
- Variasi pertama yang saya temui adalah “mana yang lebih berat, 1 pon bulu atau 1 pon emas?”, dan ini pertanyaan yang jauh lebih sulit
  Jawaban yang saya dengar adalah bahwa emas diukur dengan berat troy sedangkan bulu diukur dengan berat avoirdupois, sehingga satu pon troy berisi 12 ons dan satu pon avoirdupois berisi 16 ons, maka bulu lebih berat
  Semua pernyataan itu benar, tetapi jawabannya tidak lengkap
  Sama seperti pon avoirdupois lebih berat daripada pon troy, ons avoirdupois lebih ringan daripada ons troy
  Hanya saja selisihnya tidak cukup besar untuk membalik perbedaan 16 ons versus 12 ons
  Jika tidak mengakui perbedaan ons tersebut, jawaban resmi pun sama salahnya dengan jawaban naif
Meski dalam praktiknya akan sulit, eksperimen yang ingin saya coba adalah melatih model dengan semua materi terdigitalisasi sebelum 1905—yakni makalah, surat, buku, siaran, kuliah, dan sebagainya—lalu menanyakan persamaan kesetaraan massa-energi
Jika keluar jawaban yang meyakinkan, rasanya perdebatan tentang apakah pengenalan pola merupakan salah satu bentuk kecerdasan bisa berakhir
- Begitu terpikir bahwa massa dan energi bisa ekuivalen, dengan analisis dimensi saja pilihan rumusnya tidak banyak
  Hal menarik dari E=mc^2 bukanlah rumusnya sendiri, melainkan klaim bahwa massa adalah salah satu bentuk energi dan berbagai pengamatan pendukung tentang alam semesta
  Wawasan nyata pada 1905 lebih dekat pada keberanian mengajukan pertanyaan yang tepat dan membayangkan bahwa prinsip ekuivalensi itu benar-benar bisa berlaku
  Banyak bagian matematikanya sudah ada sebelum 1905 dan bisa masuk ke data pelatihan AI: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- Saya mendengar ide serupa di podcast yang menghadirkan Adam Brown
  Gagasannya, jika AI bisa menurunkan teori relativitas khusus hanya dari buku dan makalah sebelum Einstein, berarti kita telah mencapai tonggak berikutnya yang setara game changer dalam kemajuan penalaran buatan
- Sengketa paten juga bisa diputuskan dengan cara seperti ini
  Jika LLM bisa menemukannya, berarti tidak ada kebaruan
- Saya juga ragu apakah data sebelum 1905 cukup untuk membuat model bisa mengatakan “hello world” secara stabil
  Rasanya tidak ada data pelatihan tingkat terabita yang dibutuhkan untuk LLM yang lumayan; mungkin hanya sebatas gigabita
Dalam tugas nyata, performa LLM terasa sangat mirip mahasiswa yang belajar kebut semalam menjelang ujian gaya Asia
Ada kemampuan memuntahkan jawaban dengan sempurna, tetapi tidak ada konsep makna
- o3 menjawab benar 25% soal FrontierMath yang belum pernah dilihat
  Memang ia lebih baik ketika jawabannya langsung ada di dataset, tetapi untuk kebaruan soal yang ditahan, ia sudah melampaui rata-rata manusia
- Coba lihat JEE Advanced
- Pada akhirnya ini lebih seperti satu bukti lagi bahwa kita berhasil mereproduksi kebodohan manusia dengan sempurna
Jika input diubah sedikit saja, model tampaknya kembali ke pertanyaan yang ia perkirakan dan jadi salah
Jika diubah sedikit lebih besar, lalu diberi teknik prompt umum seperti “pecah dulu menjadi fakta-fakta yang diketahui, ambil pengetahuan latar yang relevan, lalu evaluasi dari berbagai sudut sebelum menyimpulkan; jangan langsung menulis kesimpulan pertama yang paling jelas,” jawabannya akan jauh lebih baik
Ini tampaknya lebih dekat ke “LLM memberi jawaban instan yang buruk ketika coba dijebak dari pola yang diperkirakannya,” bukan “LLM adalah mesin penalaran bodoh yang bahkan tidak bisa menyelesaikan soal seperti ini tanpa hafalan”
Memang benar LLM menghafal, tetapi ada dua sisinya
Jika soal dibuat terlalu mirip dengan soal yang dihafal, persepsinya bisa goyah, seperti manusia yang secara naluriah bereaksi pada sesuatu yang tampak seperti wajah lalu mengevaluasinya kembali
Menarik, tetapi ada beberapa hal yang perlu dicatat
Pertama, o1 masih melampaui 40% pada soal Putnam yang dimodifikasi, sebuah capaian yang sulit diraih bahkan oleh sebagian besar mahasiswa jurusan matematika
Kedua, o3 menyelesaikan 25% dari dataset Epoch AI
Ada juga tulisan menarik yang mempertanyakan seberapa sulit sebenarnya soal-soal itu, tetapi hasilnya tetap sangat mengesankan
Kesimpulan yang adil tampaknya adalah bahwa model penalaran masih mampu menyelesaikan soal matematika dan competitive programming yang sangat sulit dengan baik, tetapi lebih kuat pada soal yang pernah dilihat
- Komentar-komentar di thread ini benar-benar terlepas dari isi makalahnya, dan judulnya juga cenderung memancing kemarahan serta tidak mencerminkan isi makalah
  Fakta bahwa model dapat menyelesaikan sebagian besar soal seperti itu sendiri sudah merupakan capaian yang cukup mengejutkan, meskipun kadang tertipu oleh modifikasi kecil
  Melempar kata-kata seperti “penipuan” atau “palsu” lebih mirip angan-angan atau penghindaran realitas
Saya penasaran apakah sudah menjadi rahasia umum bahwa model-model saat ini sedang di-hardcode untuk benchmark acak
Menanyakan soal Putnam kepada chatbot sendiri terasa aneh
- Karena orang terus menanyakan soal matematika kepada model seperti ini, lalu ketika jawabannya benar, itu dikutip sebagai bukti bahwa model benar-benar bisa melakukan penalaran matematis
  Sulit menilai apa yang diketahui model, sehingga sulit juga membedakan kapan model sekadar memuntahkan kembali sesuatu yang secara spesifik telah dipelajarinya
- Menurut saya bukan hardcoding, melainkan besar kemungkinan soal-soal itu ada dalam data pelatihan dalam suatu bentuk
- Model-model ini juga lulus ujian yang secara desain tidak bisa di-hardcode
  Memang masih ada berbagai macam cacat dan masalah konsistensi, tetapi marah karena model menjawab “2+2=4” hanya karena seseorang pernah melatihnya dengan jawaban 2+2 itu bodoh
- Pekerjaan ini mirip menerapkan makalah GSM-Symbolic ke Putnam: https://arxiv.org/html/2410.05229v1
  Ke depan, performa LLM juga harus dilaporkan pada benchmark yang diganggu/diperturbasi
Mereka adalah pencocok pola yang sangat efektif
Jika polanya diubah, mereka tidak bekerja
Saya ingat seseorang, mungkin @tszzl(roon), mengatakan di X bahwa o1 atau o3 pun masih dilatih dengan cara tradisional, dan tidak memiliki komputasi saat pengujian seperti AlphaGo atau pencarian pohon Monte Carlo
Jika itu benar, model masih memprediksi kata berikutnya berdasarkan data pelatihan, dan bahkan pada modifikasi kecil pun besar kemungkinan mengikuti jalur paling masuk akal yang berasal dari pelatihan
Namun jika komputasi saat pengujian belum benar-benar dieksplorasi, masih ada ruang panjang untuk peningkatan performa
Alasan lain mengapa sulit berspekulasi adalah karena kita tidak tahu seberapa banyak dari hal yang kita tanyakan sudah ada dalam data pelatihan
Bahkan untuk tugas yang mirip, sebagian bisa dikerjakan dengan baik sementara sebagian lain gagal
- Saya baru-baru ini melihat dua wawancara peneliti OpenAI; mereka menjelaskan bahwa terobosan o-series, berbeda dari GPT series, dirancang untuk berfokus pada komputasi saat pengujian agar lebih “berpikir”, terutama untuk menghindari pencocokan pola
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 dan Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- Saya rasa mereka menggunakan komputasi saat pengujian yang dapat diskalakan
  Dalam pengumuman o3, mereka merilis angka akurasi terpisah untuk komputasi tinggi dan komputasi rendah, dan rasanya sulit melakukan itu pada model yang sama tanpa komputasi saat pengujian
  Saya juga menganggap langganan 200 dolar itu memungkinkan komputasi saat pengujian berjalan lebih lama sebelum memaksa jawaban
  Namun jika klaim bahwa tidak ada komputasi saat pengujian itu benar, melihat eksperimen model 1B/3B dari Hugging Face, ruang untuk perbaikan hasilnya sangat besar
- OpenAI telah secara terbuka menyatakan bahwa o1 dan o3 menggunakan komputasi saat pengujian, dan juga merilis grafik skala log yang menunjukkan performa membaik secara linear ketika jumlah komputasi meningkat secara eksponensial
  https://openai.com/index/learning-to-reason-with-llms/
  Yang terkonfirmasi hanya bahwa model atau sistem melakukan chain-of-thought, tetapi faktor eksponensial dan sumber peningkatan performa penalaran kemungkinan besar adalah tree of thoughts, yaitu pencarian pohon di atas beberapa rantai penalaran
  roon kemungkinan identitasnya sangat dikenal di internal OpenAI dan ia adalah karyawan, jadi sulit berharap ia membocorkan detail implementasi di Twitter
Kontribusi workshop ini cukup baik, dan benchmark-nya tetap punya nilai tertentu meskipun bagian perumusan ulang soal tidak ada
Namun bagian yang hanya merumuskan ulang sejumlah kecil soal terkadang benar-benar menjadi lebih membingungkan bahkan bagi manusia, karena ungkapan yang buruk (fig 3) atau perusakan konvensi yang tidak perlu (fig 4; titik 2D biasanya memakai P dan koordinat x,y)
Akan bagus jika mereka menunjukkan efek perumusan ulang akibat peningkatan noise pada soal-soal terbaru atau soal bertanggal setelah pelatihan, agar sebagian kebingungan semacam ini bisa dipisahkan
Saya juga penasaran seberapa jauh lebih baik o3 pada benchmark yang sama
Dan judul persis kontribusi ini adalah “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning”
Di makalahnya ada beberapa contoh pertanyaan yang telah dimodifikasi
Karena ada lompatan cukup besar dari o1-preview ke o1, saya mencoba memasukkan beberapa sampel ke o1 dan o1-pro, dan keluarga o1 saat ini memberikan jawaban yang benar untuk soal-soal yang dimodifikasi itu
Performa terbaik terbaru berubah dengan cepat
- Makalah tersebut mengatakan bahwa meskipun LLM menghasilkan jawaban benar, beberapa kali model membuat lompatan besar tanpa justifikasi, atau mencapai solusi yang benar setelah melalui langkah-langkah yang tidak logis
  Saya penasaran apakah bagian seperti itu juga diperiksa
- Para pendukung LLM benar-benar melelahkan
  Itu juga bukan evaluasi yang ketat, dan set tersebut sudah dipublikasikan sejak Oktober, sehingga bisa dengan mudah ditambahkan ke data pelatihan
Terlalu banyak komentar negatif yang mengabaikan fakta bahwa o3 menjawab benar 25% di FrontierMath
Ini benar-benar hasil yang luar biasa hebat
Tentu saja, jika jawaban soal ada langsung di data pelatihan, LLM akan bekerja lebih baik
Namun itu bukan berarti LLM tidak bisa menjawab ketika jawabannya tidak ada di data pelatihan
- EpochAI harus mengirimkan pertanyaan ke OpenAI untuk menilai model, dan tidak mengirimkan kunci jawaban
  Lonjakan dari 2% menjadi 25% dalam semalam pada benchmark ini adalah fenomena yang cukup menarik
- Memang benar kinerjanya bagus di FrontierMath, tetapi itu bukan topik utas ini
  Jadi pernyataan itu tidak terlalu relevan

Akurasi o1-preview turun 30% ketika soal Putnam dimodifikasi sedikit

Bacaan terkait

1 komentar

Opini Hacker News