1 poin oleh GN⁺ 2025-01-02 | 1 komentar | Bagikan ke WhatsApp
  • Pengenalan benchmark Putnam-AXIOM

    • Putnam-AXIOM adalah benchmark menantang untuk mengevaluasi kemampuan penalaran matematis model bahasa besar (LLM).
    • Berisi 236 soal matematika dari William Lowell Putnam Mathematical Competition serta solusi bertahapnya.
    • Benchmark Putnam-AXIOM Variation dibuat dengan menerapkan transformasi fungsional pada 52 soal untuk mencegah kontaminasi data.
    • Elemen-elemen soal (seperti variabel, konstanta, dan sebagainya) diubah secara programatik sehingga bisa menghasilkan soal baru yang tidak ada di internet secara tak terbatas.
  • Pentingnya benchmark dan hasil

    • Mayoritas model menunjukkan penurunan akurasi yang cukup besar pada soal yang dimodifikasi dibandingkan soal asli.
    • Model OpenAI o1-preview mencatat akurasi 41.95% di Putnam-AXIOM Original, tetapi mengalami penurunan sekitar 30% pada dataset yang dimodifikasi.
  • Umpan balik reviewer

    • Reviewer 9XA: Benchmark ini dirancang untuk meminimalkan noise pada formalisasi soal, pemeriksaan kesetaraan jawaban, dan lain-lain, tetapi tingkat pencegahan kontaminasi mungkin belum cukup. Karena transformasi fungsional hanya diterapkan pada 53 soal, kekuatan evaluasi dapat menurun.
    • Reviewer krr4: Karena dataset terdiri dari 236 contoh, benchmark ini mungkin kurang meyakinkan sebagai benchmark. Sebagian besar model menunjukkan akurasi rendah, sehingga tingkat kesulitan masalah perlu lebih berjenjang.
    • Reviewer Nbvs: Menyediakan kontribusi yang baik dengan kumpulan soal menantang untuk menilai kemampuan pemecahan masalah matematika. Variasi soal bisa menjadi strategi yang baik untuk mengurangi "problem leakage" dalam kerangka evaluasi berbasis kotak saat ini.
    • Reviewer MsMi: Sebuah benchmark penalaran baru yang sulit, di mana model yang kuat pun tidak tampil baik pada benchmark ini. Kewajiban untuk menggunakan perintah "\boxed{}" membatasi ekspresivitas benchmark.
  • Pertanyaan dan usulan tambahan

    • Pertanyaan tentang jumlah soal yang dinilai salah karena tidak menggunakan perintah "\boxed{}" dengan tepat.
    • Pertanyaan mengenai metode algoritmik untuk terus menyunting soal agar dataset tetap tidak dapat dihafal oleh model apa pun.

1 komentar

 
GN⁺ 2025-01-02
Komentar Hacker News
  • Ada komentar yang mengingat masa ketika ChatGPT menjawab dengan tepat pertanyaan "batu apa yang lebih berat: bulu 10 pound atau batu bata 10 pound?" Namun dikemukakan bahwa performanya menurun jika soal itu sedikit dimodifikasi.

    • Misalnya, pada pertanyaan "mana yang lebih berat, 9.99 pound baja atau 10.01 pound kapas?" model memberikan jawaban yang salah.
    • Untuk menganalisis kemampuan sejati model, kita perlu keluar dari data pelatihan.
  • Ada pendapat agar dilakukan eksperimen dengan melatih model berdasarkan seluruh data digital yang ada sebelum tahun 1905 dan kemudian bertanya tentang persamaan ekuivalensi massa-energi.

    • Harapan bahwa hal ini dapat menyelesaikan debat tentang apakah pengenalan pola adalah salah satu bentuk kecerdasan.
  • Ada pendapat bahwa kinerja kerja nyata LLM mirip dengan siswa yang menghafal menjelang ujian gaya Asia.

    • Hanya kemampuan meniru dengan sempurna tanpa benar-benar memahami arti.
  • Ada pendapat bahwa model bisa kembali ke pertanyaan yang diharapkan dan menghasilkan jawaban salah jika input sedikit dimodifikasi.

    • Jika dipandu untuk mengevaluasi soal dari beberapa sudut dan mengambil kesimpulan, bisa didapatkan respons yang lebih baik.
  • Ada pendapat bahwa LLM masih unggul dalam menyelesaikan masalah matematika dan pemrograman kompetitif yang sangat sulit.

    • Namun, model lebih baik menangani soal yang pernah dilihat sebelumnya.
  • Muncul pertanyaan apakah model memang hardcoded untuk benchmark acak saat ini adalah rahasia umum.

  • Ada pendapat bahwa rekonstruksi soal juga bisa membingungkan manusia.

    • Ada minat untuk melihat efek rekonstruksi soal terbaru.
  • Ada pendapat bahwa model sangat efektif untuk pattern matching, tetapi tidak berfungsi saat polanya diubah.

    • Ditekankan bahwa model ini dilatih secara tradisional, tanpa perhitungan saat inferensi atau Monte Carlo Tree Search.
  • Ada pendapat yang menunjukkan bahwa OpenAI tidak mengklaim performa pada dataset tertentu.

    • Kita dapat menyimpulkan bahwa performanya meningkat secara signifikan untuk pertanyaan-pertanyaan dalam dataset tersebut.
  • Ada pendapat bahwa ada peningkatan performa dari o1-preview ke o1, dan memberikan jawaban yang tepat untuk soal yang dimodifikasi.

    • SOTA berubah dengan cepat