Proyek FrontierMath yang Didukung OpenAI

(lesswrong.com)

2 poin oleh GN⁺ 2025-01-20 | 1 komentar | Bagikan ke WhatsApp

Baru-baru ini OpenAI mengumumkan model baru o3 dan menyatakan telah mencapai performa terobosan di bidang matematika
Secara khusus, model ini menarik perhatian besar karena mencapai 25% pada benchmark FrontierMath, yang sebelumnya hanya mampu dicapai model lama sebesar 2%
Setelah pengumuman tersebut, muncul kritik bahwa transparansi terkait proses penyusunan benchmark ini kurang memadai
Dari kasus ini, kita bisa mengambil pelajaran untuk benchmark AI masa depan, evaluasi, dan diskusi keselamatan

Gambaran kejadian

Sebelum November 2024, Epoch AI mulai membangun benchmark FrontierMath untuk evaluasi matematika
Mereka meminta soal dari matematikawan eksternal dan memberi kompensasi sekitar 300~1000 dolar
Saat itu tidak dijelaskan secara jelas siapa yang mendanai, dan siapa yang dapat melihat soal serta jawabannya
Pada 7 November 2024, Epoch AI merilis versi pertama makalahnya di arxiv, tetapi sama sekali tidak menyebut sumber pendanaan
Pada 20 Desember 2024, OpenAI memperkenalkan model o3 dan mengumumkan bahwa model itu mencapai 25% di FrontierMath
Di hari yang sama, v5 dari makalah Epoch AI diperbarui di arxiv, dan di sana baru diungkap bahwa OpenAI mendanai sepenuhnya serta dapat mengakses sebagian besar soal sulit beserta jawabannya

Detail tambahan

Bahkan segera setelah pembaruan bulan Desember itu, sudah ada kekhawatiran terkait isu ini, dan belakangan informasi yang lebih relevan pun terungkap
FrontierMath membagi tingkat kesulitan menjadi (a) tingkat olimpiade (25%), (b) kesulitan menengah (50%), dan (c) tingkat yang membutuhkan ahli selama beberapa minggu (25%)
Dalam pengumuman bahwa o3 mencapai 25%, tidak diungkap soal dengan tingkat kesulitan mana yang terutama berhasil diselesaikan, sehingga berpotensi menimbulkan salah paham
Diperkirakan OpenAI memiliki akses ke semua soal dan jawaban, tetapi berdasarkan kesepakatan lisan, dataset ini kemungkinan tidak digunakan secara langsung untuk pelatihan
Namun, ada kritik bahwa tidak ada yang benar-benar bisa mengetahui secara tepat bagaimana model dilatih secara internal

Mengapa ini menjadi masalah lain

Jika seseorang memiliki atau dapat mengakses soal FrontierMath, ada kemungkinan hal itu secara tidak langsung membantu peningkatan performa model
Kekhawatiran terutama muncul bahwa soal-soal sulit yang belum dipublikasikan dapat digunakan untuk memperhalus validasi model atau teknik pencarian
Masih belum jelas apakah klaim pencapaian 25% benar-benar berarti kemampuan menyelesaikan soal sulit, atau hanya didominasi oleh soal yang lebih mudah

Dataset yang dapat meningkatkan kemampuan bahkan tanpa pelatihan eksplisit

Struktur internal o3 tidak banyak dipublikasikan, tetapi beberapa riset lain mengadopsi “cara memperbesar skala pada tahap inferensi”
Diperkenalkan pula riset yang secara otomatis melatih evaluasi chain-of-thought berbasis MCMC, atau memperkuat pencarian dengan menambahkan process reward model (PRM) pada tahap perantara
Benchmark sulit seperti FrontierMath bisa berguna untuk memvalidasi reward model semacam itu
Dengan kata lain, meskipun tidak dipakai langsung untuk pelatihan, masih ada kemungkinan benchmark ini dipakai untuk menyetel strategi pencarian model atau teknik validasi
Jika tujuannya adalah evaluasi yang independen dan adil, ada pendapat bahwa sebaiknya benchmark hanya digunakan sekali untuk evaluasi dan tidak dipakai untuk tujuan lain

Kekhawatiran soal keselamatan AI

Epoch AI dikenal sebagai organisasi yang melacak tren perkembangan AI dan memikirkan aspek keselamatan
Di antara matematikawan yang menyumbangkan soal ke FrontierMath, mungkin ada orang yang tidak akan berkontribusi jika tahu bahwa hasil kerjanya bisa digunakan untuk meningkatkan kemampuan AI
Pada akhirnya, muncul kritik bahwa OpenAI secara tidak langsung memperoleh soal dari orang-orang yang sebenarnya tidak menginginkannya, lalu menggunakannya untuk validasi dan pengembangan model
Ketidaktransparanan semacam ini memunculkan kekhawatiran dari sisi keselamatan AI maupun etika penelitian

Komentar meemi, seorang AI Safety Researcher

FrontierMath menerima pendanaan dari OpenAI
Ada kritik bahwa fakta ini tidak diungkap secara transparan ke publik sebelum 20 Desember
Latar belakangnya adalah bahwa versi awal yang diunggah ke arxiv (v1–v4) tidak menyebut dukungan OpenAI, dan baru versi yang dipublikasikan setelah 20 Desember yang mencantumkannya
Belum diketahui secara jelas kesepakatan apa yang dibuat Epoch AI dengan OpenAI, tetapi muncul kemungkinan bahwa fakta pendanaan itu sengaja dirahasiakan sampai sebelum pengumuman o3 (20 Desember)
Disebutkan bahwa kepada para matematikawan yang terlibat dalam pembuatan soal, fakta pendanaan dari OpenAI tidak disampaikan secara aktif
Para kontributor kontrak menandatangani NDA dan keamanan dijaga ketat, misalnya mereka dilarang membagikan soal maupun jawaban melalui email atau Overleaf
Namun, ada kritik bahwa fakta pendanaan dari OpenAI maupun kemungkinan pemanfaatan data tidak dijelaskan dengan jelas kepada mereka
Muncul klaim bahwa bahkan sebagian penulis pun mungkin tidak mengetahui bahwa OpenAI yang mendanai
Tampaknya kebanyakan orang dan para kontributor kontrak memahami bahwa “soal dan jawaban benchmark ini akan sepenuhnya tetap nonpublik, dan hanya digunakan oleh Epoch”
Saat ini Epoch AI maupun OpenAI tidak secara terbuka menyatakan bahwa “OpenAI dapat mengakses soal atau jawaban”, tetapi beredar rumor bahwa OpenAI sebenarnya memanfaatkannya
Disebutkan pula bahwa masih tidak transparan apakah ada kesepakatan eksplisit yang membatasi dataset ini agar tidak dipakai untuk pelatihan
Akibatnya, ada pandangan kritis bahwa seharusnya sejak awal dijelaskan secara terang tentang pendanaan dan kemungkinan pemanfaatan data, serta para kontributor pembuat soal harus diberi informasi yang memadai

Komentar Tamay dari Epoch AI

Tamay dari Epoch AI secara langsung mengakui adanya masalah transparansi
- Ada ketentuan kontrak yang membuat keterlibatan OpenAI tidak bisa diungkap sebelum peluncuran o3
- Setelah itu, ia mengakui bahwa transparansi memang kurang dan menyebut para kontributor seharusnya diberi tahu lebih awal
- Ia juga mengakui kesalahan internal karena tidak bisa menyampaikan secara eksplisit sumber pendanaan dan hak akses data
Janji perbaikan transparansi dalam kolaborasi ke depan
- Ke depan, mereka akan berupaya agar para kontributor sejak awal dapat mengetahui dengan jelas sumber pendanaan, akses data, dan tujuan penggunaan
- Disebutkan bahwa kepada beberapa matematikawan memang sempat dikatakan bahwa pendanaan berasal dari sebuah lab riset, tetapi penyampaiannya tidak sistematis
- Mereka menilai bahwa menjalankan proyek tanpa menyebut nama lab tertentu (yakni OpenAI) adalah masalah
- Disebutkan pula bahwa sejak awal mereka seharusnya bernegosiasi lebih keras agar hubungan kerja sama ini bisa diumumkan
Masalah pembatasan pengungkapan hingga waktu peluncuran o3
- Karena kewajiban kontraktual, mereka tidak bisa mengungkap kemitraan dengan OpenAI sampai sekitar waktu peluncuran o3
- Para matematikawan yang membuat soal berhak mengetahui kepada siapa hasil kerja mereka bisa diserahkan
- Mereka menyatakan penyesalan karena akibat kontrak tersebut, penjelasan yang memadai kepada para kontributor tidak bisa diberikan
Akses data dan kemungkinan penggunaan untuk pelatihan
- OpenAI dapat mengakses porsi yang cukup besar dari soal dan jawaban FrontierMath
- Namun, disebut ada kesepakatan lisan bahwa data itu tidak akan digunakan untuk tujuan pelatihan
- Karyawan OpenAI secara terbuka menyebut FrontierMath sebagai “strongly held out set”
- Untuk verifikasi independen, ada holdout set terpisah yang tidak dapat diakses OpenAI
- Dengan cara ini, mereka ingin mencegah pelatihan model yang berlebihan atau overfitting, sekaligus menjaga pengukuran performa tetap objektif
Tujuan awal FrontierMath
- Sejak awal, FrontierMath dirancang dan diumumkan sebagai proyek untuk evaluasi
- Disebutkan pula bahwa OpenAI mendukung keputusan untuk tetap mempertahankan test set yang benar-benar bermakna
- Ditekankan bahwa baik kalangan akademik maupun lab riset perlu memiliki test set yang benar-benar tidak terkontaminasi (tidak digunakan untuk pelatihan)
[Revisi] Cakupan akses data OpenAI
- Untuk mengurangi salah paham, ditegaskan bahwa pada akhirnya OpenAI tidak memiliki hak akses ke holdout set terpisah untuk verifikasi independen

1 komentar

GN⁺ 2025-01-20

Komentar Hacker News

Menunjukkan bahwa meskipun ada janji lisan bahwa data tersebut tidak akan digunakan untuk pelatihan model, kesepakatan seperti ini sering kali bisa dilanggar
- Bersikap skeptis terhadap fakta bahwa OpenAI dapat mengakses data benchmark, tetapi hanya ada kesepakatan lisan bahwa data itu tidak akan digunakan untuk pelatihan
Salah satu pendiri bersama Epoch mengakui bahwa OpenAI dapat mengakses soal dan solusi FrontierMath, tetapi menyebut ada kesepakatan lisan untuk tidak menggunakannya dalam pelatihan
- Mempertanyakan keandalan kesepakatan lisan, serta menunjukkan bahwa ada banyak cara bagi OpenAI untuk tetap mematuhi kesepakatan itu secara teknis sambil memperoleh keuntungan yang tidak adil pada benchmark
Kritik terhadap orang-orang yang menelan mentah-mentah pemasaran OpenAI
- Memberikan contoh ketika demo Sora melibatkan penyuntingan manual tetapi hal itu tidak disebutkan
Tamay dari Epoch AI mengakui bahwa mereka kurang transparan mengenai keterlibatan OpenAI
- Pengungkapan informasi dibatasi oleh kontrak, dan ia menyesal karena seharusnya bernegosiasi lebih keras agar para kontributor benchmark mendapat transparansi lebih cepat
Menyebut bahwa hasil benchmark OpenAI telah kehilangan kepercayaan, sementara perusahaan AI lain sebenarnya punya peluang untuk memperoleh hasil penting di FrontierMath
Berpendapat bahwa untuk memeriksa apakah LLM atau AI benar-benar cerdas, harus bisa dibuktikan bahwa pertanyaannya tidak termasuk dalam set pelatihan
- Jika tidak diketahui apakah pertanyaan atau jawabannya ada dalam set pelatihan, maka jangan mengklaim AI itu cerdas
Menunjukkan bahwa bahkan tanpa sengaja menipu benchmark, pengujian berulang pada tes yang sama dapat menyebabkan overfitting atau p-hacking
- Menjelaskan bahwa perubahan kecil bisa sulit dinilai apakah merupakan peningkatan nyata atau sekadar noise, dan para peneliti bisa percaya bahwa mereka menemukan optimasi padahal sebenarnya berbasis noise
Mengungkapkan rasa tidak nyaman terhadap tindakan OpenAI yang menyesatkan publik
- Menyebut bahwa tindakan CEO akan merusak reputasi FrontierMath dan Epoch AI
Menekankan bahwa kemungkinan besar perusahaan AI akan membangun evaluasi mereka sendiri, benchmark publik sudah habis dieksploitasi, dan perlu lebih banyak investasi pada benchmark frontier
Berpendapat bahwa hasil evaluasi yang disajikan perusahaan AI tidak dapat dipercaya

Proyek FrontierMath yang Didukung OpenAI

Gambaran kejadian

Detail tambahan

Mengapa ini menjadi masalah lain

Dataset yang dapat meningkatkan kemampuan bahkan tanpa pelatihan eksplisit

Kekhawatiran soal keselamatan AI

Komentar meemi, seorang AI Safety Researcher

Komentar Tamay dari Epoch AI

Bacaan terkait

1 komentar

Komentar Hacker News