2 poin oleh GN⁺ 2025-01-20 | 1 komentar | Bagikan ke WhatsApp
  • Baru-baru ini OpenAI mengumumkan model baru o3 dan menyatakan telah mencapai performa terobosan di bidang matematika
  • Secara khusus, model ini menarik perhatian besar karena mencapai 25% pada benchmark FrontierMath, yang sebelumnya hanya mampu dicapai model lama sebesar 2%
  • Setelah pengumuman tersebut, muncul kritik bahwa transparansi terkait proses penyusunan benchmark ini kurang memadai
  • Dari kasus ini, kita bisa mengambil pelajaran untuk benchmark AI masa depan, evaluasi, dan diskusi keselamatan

Gambaran kejadian

  • Sebelum November 2024, Epoch AI mulai membangun benchmark FrontierMath untuk evaluasi matematika
  • Mereka meminta soal dari matematikawan eksternal dan memberi kompensasi sekitar 300~1000 dolar
  • Saat itu tidak dijelaskan secara jelas siapa yang mendanai, dan siapa yang dapat melihat soal serta jawabannya
  • Pada 7 November 2024, Epoch AI merilis versi pertama makalahnya di arxiv, tetapi sama sekali tidak menyebut sumber pendanaan
  • Pada 20 Desember 2024, OpenAI memperkenalkan model o3 dan mengumumkan bahwa model itu mencapai 25% di FrontierMath
  • Di hari yang sama, v5 dari makalah Epoch AI diperbarui di arxiv, dan di sana baru diungkap bahwa OpenAI mendanai sepenuhnya serta dapat mengakses sebagian besar soal sulit beserta jawabannya

Detail tambahan

  • Bahkan segera setelah pembaruan bulan Desember itu, sudah ada kekhawatiran terkait isu ini, dan belakangan informasi yang lebih relevan pun terungkap
  • FrontierMath membagi tingkat kesulitan menjadi (a) tingkat olimpiade (25%), (b) kesulitan menengah (50%), dan (c) tingkat yang membutuhkan ahli selama beberapa minggu (25%)
  • Dalam pengumuman bahwa o3 mencapai 25%, tidak diungkap soal dengan tingkat kesulitan mana yang terutama berhasil diselesaikan, sehingga berpotensi menimbulkan salah paham
  • Diperkirakan OpenAI memiliki akses ke semua soal dan jawaban, tetapi berdasarkan kesepakatan lisan, dataset ini kemungkinan tidak digunakan secara langsung untuk pelatihan
  • Namun, ada kritik bahwa tidak ada yang benar-benar bisa mengetahui secara tepat bagaimana model dilatih secara internal

Mengapa ini menjadi masalah lain

  • Jika seseorang memiliki atau dapat mengakses soal FrontierMath, ada kemungkinan hal itu secara tidak langsung membantu peningkatan performa model
  • Kekhawatiran terutama muncul bahwa soal-soal sulit yang belum dipublikasikan dapat digunakan untuk memperhalus validasi model atau teknik pencarian
  • Masih belum jelas apakah klaim pencapaian 25% benar-benar berarti kemampuan menyelesaikan soal sulit, atau hanya didominasi oleh soal yang lebih mudah

Dataset yang dapat meningkatkan kemampuan bahkan tanpa pelatihan eksplisit

  • Struktur internal o3 tidak banyak dipublikasikan, tetapi beberapa riset lain mengadopsi “cara memperbesar skala pada tahap inferensi”
  • Diperkenalkan pula riset yang secara otomatis melatih evaluasi chain-of-thought berbasis MCMC, atau memperkuat pencarian dengan menambahkan process reward model (PRM) pada tahap perantara
  • Benchmark sulit seperti FrontierMath bisa berguna untuk memvalidasi reward model semacam itu
  • Dengan kata lain, meskipun tidak dipakai langsung untuk pelatihan, masih ada kemungkinan benchmark ini dipakai untuk menyetel strategi pencarian model atau teknik validasi
  • Jika tujuannya adalah evaluasi yang independen dan adil, ada pendapat bahwa sebaiknya benchmark hanya digunakan sekali untuk evaluasi dan tidak dipakai untuk tujuan lain

Kekhawatiran soal keselamatan AI

  • Epoch AI dikenal sebagai organisasi yang melacak tren perkembangan AI dan memikirkan aspek keselamatan
  • Di antara matematikawan yang menyumbangkan soal ke FrontierMath, mungkin ada orang yang tidak akan berkontribusi jika tahu bahwa hasil kerjanya bisa digunakan untuk meningkatkan kemampuan AI
  • Pada akhirnya, muncul kritik bahwa OpenAI secara tidak langsung memperoleh soal dari orang-orang yang sebenarnya tidak menginginkannya, lalu menggunakannya untuk validasi dan pengembangan model
  • Ketidaktransparanan semacam ini memunculkan kekhawatiran dari sisi keselamatan AI maupun etika penelitian

Komentar meemi, seorang AI Safety Researcher

  • FrontierMath menerima pendanaan dari OpenAI
  • Ada kritik bahwa fakta ini tidak diungkap secara transparan ke publik sebelum 20 Desember
  • Latar belakangnya adalah bahwa versi awal yang diunggah ke arxiv (v1–v4) tidak menyebut dukungan OpenAI, dan baru versi yang dipublikasikan setelah 20 Desember yang mencantumkannya
  • Belum diketahui secara jelas kesepakatan apa yang dibuat Epoch AI dengan OpenAI, tetapi muncul kemungkinan bahwa fakta pendanaan itu sengaja dirahasiakan sampai sebelum pengumuman o3 (20 Desember)
  • Disebutkan bahwa kepada para matematikawan yang terlibat dalam pembuatan soal, fakta pendanaan dari OpenAI tidak disampaikan secara aktif
  • Para kontributor kontrak menandatangani NDA dan keamanan dijaga ketat, misalnya mereka dilarang membagikan soal maupun jawaban melalui email atau Overleaf
  • Namun, ada kritik bahwa fakta pendanaan dari OpenAI maupun kemungkinan pemanfaatan data tidak dijelaskan dengan jelas kepada mereka
  • Muncul klaim bahwa bahkan sebagian penulis pun mungkin tidak mengetahui bahwa OpenAI yang mendanai
  • Tampaknya kebanyakan orang dan para kontributor kontrak memahami bahwa “soal dan jawaban benchmark ini akan sepenuhnya tetap nonpublik, dan hanya digunakan oleh Epoch”
  • Saat ini Epoch AI maupun OpenAI tidak secara terbuka menyatakan bahwa “OpenAI dapat mengakses soal atau jawaban”, tetapi beredar rumor bahwa OpenAI sebenarnya memanfaatkannya
  • Disebutkan pula bahwa masih tidak transparan apakah ada kesepakatan eksplisit yang membatasi dataset ini agar tidak dipakai untuk pelatihan
  • Akibatnya, ada pandangan kritis bahwa seharusnya sejak awal dijelaskan secara terang tentang pendanaan dan kemungkinan pemanfaatan data, serta para kontributor pembuat soal harus diberi informasi yang memadai

Komentar Tamay dari Epoch AI

  • Tamay dari Epoch AI secara langsung mengakui adanya masalah transparansi
    • Ada ketentuan kontrak yang membuat keterlibatan OpenAI tidak bisa diungkap sebelum peluncuran o3
    • Setelah itu, ia mengakui bahwa transparansi memang kurang dan menyebut para kontributor seharusnya diberi tahu lebih awal
    • Ia juga mengakui kesalahan internal karena tidak bisa menyampaikan secara eksplisit sumber pendanaan dan hak akses data
  • Janji perbaikan transparansi dalam kolaborasi ke depan
    • Ke depan, mereka akan berupaya agar para kontributor sejak awal dapat mengetahui dengan jelas sumber pendanaan, akses data, dan tujuan penggunaan
    • Disebutkan bahwa kepada beberapa matematikawan memang sempat dikatakan bahwa pendanaan berasal dari sebuah lab riset, tetapi penyampaiannya tidak sistematis
    • Mereka menilai bahwa menjalankan proyek tanpa menyebut nama lab tertentu (yakni OpenAI) adalah masalah
    • Disebutkan pula bahwa sejak awal mereka seharusnya bernegosiasi lebih keras agar hubungan kerja sama ini bisa diumumkan
  • Masalah pembatasan pengungkapan hingga waktu peluncuran o3
    • Karena kewajiban kontraktual, mereka tidak bisa mengungkap kemitraan dengan OpenAI sampai sekitar waktu peluncuran o3
    • Para matematikawan yang membuat soal berhak mengetahui kepada siapa hasil kerja mereka bisa diserahkan
    • Mereka menyatakan penyesalan karena akibat kontrak tersebut, penjelasan yang memadai kepada para kontributor tidak bisa diberikan
  • Akses data dan kemungkinan penggunaan untuk pelatihan
    • OpenAI dapat mengakses porsi yang cukup besar dari soal dan jawaban FrontierMath
    • Namun, disebut ada kesepakatan lisan bahwa data itu tidak akan digunakan untuk tujuan pelatihan
    • Karyawan OpenAI secara terbuka menyebut FrontierMath sebagai “strongly held out set”
    • Untuk verifikasi independen, ada holdout set terpisah yang tidak dapat diakses OpenAI
    • Dengan cara ini, mereka ingin mencegah pelatihan model yang berlebihan atau overfitting, sekaligus menjaga pengukuran performa tetap objektif
  • Tujuan awal FrontierMath
    • Sejak awal, FrontierMath dirancang dan diumumkan sebagai proyek untuk evaluasi
    • Disebutkan pula bahwa OpenAI mendukung keputusan untuk tetap mempertahankan test set yang benar-benar bermakna
    • Ditekankan bahwa baik kalangan akademik maupun lab riset perlu memiliki test set yang benar-benar tidak terkontaminasi (tidak digunakan untuk pelatihan)
  • [Revisi] Cakupan akses data OpenAI
    • Untuk mengurangi salah paham, ditegaskan bahwa pada akhirnya OpenAI tidak memiliki hak akses ke holdout set terpisah untuk verifikasi independen

1 komentar

 
GN⁺ 2025-01-20
Komentar Hacker News
  • Menunjukkan bahwa meskipun ada janji lisan bahwa data tersebut tidak akan digunakan untuk pelatihan model, kesepakatan seperti ini sering kali bisa dilanggar

    • Bersikap skeptis terhadap fakta bahwa OpenAI dapat mengakses data benchmark, tetapi hanya ada kesepakatan lisan bahwa data itu tidak akan digunakan untuk pelatihan
  • Salah satu pendiri bersama Epoch mengakui bahwa OpenAI dapat mengakses soal dan solusi FrontierMath, tetapi menyebut ada kesepakatan lisan untuk tidak menggunakannya dalam pelatihan

    • Mempertanyakan keandalan kesepakatan lisan, serta menunjukkan bahwa ada banyak cara bagi OpenAI untuk tetap mematuhi kesepakatan itu secara teknis sambil memperoleh keuntungan yang tidak adil pada benchmark
  • Kritik terhadap orang-orang yang menelan mentah-mentah pemasaran OpenAI

    • Memberikan contoh ketika demo Sora melibatkan penyuntingan manual tetapi hal itu tidak disebutkan
  • Tamay dari Epoch AI mengakui bahwa mereka kurang transparan mengenai keterlibatan OpenAI

    • Pengungkapan informasi dibatasi oleh kontrak, dan ia menyesal karena seharusnya bernegosiasi lebih keras agar para kontributor benchmark mendapat transparansi lebih cepat
  • Menyebut bahwa hasil benchmark OpenAI telah kehilangan kepercayaan, sementara perusahaan AI lain sebenarnya punya peluang untuk memperoleh hasil penting di FrontierMath

  • Berpendapat bahwa untuk memeriksa apakah LLM atau AI benar-benar cerdas, harus bisa dibuktikan bahwa pertanyaannya tidak termasuk dalam set pelatihan

    • Jika tidak diketahui apakah pertanyaan atau jawabannya ada dalam set pelatihan, maka jangan mengklaim AI itu cerdas
  • Menunjukkan bahwa bahkan tanpa sengaja menipu benchmark, pengujian berulang pada tes yang sama dapat menyebabkan overfitting atau p-hacking

    • Menjelaskan bahwa perubahan kecil bisa sulit dinilai apakah merupakan peningkatan nyata atau sekadar noise, dan para peneliti bisa percaya bahwa mereka menemukan optimasi padahal sebenarnya berbasis noise
  • Mengungkapkan rasa tidak nyaman terhadap tindakan OpenAI yang menyesatkan publik

    • Menyebut bahwa tindakan CEO akan merusak reputasi FrontierMath dan Epoch AI
  • Menekankan bahwa kemungkinan besar perusahaan AI akan membangun evaluasi mereka sendiri, benchmark publik sudah habis dieksploitasi, dan perlu lebih banyak investasi pada benchmark frontier

  • Berpendapat bahwa hasil evaluasi yang disajikan perusahaan AI tidak dapat dipercaya