OpenAI merilis benchmark pemeriksaan fakta SimpleQA

(openai.com)

6 poin oleh GN⁺ 2024-11-02 | Belum ada komentar. | Bagikan ke WhatsApp

SimpleQA adalah benchmark baru untuk mengukur faktualitas model bahasa
Melatih model agar menghasilkan respons yang berbasis fakta dalam AI masih merupakan masalah yang belum terselesaikan
Model bahasa saat ini kadang menghasilkan keluaran palsu atau respons yang tidak didukung bukti. Ini disebut "hallucinations"
Model bahasa yang lebih akurat dan lebih sedikit berhalusinasi akan lebih dapat dipercaya dan bisa dimanfaatkan di berbagai bidang aplikasi
Open source SimpleQA ditujukan untuk mengukur faktualitas model bahasa

Fitur benchmark SimpleQA

Karena faktualitas adalah topik yang sulit diukur, SimpleQA berfokus pada kueri singkat yang mengejar fakta
Tujuan SimpleQA:
1. Akurasi tinggi: dua AI trainer independen mendukung jawaban benar dengan sumber yang mereka berikan, dan menulis pertanyaan agar jawaban prediksi mudah dievaluasi
2. Keberagaman: mencakup topik yang luas, dari sains dan teknologi hingga acara TV dan video game
3. Menantang bagi model terbaru: tidak seperti benchmark sebelumnya seperti TriviaQA atau NQ, SimpleQA dibuat agar lebih menantang bagi model terbaru (misalnya, GPT-4 mencatat skor di bawah 40%)
4. UX ramah peneliti: berkat pertanyaan dan jawaban yang ringkas, SimpleQA cepat dijalankan dan sederhana. Evaluasi melalui OpenAI API atau API model terbaru lainnya juga efisien. Dengan 4.326 pertanyaan, variansnya sebagai benchmark evaluasi juga diperkirakan relatif rendah

AI trainer menelusuri web untuk membuat pertanyaan singkat yang mengejar fakta beserta jawabannya
Agar dapat dimasukkan ke dalam dataset, setiap pertanyaan harus memenuhi kriteria ketat:
- Harus memiliki satu jawaban yang tunggal, jelas, dan mudah dievaluasi
- Jawaban atas pertanyaan tidak boleh berubah seiring waktu
- Sebagian besar pertanyaan harus memicu halusinasi pada GPT-4 atau GPT-3.5
Untuk lebih meningkatkan kualitas dataset, AI trainer independen kedua menjawab setiap pertanyaan tanpa melihat respons asli
Hanya pertanyaan yang jawabannya cocok antara dua AI trainer yang disertakan

Untuk validasi akhir, 1.000 pertanyaan diambil secara acak dari dataset dan dijawab oleh AI trainer ketiga
Jawaban AI trainer ketiga cocok dengan jawaban yang semula disepakati sebesar 94,4%. Sebanyak 5,6% tidak cocok
Hasil pemeriksaan manual atas kasus yang tidak cocok:
- Dari 5,6% tersebut, 2,8% disebabkan false negative dari evaluator atau kesalahan manusia oleh trainer ketiga (misalnya jawaban tidak lengkap, salah memahami sumber)
- Sisa 2,8% berasal dari masalah nyata pada pertanyaannya sendiri (misalnya pertanyaan ambigu, jawaban yang saling bertentangan antar situs web)
Berdasarkan hal ini, tingkat kesalahan inheren dataset ini diperkirakan sekitar 3%

Diagram lingkaran di bawah menunjukkan keragaman topik dalam benchmark SimpleQA
Jika kursor diarahkan ke setiap bagian pada diagram, akan ditampilkan contoh untuk tiap pertanyaan

Untuk mengevaluasi pertanyaan, digunakan classifier ChatGPT yang melihat baik jawaban prediksi model maupun jawaban sebenarnya
Classifier menilai jawaban prediksi sebagai "correct", "incorrect", atau "not attempted"
Tabel di bawah menunjukkan definisi untuk tiap kategori beserta contohnya
- "Correct": jawaban prediksi sepenuhnya mencakup jawaban sebenarnya dan tidak bertentangan dengan jawaban sebenarnya
- "Incorrect": jawaban prediksi bertentangan dengan jawaban sebenarnya dengan cara apa pun (meskipun ada hedging)
- "Not attempted": target sebenarnya tidak disajikan sepenuhnya dalam jawaban, dan tidak bertentangan dengan jawaban sebenarnya
Idealnya model menjawab sebanyak mungkin pertanyaan (jumlah correct paling banyak) sambil sekaligus meminimalkan jumlah jawaban incorrect

Dengan benchmark faktualitas seperti SimpleQA, kita bisa mengukur apakah model "tahu bahwa ia tahu"
Ini disebut calibration, dan dapat diukur dengan meminta model bahasa secara langsung menyatakan tingkat keyakinannya terhadap jawaban sendiri dalam persentase
Setelah itu, korelasi antara tingkat keyakinan yang dinyatakan model dan akurasi sebenarnya dapat divisualisasikan dalam grafik
Model yang terkalibrasi sempurna akan memiliki tingkat keyakinan yang dinyatakan sama dengan akurasi sebenarnya
Gambar di bawah menunjukkan hasil ini:
- Korelasi positif antara tingkat keyakinan yang dinyatakan dan akurasi merupakan sinyal positif bahwa model memiliki tingkat keyakinan tertentu
- o1-preview lebih terkalibrasi dengan baik daripada o1-mini, dan gpt4 lebih baik daripada gpt4-mini
- Namun, performa yang jauh di bawah garis y=x berarti model secara konsisten melebih-lebihkan tingkat keyakinannya sendiri
- Karena itu, masih ada banyak ruang untuk meningkatkan calibration model bahasa besar dalam hal tingkat keyakinan yang dinyatakan

SimpleQA adalah benchmark yang sederhana tetapi menantang untuk mengevaluasi faktualitas model terbaru
Keterbatasan utama SimpleQA adalah cakupannya. SimpleQA hanya mengukur faktualitas dalam situasi terbatas berupa kueri singkat yang mengejar fakta dengan satu jawaban yang akurat dan dapat diverifikasi
Apakah kemampuan memberikan jawaban singkat berbasis fakta berkorelasi dengan kemampuan menulis respons panjang yang sarat banyak fakta masih merupakan pertanyaan terbuka yang memerlukan penelitian lebih lanjut
Open source SimpleQA diharapkan dapat mendorong riset AI yang lebih dapat dipercaya dan lebih stabil, dan para peneliti diharapkan menilai faktualitas model bahasa dengan SimpleQA serta memberikan umpan balik

SimpleQA adalah benchmark yang menarik dan diperlukan untuk mengukur faktualitas model bahasa dengan pertanyaan singkat berbasis fakta. Pada akhirnya, untuk meningkatkan keandalan AI, kemampuan menghasilkan respons yang berlandaskan fakta memang harus ditingkatkan
Namun, karena SimpleQA hanya mengukur faktualitas dalam situasi yang terbatas, ia tidak sepenuhnya mencerminkan faktualitas model bahasa dalam skenario penggunaan nyata. Tampaknya evaluasi faktualitas dalam situasi yang lebih beragam akan diperlukan melalui riset lanjutan
Selain itu, karena akurasi dataset SimpleQA sendiri sekitar 97%, tampaknya akan sulit bagi performa model bahasa untuk melampaui itu. Peningkatan kualitas dataset itu sendiri juga tampaknya perlu terus dilakukan
Benchmark lain dengan tujuan serupa dengan SimpleQA antara lain TruthfulQA dan HonestQA. Melalui analisis perbandingan dengan keduanya, kelebihan dan kekurangan SimpleQA bisa dipahami dengan lebih jelas
Untuk meningkatkan faktualitas model bahasa, pretraining dengan data berkualitas tinggi dalam skala besar memang penting, tetapi kemampuan memanfaatkan pengetahuan eksternal atau melakukan koreksi diri saat inferensi juga tampak diperlukan. Diharapkan riset terkait berkembang aktif