6 poin oleh GN⁺ 2024-11-02 | Belum ada komentar. | Bagikan ke WhatsApp
  • SimpleQA adalah benchmark baru untuk mengukur faktualitas model bahasa
  • Melatih model agar menghasilkan respons yang berbasis fakta dalam AI masih merupakan masalah yang belum terselesaikan
  • Model bahasa saat ini kadang menghasilkan keluaran palsu atau respons yang tidak didukung bukti. Ini disebut "hallucinations"
  • Model bahasa yang lebih akurat dan lebih sedikit berhalusinasi akan lebih dapat dipercaya dan bisa dimanfaatkan di berbagai bidang aplikasi
  • Open source SimpleQA ditujukan untuk mengukur faktualitas model bahasa

Fitur benchmark SimpleQA

  • Karena faktualitas adalah topik yang sulit diukur, SimpleQA berfokus pada kueri singkat yang mengejar fakta
  • Tujuan SimpleQA:
    1. Akurasi tinggi: dua AI trainer independen mendukung jawaban benar dengan sumber yang mereka berikan, dan menulis pertanyaan agar jawaban prediksi mudah dievaluasi
    2. Keberagaman: mencakup topik yang luas, dari sains dan teknologi hingga acara TV dan video game
    3. Menantang bagi model terbaru: tidak seperti benchmark sebelumnya seperti TriviaQA atau NQ, SimpleQA dibuat agar lebih menantang bagi model terbaru (misalnya, GPT-4 mencatat skor di bawah 40%)
    4. UX ramah peneliti: berkat pertanyaan dan jawaban yang ringkas, SimpleQA cepat dijalankan dan sederhana. Evaluasi melalui OpenAI API atau API model terbaru lainnya juga efisien. Dengan 4.326 pertanyaan, variansnya sebagai benchmark evaluasi juga diperkirakan relatif rendah

Proses pembuatan dataset SimpleQA

  • AI trainer menelusuri web untuk membuat pertanyaan singkat yang mengejar fakta beserta jawabannya
  • Agar dapat dimasukkan ke dalam dataset, setiap pertanyaan harus memenuhi kriteria ketat:
    • Harus memiliki satu jawaban yang tunggal, jelas, dan mudah dievaluasi
    • Jawaban atas pertanyaan tidak boleh berubah seiring waktu
    • Sebagian besar pertanyaan harus memicu halusinasi pada GPT-4 atau GPT-3.5
  • Untuk lebih meningkatkan kualitas dataset, AI trainer independen kedua menjawab setiap pertanyaan tanpa melihat respons asli
  • Hanya pertanyaan yang jawabannya cocok antara dua AI trainer yang disertakan

Verifikasi kualitas dataset SimpleQA

  • Untuk validasi akhir, 1.000 pertanyaan diambil secara acak dari dataset dan dijawab oleh AI trainer ketiga
  • Jawaban AI trainer ketiga cocok dengan jawaban yang semula disepakati sebesar 94,4%. Sebanyak 5,6% tidak cocok
  • Hasil pemeriksaan manual atas kasus yang tidak cocok:
    • Dari 5,6% tersebut, 2,8% disebabkan false negative dari evaluator atau kesalahan manusia oleh trainer ketiga (misalnya jawaban tidak lengkap, salah memahami sumber)
    • Sisa 2,8% berasal dari masalah nyata pada pertanyaannya sendiri (misalnya pertanyaan ambigu, jawaban yang saling bertentangan antar situs web)
  • Berdasarkan hal ini, tingkat kesalahan inheren dataset ini diperkirakan sekitar 3%

Keragaman pertanyaan di SimpleQA

  • Diagram lingkaran di bawah menunjukkan keragaman topik dalam benchmark SimpleQA
  • Jika kursor diarahkan ke setiap bagian pada diagram, akan ditampilkan contoh untuk tiap pertanyaan

Perbandingan model bahasa menggunakan SimpleQA

  • Untuk mengevaluasi pertanyaan, digunakan classifier ChatGPT yang melihat baik jawaban prediksi model maupun jawaban sebenarnya
  • Classifier menilai jawaban prediksi sebagai "correct", "incorrect", atau "not attempted"
  • Tabel di bawah menunjukkan definisi untuk tiap kategori beserta contohnya
    • "Correct": jawaban prediksi sepenuhnya mencakup jawaban sebenarnya dan tidak bertentangan dengan jawaban sebenarnya
    • "Incorrect": jawaban prediksi bertentangan dengan jawaban sebenarnya dengan cara apa pun (meskipun ada hedging)
    • "Not attempted": target sebenarnya tidak disajikan sepenuhnya dalam jawaban, dan tidak bertentangan dengan jawaban sebenarnya
  • Idealnya model menjawab sebanyak mungkin pertanyaan (jumlah correct paling banyak) sambil sekaligus meminimalkan jumlah jawaban incorrect

Pengukuran calibration model bahasa dengan SimpleQA

  • Dengan benchmark faktualitas seperti SimpleQA, kita bisa mengukur apakah model "tahu bahwa ia tahu"
  • Ini disebut calibration, dan dapat diukur dengan meminta model bahasa secara langsung menyatakan tingkat keyakinannya terhadap jawaban sendiri dalam persentase
  • Setelah itu, korelasi antara tingkat keyakinan yang dinyatakan model dan akurasi sebenarnya dapat divisualisasikan dalam grafik
  • Model yang terkalibrasi sempurna akan memiliki tingkat keyakinan yang dinyatakan sama dengan akurasi sebenarnya
  • Gambar di bawah menunjukkan hasil ini:
    • Korelasi positif antara tingkat keyakinan yang dinyatakan dan akurasi merupakan sinyal positif bahwa model memiliki tingkat keyakinan tertentu
    • o1-preview lebih terkalibrasi dengan baik daripada o1-mini, dan gpt4 lebih baik daripada gpt4-mini
    • Namun, performa yang jauh di bawah garis y=x berarti model secara konsisten melebih-lebihkan tingkat keyakinannya sendiri
    • Karena itu, masih ada banyak ruang untuk meningkatkan calibration model bahasa besar dalam hal tingkat keyakinan yang dinyatakan

Kesimpulan

  • SimpleQA adalah benchmark yang sederhana tetapi menantang untuk mengevaluasi faktualitas model terbaru
  • Keterbatasan utama SimpleQA adalah cakupannya. SimpleQA hanya mengukur faktualitas dalam situasi terbatas berupa kueri singkat yang mengejar fakta dengan satu jawaban yang akurat dan dapat diverifikasi
  • Apakah kemampuan memberikan jawaban singkat berbasis fakta berkorelasi dengan kemampuan menulis respons panjang yang sarat banyak fakta masih merupakan pertanyaan terbuka yang memerlukan penelitian lebih lanjut
  • Open source SimpleQA diharapkan dapat mendorong riset AI yang lebih dapat dipercaya dan lebih stabil, dan para peneliti diharapkan menilai faktualitas model bahasa dengan SimpleQA serta memberikan umpan balik

Pendapat GN⁺

  • SimpleQA adalah benchmark yang menarik dan diperlukan untuk mengukur faktualitas model bahasa dengan pertanyaan singkat berbasis fakta. Pada akhirnya, untuk meningkatkan keandalan AI, kemampuan menghasilkan respons yang berlandaskan fakta memang harus ditingkatkan
  • Namun, karena SimpleQA hanya mengukur faktualitas dalam situasi yang terbatas, ia tidak sepenuhnya mencerminkan faktualitas model bahasa dalam skenario penggunaan nyata. Tampaknya evaluasi faktualitas dalam situasi yang lebih beragam akan diperlukan melalui riset lanjutan
  • Selain itu, karena akurasi dataset SimpleQA sendiri sekitar 97%, tampaknya akan sulit bagi performa model bahasa untuk melampaui itu. Peningkatan kualitas dataset itu sendiri juga tampaknya perlu terus dilakukan
  • Benchmark lain dengan tujuan serupa dengan SimpleQA antara lain TruthfulQA dan HonestQA. Melalui analisis perbandingan dengan keduanya, kelebihan dan kekurangan SimpleQA bisa dipahami dengan lebih jelas
  • Untuk meningkatkan faktualitas model bahasa, pretraining dengan data berkualitas tinggi dalam skala besar memang penting, tetapi kemampuan memanfaatkan pengetahuan eksternal atau melakukan koreksi diri saat inferensi juga tampak diperlukan. Diharapkan riset terkait berkembang aktif

Belum ada komentar.

Belum ada komentar.