Masalah keandalan sistem AI
-
Upaya meningkatkan kegunaan dan keandalan sistem AI
- OpenAI berupaya membuat sistem AI menjadi lebih berguna dan dapat diandalkan.
- Terlepas dari upaya tersebut, salah satu masalah yang tetap sulit dipecahkan meskipun model bahasa semakin cakap adalah halusinasi (hallucinations).
-
Definisi halusinasi dan masalahnya
- Halusinasi berarti jawaban yang dihasilkan model dengan penuh keyakinan ternyata tidak sesuai fakta.
- Fenomena ini merupakan masalah penting yang dapat menurunkan keandalan sistem AI.
-
Hasil penelitian dan penyebab halusinasi
- Dalam makalah penelitian baru, disebutkan bahwa alasan model bahasa mengalami halusinasi adalah karena prosedur pelatihan dan evaluasi standar memberi imbalan pada tebakan alih-alih pengakuan atas ketidakpastian.
- Hal ini meningkatkan kemungkinan model AI menghasilkan informasi yang salah.
-
Halusinasi pada ChatGPT dan GPT-5
- ChatGPT juga mengalami halusinasi.
- GPT-5, khususnya saat melakukan penalaran, memang telah secara signifikan mengurangi halusinasi, tetapi halusinasi tetap bisa terjadi.
- Ini menunjukkan perlunya riset dan perbaikan berkelanjutan untuk meningkatkan keandalan sistem AI.
Definisi halusinasi
- Halusinasi adalah pernyataan yang terdengar masuk akal tetapi salah yang dihasilkan oleh model bahasa.
- Halusinasi semacam ini dapat muncul dengan cara yang tidak terduga, bahkan pada pertanyaan sederhana.
Contoh halusinasi
- Misalnya, ketika chatbot yang banyak digunakan ditanya tentang judul disertasi doktoral Adam Tauman Kalai, chatbot itu dengan yakin memberikan tiga jawaban berbeda.
- Namun, jawaban yang diberikan semuanya salah.
Masalah pada metode evaluasi
- Metode evaluasi saat ini menetapkan insentif yang keliru.
- Evaluasi itu sendiri tidak secara langsung menyebabkan halusinasi, tetapi sebagian besar evaluasi mengukur kinerja model dengan cara yang mendorong tebakan dan menghambat kejujuran tentang ketidakpastian.
- Sebagai contoh, jika kita memikirkan ujian pilihan ganda, ketika tidak tahu jawaban yang benar, menebak secara acak kadang bisa benar jika beruntung.
- Cara seperti ini menciptakan lingkungan di mana hasil bisa ditingkatkan melalui tebakan acak, bukan evaluasi yang akurat.
Cara mengevaluasi kinerja model
-
Konsep evaluasi kinerja model
Evaluasi kinerja model dilakukan berdasarkan akurasi jawaban terhadap pertanyaan yang diberikan. -
Penanganan ketidakpastian
Jika model tidak mengetahui jawaban atas pertanyaan tertentu, menjawab 'tidak tahu' tidak menjamin skor yang akurat. -
Kemungkinan menebak
Misalnya, jika model menebak '10 September' sebagai jawaban atas pertanyaan tentang ulang tahun seseorang, ada peluang 1/365 untuk benar. -
Perbedaan skor kinerja
Dalam ribuan pertanyaan uji, model yang menebak bisa tampak lebih unggul di papan skor dibanding model hati-hati yang mengakui ketidakpastian.
Kesimpulan dan implikasi
-
Keterbatasan dalam evaluasi kinerja model
Model yang menebak bisa mencatat skor lebih tinggi, tetapi perlu dicatat bahwa hal itu tidak berarti benar-benar memberikan informasi yang akurat. -
Pentingnya keandalan
Karena itu, saat menilai keandalan dan akurasi model, penting untuk mempertimbangkan arti memberikan informasi yang tepat, bukan hanya skor semata.
Perbandingan akurasi dan tingkat kesalahan model
- Akurasi: model OpenAI o4-mini versi lama menunjukkan kinerja yang sedikit lebih baik.
- Tingkat kesalahan: namun, tingkat kesalahan model ini (yaitu tingkat terjadinya halusinasi) cukup tinggi.
- Tebakan strategis: menebak secara strategis saat tidak yakin memang meningkatkan akurasi, tetapi juga menambah kesalahan dan halusinasi.
- Kriteria evaluasi: ketika hasil dari puluhan evaluasi dirata-ratakan, sebagian besar benchmark menekankan metrik akurasi. Ini menimbulkan dikotomi keliru antara benar dan salah.
Pendekatan baru dalam evaluasi
-
Permasalahan yang diajukan
Metode evaluasi yang ada saat ini hanya berfokus pada akurasi. Ini dapat menjadi faktor yang menurunkan keandalan evaluasi. -
Usulan solusi
Evaluasi dapat dirancang dengan memberi penalti lebih besar untuk kesalahan yang disampaikan dengan yakin, dan penalti lebih kecil untuk ketidakpastian. Ini bisa menjadi cara untuk meningkatkan keadilan evaluasi. -
Pemberian skor parsial
Penting untuk memberikan skor parsial atas ekspresi ketidakpastian yang tepat. Ini memberi kesempatan bagi siswa untuk menyampaikan pemikiran mereka. -
Tren penelitian
Berbagai kelompok riset sedang mengeksplorasi metode evaluasi yang mempertimbangkan ketidakpastian dan kalibrasi. Pendekatan ini dapat menawarkan standar baru yang melampaui akurasi evaluasi.
Memahami penyebab halusinasi
- Halusinasi adalah fenomena ketika muncul ketidakakuratan faktual tertentu.
- Sumber ketidakakuratan tersebut ada pada proses pembelajaran model bahasa.
- Model bahasa belajar melalui pretraining dengan memprediksi kata berikutnya dari sejumlah besar teks.
- Berbeda dari masalah pembelajaran mesin tradisional, setiap pernyataan tidak diberi label 'benar/salah'.
Mengapa halusinasi tetap menjadi masalah
- Ada beberapa alasan mengapa halusinasi sulit dihilangkan.
- Cara model bahasa dipelajari memainkan peran penting dalam penyebab halusinasi.
- Karena cara belajar ini tidak secara langsung menyediakan informasi yang akurat, halusinasi dapat terjadi.
- Kekhususan dan kompleksitas halusinasi sangat berkaitan dengan data pelatihan model bahasa.
Pentingnya sudut pandang statistik
- Makalah ini bertujuan memperjelas hakikat halusinasi dan membantah kesalahpahaman umum.
- Makalah ini juga ingin berkontribusi pada analisis dan pemahaman fenomena halusinasi melalui pendekatan statistik.
- Halusinasi berkaitan erat dengan akurasi model kecerdasan buatan.
Hubungan antara halusinasi dan akurasi
- Klaim: ada keyakinan bahwa meningkatkan akurasi akan menghilangkan halusinasi.
- Ada pula anggapan bahwa model yang 100% akurat tidak akan pernah berhalusinasi.
- Namun, pandangan ini mengabaikan hakikat halusinasi itu sendiri.
Batasan akurasi
- Temuan: akurasi tidak akan pernah mencapai 100%.
- Alasan:
- terlepas dari ukuran model
- terlepas dari kemampuan pencarian dan penalaran
- beberapa pertanyaan di dunia nyata pada dasarnya tidak dapat dijawab.
- Batasan ini menunjukkan bahwa fenomena halusinasi tidak dapat dihilangkan sepenuhnya.
Arah riset ke depan
- Riset di masa depan perlu mencari pendekatan alternatif untuk mengurangi halusinasi.
- Selain meningkatkan akurasi model, dibutuhkan berbagai metodologi untuk memahami penyebab halusinasi dan mengatasinya.
- Pemahaman yang lebih mendalam tentang fenomena halusinasi akan berkontribusi pada peningkatan keandalan kecerdasan buatan.
Belum ada komentar.