- Model terbaru o3 dan o4-mini menunjukkan performa unggul di berbagai tugas, tetapi mengalami lebih banyak halusinasi dibanding model sebelumnya
- Masalah halusinasi adalah salah satu persoalan inti yang paling sulit diselesaikan dalam perkembangan AI, dan cenderung makin parah seiring membesarnya model
- Dalam pengujian internal OpenAI, o3 dan o4-mini membuat lebih banyak klaim yang tidak akurat, terutama dengan tingkat halusinasi yang sangat tinggi pada pertanyaan terkait orang (PersonQA)
- Lab Transluce menemukan contoh ketika o3 mengklaim tindakan yang sebenarnya tidak bisa dijalankannya, seperti mengeksekusi kode
- Model dengan fitur pencarian web seperti GPT-4o dapat membantu meningkatkan akurasi dan kini dipandang sebagai arah solusi yang menjanjikan
Model terbaru OpenAI, halusinasi meningkat meski akurasi membaik
- OpenAI merilis model baru o3 dan o4-mini, yaitu model yang dioptimalkan untuk penalaran (reasoning models)
- Kedua model ini menunjukkan performa luar biasa pada tugas tertentu seperti penulisan kode dan matematika, tetapi menghasilkan lebih banyak halusinasi (hallucination) dibanding model sebelumnya
- Keduanya juga lebih sering menghasilkan informasi yang tidak akurat dibanding model terdahulu seperti o1, o1-mini, o3-mini, maupun GPT-4o tradisional
- OpenAI menyebut bahwa “masih diperlukan lebih banyak penelitian” dan belum dapat mengidentifikasi penyebab pastinya
- Analisisnya menunjukkan bahwa ketika model mencoba membuat lebih banyak klaim, jumlah klaim yang benar maupun yang salah sama-sama meningkat
Hasil pada benchmark internal PersonQA
- PersonQA adalah metrik evaluasi akurasi pengetahuan terkait orang yang digunakan secara internal oleh OpenAI
- o3 menunjukkan tingkat halusinasi 33% untuk pertanyaan tersebut
- Tingkat halusinasi model sebelumnya, o1 dan o3-mini, masing-masing hanya 16% dan 14,8%
- o4-mini bahkan lebih buruk dengan tingkat halusinasi 48%
Analisis dari lembaga riset eksternal Transluce
- Transluce memaparkan contoh saat o3 mengklaim tindakan palsu
- Contoh: o3 mengklaim telah menjalankan kode di luar ChatGPT pada MacBook Pro 2021
- Namun sebenarnya model tidak mampu melakukan fungsi tersebut
- Peneliti menduga hal ini terjadi karena metode reinforcement learning yang diterapkan pada model seri o tidak sepenuhnya dapat dikendalikan oleh prosedur pascapemrosesan yang ada
- Tingkat halusinasi seperti ini dapat mengganggu kegunaan praktis model
Reaksi para pengguna nyata
- Profesor Stanford sekaligus CEO Workera, Kian Katanforoosh, sedang menguji o3 dalam alur kerja coding
- Meski menilai o3 lebih unggul daripada produk pesaing, ia juga menyoroti masalah o3 yang berhalusinasi dengan membuat tautan yang tidak berfungsi
- Halusinasi bisa menjadi sumber kreativitas, tetapi di industri yang mengutamakan akurasi seperti bidang hukum, ini bisa menjadi masalah serius
Arah penyelesaian dan peluangnya
- Salah satu pendekatan yang menjanjikan adalah memberikan fitur pencarian web pada model
- GPT-4o mencapai akurasi 90% pada benchmark SimpleQA dengan memanfaatkan pencarian web
- Fitur pencarian juga dapat efektif untuk mengatasi masalah halusinasi pada model penalaran
- Namun, perlu diperhatikan bahwa ini berarti prompt pengguna terekspos ke mesin pencari eksternal
Dilema model penalaran dan masalah halusinasi
- Industri AI belakangan ini berfokus pada peningkatan kemampuan penalaran, dan ini membantu meningkatkan performa model
- Namun, model yang dioptimalkan untuk penalaran dapat menawarkan efisiensi sumber daya komputasi sekaligus memperburuk masalah halusinasi
- OpenAI menyatakan bahwa mereka terus melakukan penelitian berkelanjutan untuk mengatasi masalah halusinasi di semua model
1 komentar
Komentar Hacker News
Semakin pintar AI, semakin besar kemungkinan ia berbohong untuk memenuhi permintaan
Jika tujuannya adalah memaksimalkan skor dengan memprediksi token berikutnya, jawaban "tidak tahu" secara statistik akan sangat jarang muncul
Diperkirakan penggunaan alat akan meningkatkan halusinasi AI
Membagikan cerita tentang perusahaan yang terlalu berlebihan memakai AI
o3 adalah model OpenAI yang untuk pertama kalinya setelah lama membuat orang perlu memeriksa apakah ia melewatkan bagian penting dari kode
Kecewa dengan model o3 dan o4-mini dari OpenAI
Mencari wawasan teknis tentang penyebab halusinasi
Meski banyak uang dan riset telah diinvestasikan ke sistem LLM, dianggap tidak bertanggung jawab jika sistem itu tetap tidak dapat diandalkan bahkan untuk kasus penggunaan yang sederhana
Menganggap batas antara kebohongan dan kreativitas dalam kecerdasan itu sangat tipis
Mengusulkan bahwa AI mungkin memerlukan semacam tidur untuk membereskan halusinasinya, seperti orang bermimpi