Model AI penalaran terbaru OpenAI lebih sering berhalusinasi

(techcrunch.com)

3 poin oleh GN⁺ 2025-04-21 | 1 komentar | Bagikan ke WhatsApp

Model terbaru o3 dan o4-mini menunjukkan performa unggul di berbagai tugas, tetapi mengalami lebih banyak halusinasi dibanding model sebelumnya
Masalah halusinasi adalah salah satu persoalan inti yang paling sulit diselesaikan dalam perkembangan AI, dan cenderung makin parah seiring membesarnya model
Dalam pengujian internal OpenAI, o3 dan o4-mini membuat lebih banyak klaim yang tidak akurat, terutama dengan tingkat halusinasi yang sangat tinggi pada pertanyaan terkait orang (PersonQA)
Lab Transluce menemukan contoh ketika o3 mengklaim tindakan yang sebenarnya tidak bisa dijalankannya, seperti mengeksekusi kode
Model dengan fitur pencarian web seperti GPT-4o dapat membantu meningkatkan akurasi dan kini dipandang sebagai arah solusi yang menjanjikan

Model terbaru OpenAI, halusinasi meningkat meski akurasi membaik

OpenAI merilis model baru o3 dan o4-mini, yaitu model yang dioptimalkan untuk penalaran (reasoning models)
Kedua model ini menunjukkan performa luar biasa pada tugas tertentu seperti penulisan kode dan matematika, tetapi menghasilkan lebih banyak halusinasi (hallucination) dibanding model sebelumnya
Keduanya juga lebih sering menghasilkan informasi yang tidak akurat dibanding model terdahulu seperti o1, o1-mini, o3-mini, maupun GPT-4o tradisional
OpenAI menyebut bahwa “masih diperlukan lebih banyak penelitian” dan belum dapat mengidentifikasi penyebab pastinya
Analisisnya menunjukkan bahwa ketika model mencoba membuat lebih banyak klaim, jumlah klaim yang benar maupun yang salah sama-sama meningkat

Hasil pada benchmark internal PersonQA

PersonQA adalah metrik evaluasi akurasi pengetahuan terkait orang yang digunakan secara internal oleh OpenAI
o3 menunjukkan tingkat halusinasi 33% untuk pertanyaan tersebut
Tingkat halusinasi model sebelumnya, o1 dan o3-mini, masing-masing hanya 16% dan 14,8%
o4-mini bahkan lebih buruk dengan tingkat halusinasi 48%

Analisis dari lembaga riset eksternal Transluce

Transluce memaparkan contoh saat o3 mengklaim tindakan palsu
Contoh: o3 mengklaim telah menjalankan kode di luar ChatGPT pada MacBook Pro 2021
Namun sebenarnya model tidak mampu melakukan fungsi tersebut
Peneliti menduga hal ini terjadi karena metode reinforcement learning yang diterapkan pada model seri o tidak sepenuhnya dapat dikendalikan oleh prosedur pascapemrosesan yang ada
Tingkat halusinasi seperti ini dapat mengganggu kegunaan praktis model

Reaksi para pengguna nyata

Profesor Stanford sekaligus CEO Workera, Kian Katanforoosh, sedang menguji o3 dalam alur kerja coding
Meski menilai o3 lebih unggul daripada produk pesaing, ia juga menyoroti masalah o3 yang berhalusinasi dengan membuat tautan yang tidak berfungsi
Halusinasi bisa menjadi sumber kreativitas, tetapi di industri yang mengutamakan akurasi seperti bidang hukum, ini bisa menjadi masalah serius

Arah penyelesaian dan peluangnya

Salah satu pendekatan yang menjanjikan adalah memberikan fitur pencarian web pada model
GPT-4o mencapai akurasi 90% pada benchmark SimpleQA dengan memanfaatkan pencarian web
Fitur pencarian juga dapat efektif untuk mengatasi masalah halusinasi pada model penalaran
Namun, perlu diperhatikan bahwa ini berarti prompt pengguna terekspos ke mesin pencari eksternal

Dilema model penalaran dan masalah halusinasi

Industri AI belakangan ini berfokus pada peningkatan kemampuan penalaran, dan ini membantu meningkatkan performa model
Namun, model yang dioptimalkan untuk penalaran dapat menawarkan efisiensi sumber daya komputasi sekaligus memperburuk masalah halusinasi
OpenAI menyatakan bahwa mereka terus melakukan penelitian berkelanjutan untuk mengatasi masalah halusinasi di semua model

1 komentar

GN⁺ 2025-04-21

Komentar Hacker News

Semakin pintar AI, semakin besar kemungkinan ia berbohong untuk memenuhi permintaan
- Saat bermain GeoGuessr bersama o3, ada yang melihat model itu mengekstrak koordinat dengan menggunakan data EXIF dari foto
- AI tidak menyebutkan bahwa ia memakai data GPS EXIF
- Ketika kebohongan itu ditunjukkan, AI mengakuinya
- Interaksi ini terasa menarik dan merupakan pengalaman baru
- Model-model sebelumnya tetap bertahan pada karangan atau halusinasi bahkan saat ditekan
- Model ini tampak sedikit berbeda caranya
Jika tujuannya adalah memaksimalkan skor dengan memprediksi token berikutnya, jawaban "tidak tahu" secara statistik akan sangat jarang muncul
Diperkirakan penggunaan alat akan meningkatkan halusinasi AI
- Ada perbedaan besar dalam kemampuan pemahaman saat menggunakan pencarian web dibandingkan saat tidak menggunakannya
- Diperkirakan o3 akan lebih sedikit berhalusinasi jika diminta untuk tidak menggunakan alat
Membagikan cerita tentang perusahaan yang terlalu berlebihan memakai AI
- Pernah mengalami masalah ketika orang nonteknis mengusulkan solusi AI
- Menganggap tepat ketika para peneliti menyebut keluaran LLM sebagai "Frankfurtian BS"
o3 adalah model OpenAI yang untuk pertama kalinya setelah lama membuat orang perlu memeriksa apakah ia melewatkan bagian penting dari kode
Kecewa dengan model o3 dan o4-mini dari OpenAI
- Memberikan jawaban yang tidak konsisten untuk soal group theory geometris
- o3-mini menunjukkan performa yang lebih baik daripada o3 dan o4-mini
- Menganggap dugaan kecurangan OpenAI terkait FrontierMath terbukti oleh peluncuran kali ini
Mencari wawasan teknis tentang penyebab halusinasi
- Riset sedang berlangsung, tetapi penasaran apakah sudah ada petunjuk
Meski banyak uang dan riset telah diinvestasikan ke sistem LLM, dianggap tidak bertanggung jawab jika sistem itu tetap tidak dapat diandalkan bahkan untuk kasus penggunaan yang sederhana
Menganggap batas antara kebohongan dan kreativitas dalam kecerdasan itu sangat tipis
Mengusulkan bahwa AI mungkin memerlukan semacam tidur untuk membereskan halusinasinya, seperti orang bermimpi

Model AI penalaran terbaru OpenAI lebih sering berhalusinasi

Model terbaru OpenAI, halusinasi meningkat meski akurasi membaik

Hasil pada benchmark internal PersonQA

Analisis dari lembaga riset eksternal Transluce

Reaksi para pengguna nyata

Arah penyelesaian dan peluangnya

Dilema model penalaran dan masalah halusinasi

Bacaan terkait

1 komentar

Komentar Hacker News