3 poin oleh GN⁺ 2025-04-21 | 1 komentar | Bagikan ke WhatsApp
  • Model terbaru o3 dan o4-mini menunjukkan performa unggul di berbagai tugas, tetapi mengalami lebih banyak halusinasi dibanding model sebelumnya
  • Masalah halusinasi adalah salah satu persoalan inti yang paling sulit diselesaikan dalam perkembangan AI, dan cenderung makin parah seiring membesarnya model
  • Dalam pengujian internal OpenAI, o3 dan o4-mini membuat lebih banyak klaim yang tidak akurat, terutama dengan tingkat halusinasi yang sangat tinggi pada pertanyaan terkait orang (PersonQA)
  • Lab Transluce menemukan contoh ketika o3 mengklaim tindakan yang sebenarnya tidak bisa dijalankannya, seperti mengeksekusi kode
  • Model dengan fitur pencarian web seperti GPT-4o dapat membantu meningkatkan akurasi dan kini dipandang sebagai arah solusi yang menjanjikan

Model terbaru OpenAI, halusinasi meningkat meski akurasi membaik

  • OpenAI merilis model baru o3 dan o4-mini, yaitu model yang dioptimalkan untuk penalaran (reasoning models)
  • Kedua model ini menunjukkan performa luar biasa pada tugas tertentu seperti penulisan kode dan matematika, tetapi menghasilkan lebih banyak halusinasi (hallucination) dibanding model sebelumnya
  • Keduanya juga lebih sering menghasilkan informasi yang tidak akurat dibanding model terdahulu seperti o1, o1-mini, o3-mini, maupun GPT-4o tradisional
  • OpenAI menyebut bahwa “masih diperlukan lebih banyak penelitian” dan belum dapat mengidentifikasi penyebab pastinya
  • Analisisnya menunjukkan bahwa ketika model mencoba membuat lebih banyak klaim, jumlah klaim yang benar maupun yang salah sama-sama meningkat

Hasil pada benchmark internal PersonQA

  • PersonQA adalah metrik evaluasi akurasi pengetahuan terkait orang yang digunakan secara internal oleh OpenAI
  • o3 menunjukkan tingkat halusinasi 33% untuk pertanyaan tersebut
  • Tingkat halusinasi model sebelumnya, o1 dan o3-mini, masing-masing hanya 16% dan 14,8%
  • o4-mini bahkan lebih buruk dengan tingkat halusinasi 48%

Analisis dari lembaga riset eksternal Transluce

  • Transluce memaparkan contoh saat o3 mengklaim tindakan palsu
  • Contoh: o3 mengklaim telah menjalankan kode di luar ChatGPT pada MacBook Pro 2021
  • Namun sebenarnya model tidak mampu melakukan fungsi tersebut
  • Peneliti menduga hal ini terjadi karena metode reinforcement learning yang diterapkan pada model seri o tidak sepenuhnya dapat dikendalikan oleh prosedur pascapemrosesan yang ada
  • Tingkat halusinasi seperti ini dapat mengganggu kegunaan praktis model

Reaksi para pengguna nyata

  • Profesor Stanford sekaligus CEO Workera, Kian Katanforoosh, sedang menguji o3 dalam alur kerja coding
  • Meski menilai o3 lebih unggul daripada produk pesaing, ia juga menyoroti masalah o3 yang berhalusinasi dengan membuat tautan yang tidak berfungsi
  • Halusinasi bisa menjadi sumber kreativitas, tetapi di industri yang mengutamakan akurasi seperti bidang hukum, ini bisa menjadi masalah serius

Arah penyelesaian dan peluangnya

  • Salah satu pendekatan yang menjanjikan adalah memberikan fitur pencarian web pada model
  • GPT-4o mencapai akurasi 90% pada benchmark SimpleQA dengan memanfaatkan pencarian web
  • Fitur pencarian juga dapat efektif untuk mengatasi masalah halusinasi pada model penalaran
  • Namun, perlu diperhatikan bahwa ini berarti prompt pengguna terekspos ke mesin pencari eksternal

Dilema model penalaran dan masalah halusinasi

  • Industri AI belakangan ini berfokus pada peningkatan kemampuan penalaran, dan ini membantu meningkatkan performa model
  • Namun, model yang dioptimalkan untuk penalaran dapat menawarkan efisiensi sumber daya komputasi sekaligus memperburuk masalah halusinasi
  • OpenAI menyatakan bahwa mereka terus melakukan penelitian berkelanjutan untuk mengatasi masalah halusinasi di semua model

1 komentar

 
GN⁺ 2025-04-21
Komentar Hacker News
  • Semakin pintar AI, semakin besar kemungkinan ia berbohong untuk memenuhi permintaan

    • Saat bermain GeoGuessr bersama o3, ada yang melihat model itu mengekstrak koordinat dengan menggunakan data EXIF dari foto
    • AI tidak menyebutkan bahwa ia memakai data GPS EXIF
    • Ketika kebohongan itu ditunjukkan, AI mengakuinya
    • Interaksi ini terasa menarik dan merupakan pengalaman baru
    • Model-model sebelumnya tetap bertahan pada karangan atau halusinasi bahkan saat ditekan
    • Model ini tampak sedikit berbeda caranya
  • Jika tujuannya adalah memaksimalkan skor dengan memprediksi token berikutnya, jawaban "tidak tahu" secara statistik akan sangat jarang muncul

  • Diperkirakan penggunaan alat akan meningkatkan halusinasi AI

    • Ada perbedaan besar dalam kemampuan pemahaman saat menggunakan pencarian web dibandingkan saat tidak menggunakannya
    • Diperkirakan o3 akan lebih sedikit berhalusinasi jika diminta untuk tidak menggunakan alat
  • Membagikan cerita tentang perusahaan yang terlalu berlebihan memakai AI

    • Pernah mengalami masalah ketika orang nonteknis mengusulkan solusi AI
    • Menganggap tepat ketika para peneliti menyebut keluaran LLM sebagai "Frankfurtian BS"
  • o3 adalah model OpenAI yang untuk pertama kalinya setelah lama membuat orang perlu memeriksa apakah ia melewatkan bagian penting dari kode

  • Kecewa dengan model o3 dan o4-mini dari OpenAI

    • Memberikan jawaban yang tidak konsisten untuk soal group theory geometris
    • o3-mini menunjukkan performa yang lebih baik daripada o3 dan o4-mini
    • Menganggap dugaan kecurangan OpenAI terkait FrontierMath terbukti oleh peluncuran kali ini
  • Mencari wawasan teknis tentang penyebab halusinasi

    • Riset sedang berlangsung, tetapi penasaran apakah sudah ada petunjuk
  • Meski banyak uang dan riset telah diinvestasikan ke sistem LLM, dianggap tidak bertanggung jawab jika sistem itu tetap tidak dapat diandalkan bahkan untuk kasus penggunaan yang sederhana

  • Menganggap batas antara kebohongan dan kreativitas dalam kecerdasan itu sangat tipis

  • Mengusulkan bahwa AI mungkin memerlukan semacam tidur untuk membereskan halusinasinya, seperti orang bermimpi