GPT-5.5, Tingkat Halusinasinya 3 Kali GLM-5.2 Berlisensi MIT
(arrowtsx.dev)- Di tengah meningkatnya keraguan di kalangan laboratorium riset AI besar terhadap strategi penskalaan tanpa batas, muncul contoh bahwa ukuran model tidak menjamin akurasi terhadap realitas
- GLM-5.2, model open-weight berlisensi MIT, memiliki 753B parameter dengan sekitar 40B parameter aktif dan berhasil mendekati GPT-5.5 dengan selisih hanya 4 poin
- Pada AA-Omniscience, tingkat halusinasi tercatat 28% untuk GLM-5.2, 86% untuk GPT-5.5, dan 94% untuk DeepSeek V4 Pro, sehingga kesenjangan dalam kalibrasi ketidakpastian menjadi sama pentingnya dengan skor performa
- Dalam pengujian Python, DeepSeek V4 Pro tetap salah meski menghabiskan 3 menit 52 detik dan 7.7k reasoning tokens, sedangkan GLM-5.2 dalam 12 detik dan sekitar 800 tokens berhasil menunjukkan kemustahilan teknis
- Pemilihan model sulit dinilai hanya dari jumlah parameter atau performa teoretis; kemampuan mentah, tingkat halusinasi, dan efisiensi komputasi perlu dilihat bersama
Keraguan terhadap strategi penskalaan model
- Di kalangan laboratorium AI utama, keraguan terhadap pendekatan yang terus mendorong performa hanya dengan menambah jumlah parameter dan data pelatihan makin besar
- Claude Fable 5 dibatasi oleh pemerintah AS tiga hari setelah rilis, dan diperlakukan sebagai kasus pelarangan AI pertama di AS yang berakar pada keamanan nasional
- Fakta bahwa salah satu model terbesar di dunia dilarang karena risiko jailbreak tunggal dipakai sebagai contoh yang menunjukkan batas paradigma penskalaan
- Model besar masih mencatat skor tinggi di Artificial Analysis Intelligence Index, tetapi model open-weight juga telah memperkecil kesenjangan secara signifikan
- GLM-5.2 dari Z.ai adalah LLM open-weight berlisensi MIT dengan 753B parameter dan sekitar 40B parameter aktif
- GLM-5.2 berhasil mendekati GPT-5.5 dengan selisih 4 poin dan Fable 5 dengan selisih 9 poin pada Artificial Analysis Intelligence Index
- Dalam kondisi model tertutup diperkirakan 1.5~2 kali lebih besar daripada GLM-5.2, penyempitan kesenjangan ini mendukung kemungkinan adanya plateau kecerdasan aktual
Tingkat halusinasi mengungkap masalah kalibrasi ketidakpastian
- Model yang dilatih dengan data faktual dalam jumlah besar dan nonteoretis dapat diperkuat ke arah tetap memberi jawaban bahkan saat tidak tahu
- Tingkat halusinasi pada benchmark AA-Omniscience menunjukkan perbedaan besar antar model
- Perbandingan tingkat halusinasi:
- DeepSeek V4 Pro: 1.6T parameter, 49B parameter aktif, AA Intelligence Index 44 poin, tingkat halusinasi 94%
- GLM-5.2: tingkat halusinasi 28%
- Opus 4.8: tingkat halusinasi 36%
- Fable 5: tingkat halusinasi 48%
- GPT-5.5: tingkat halusinasi 86%
- Tingkat halusinasi 94% pada DeepSeek V4 Pro berarti bahwa pada pertanyaan yang tidak berhasil dijawab, model itu hanya sekitar 6% mengatakan “tidak tahu”, sedangkan sisanya memberi jawaban salah dengan penuh keyakinan
Efisiensi komputasi yang berbeda dalam pengujian Python
- Uji perbandingan dilakukan dengan pertanyaan Python yang relatif kompleks dan memiliki cacat arsitektur yang jelas
- Kedua model diuji di OpenRouter dengan
highreasoning effort dan temperature 1 - System prompt-nya adalah “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 disediakan oleh Z.ai dengan FP8 precision, sedangkan DeepSeek V4 Pro disediakan oleh Baidu Qianfan dengan FP8 precision
- Kedua model diuji di OpenRouter dengan
- DeepSeek V4 Pro menghasilkan jawaban salah dengan penuh keyakinan meski menggunakan 7.7k reasoning tokens selama 3 menit 52 detik
- GLM-5.2 hanya membutuhkan 12 detik dan sekitar 800 reasoning tokens untuk menyimpulkan bahwa tugas single-threaded yang melakukan multiplexed I/O tanpa yielding atau system polling adalah hal yang secara teknis mustahil
- Jika reasoning budget, ukuran korpus, dan jumlah parameter ditambah tanpa kendali, risikonya adalah pemborosan komputasi dan meningkatnya kemungkinan menghasilkan jawaban salah yang terdengar meyakinkan
- Karena bahkan model yang sangat besar pun bisa gagal mengatakan “tidak tahu” atau gagal mengenali kesalahan logika maupun teknis yang rumit, maka raw capability, uncertainty calibration/hallucination rate, dan computational efficiency harus dievaluasi bersama
1 komentar
Komentar Hacker News
Mengatakan bahwa kecerdasan nyata telah mandek secara besar-besaran, dan bahwa jika model yang lebih besar terus dilatih ke depan maka kecerdasan bukan hanya akan mandek tetapi malah memburuk, adalah klaim yang cukup berani
Saya tidak tahu mengapa disimpulkan bahwa model yang lebih besar dan data yang lebih banyak akan langsung berujung pada halusinasi yang lebih banyak. Dalam beberapa tahun terakhir kenyataannya justru sebaliknya, dan meski beberapa model masih bisa lebih sering berhalusinasi, model-model saat ini jauh lebih jarang berhalusinasi dibanding ChatGPT awal 175B yang dilatih dengan model lebih kecil dan data yang jauh lebih sedikit
Saya menyebut data karena ada kutipan bahwa laboratorium AI utama mulai skeptis terhadap ekspansi tanpa akhir pada jumlah parameter dan data pelatihan. Situasi sekarang tampaknya menunjukkan industri melihat bahwa bahkan pada model di bawah 1T masih banyak yang bisa digali, hanya saja untuk membuka kemampuan yang diinginkan tampaknya dibutuhkan lebih banyak data berkualitas tinggi di dalam distribusi tersebut
Soal logika yang dipaksakan memang bisa dibuat, tetapi bahasa Inggris bukan logika formal, jadi sering berubah menjadi permainan bahasa. Soal jenis “Monty Hall” juga, jika disajikan dengan cara berbeda, menjadi lebih jelas; itu lebih mirip permainan bahasa yang hanya menarik bagi manusia
Pada akhirnya, para pelatih model sedang berhadapan dengan kebiasaan biasa-biasa saja yang sangat dominan dalam korpus pelatihan, yaitu keseluruhan hasil keluaran manusia yang pernah tercatat dalam sejarah. Jika model terus membaik, tahap berikutnya kemungkinan adalah model yang dirancang bersama manusia untuk melampaui keterbatasan seperti ini. Cara kita menggunakan bahasa, proses pemecahan masalah, bahkan hal yang sekarang disebut “orchestration”, semuanya akan ikut berevolusi
Jika model bisa menangani konteks yang sangat besar dan tidak membutuhkan batasan yang sama, metafora dunia nyata menjadi kurang cocok. Lalu muncul juga pertanyaan seperti seberapa berbeda halusinasi dan ekstrapolasi
Sebagian besar skeptisisme dan kebingungan terhadap LLM tidak jauh berbeda dari orang dengan kecerdasan rata-rata yang mendengar penjelasan dari orang yang sangat pintar, lalu menganggapnya omong kosong dan dengan angkuh menuduhnya tidak ramah
Seperti serigala yang dijinakkan menjadi anjing agar memiliki sifat yang cocok hidup di sisi manusia, LLM juga akan berevolusi dengan berpusat pada keterbatasan kita, keangkuhan kita, bias estetika kita, dan prasangka kita. Yang diinginkan kebanyakan manusia dari LLM pada dasarnya bukanlah kecerdasan dan rasionalitas
Kutipan yang terkait adalah bagian yang mengatakan “jika model dilatih dengan data besar yang sangat faktual dan nonteoretis, ia belajar untuk selalu mengeluarkan jawaban”
Jadi ada dua klaim yang terpisah. 1) Model yang lebih besar mengalami stagnasi performa 2) Model yang dilatih dengan lebih banyak data faktual memiliki tingkat halusinasi lebih tinggi
Poin 1 terasa seperti hal yang sudah cukup dikenal. Saya ingat studi hukum penskalaan OpenAI beberapa tahun lalu juga menunjukkan hasil yang semakin menurun pada jumlah parameter dan volume data pelatihan. Untuk poin 2, saya tidak tahu apakah ada dasar lain selain isi artikel aslinya
Mungkin saja GPT-5.5 dibatasi cukup besar karena kekurangan komputasi, memori, atau energi
Saya setuju bahwa menyimpulkan model yang lebih besar sudah mandek terdengar berlebihan
Seperti yang sudah jelas sejak awal, hukum penskalaan hanya memungkinkan sebagian kemampuan yang terdeskripsikan dalam data dasar, lalu membiarkan jaringan saraf tiruan mengabstraksikannya dalam ruang laten
Saya penasaran apakah ini bentuk dari “LLM minimum viable”. Saya sering memikirkan seberapa besar LLM harus dibuat, lalu setelah titik itu cukup diperbesar jendela konteks-nya dan disuntik dengan konten pengetahuan dinamis seperti file PDF atau Markdown agar bisa diberi pengetahuan di luar data pelatihan
Rasanya LLM tidak membutuhkan lebih banyak data, melainkan proses penyempurnaan yang lebih baik
Halusinasi sekilas tampak seperti masalah yang mudah dibidik dengan RLVR. Kita sudah menghasilkan jejak penalaran dalam jumlah sangat besar yang bisa diverifikasi dengan jawaban benar, jadi cukup masukkan “tidak tahu” sebagai jawaban yang valid, lalu untuk soal-soal di mana tidak satu pun dari ribuan jejak penalaran mencapai jawaban benar, naikkan jejak yang sampai pada “tidak tahu” menjadi data pelatihan
Pada dasarnya ini berarti mengajarkan kepada model bahwa “tidak tahu” adalah jawaban yang valid
Sepertinya Sam Altman juga pernah menyinggung gagasan ini dalam sebuah tulisan blog dulu, jadi ini mungkin ide yang sudah jelas bagi semua orang. Kalau begitu, tampaknya dalam praktiknya ini memang tidak semudah kelihatannya
Sepengetahuan saya, satu-satunya benchmark AI di mana tebakan acak rata-rata mendapat skor lebih rendah daripada menjawab “tidak tahu” untuk semua pertanyaan adalah AA-Omniscience
Melatih token “tidak tahu” yang terpisah berarti kita harus membuat semacam parit di antara semua token lain. Bukan sekadar ada wilayah noise samar di antara “ya” dan “tidak” yang keduanya punya probabilitas relatif tinggi, tetapi perlu ada puncak baru yang lebih tinggi untuk “tidak tahu”. Lalu akan muncul lagi wilayah samar baru antara “ya” dan “tidak tahu”, serta antara “tidak tahu” dan “tidak”. Jika ingin melatih jawaban lain di antaranya, itu harus dilakukan dengan jauh lebih cermat
Sebagai gantinya, kita bisa memeriksa apakah beberapa pilihan memiliki probabilitas yang hampir sama. Namun kita juga harus memastikan apakah dua pilihan teratas itu pada dasarnya sinonim seperti “Genève” dan “Geneva”, yang merupakan sinyal bagus bahwa model tahu jawabannya, atau justru “ya” dan “tidak”
Dengan arsitektur saat ini, kemungkinan besar halusinasi akan tetap ada selamanya pada tugas domain terbuka
Tugasnya sederhana. Saya membuat set pelatihan menggunakan dataset MS-MARCO[0] yang berisi kueri, hasil pencarian, dan jawaban. 1) pertanyaan yang diberi hasil pendukung nyata dicampur dengan beberapa hasil yang tidak relevan lalu dipasangkan dengan jawaban benar 2) pertanyaan yang hanya diberi hasil tidak relevan dan jawabannya diisi “No answer present”
Datasetnya besar, hampir 1 juta sampel, dan saya melatihnya dengan berbagai teknik, mulai dari pendekatan seperti SFT yang membuat model meniru dataset, hingga DPO yang mengontraskan jawaban baik dan buruk untuk kueri pengguna yang sama, sampai GRPO yang memverifikasi anotasi ada atau tidaknya jawaban
Hasilnya, halusinasi tidak berkurang dan malah menjadi jauh lebih buruk. Sekarang model mulai mengklaim “No answer present” bahkan ketika jawabannya sebenarnya ada, atau pada pertanyaan sederhana yang sejak awal tidak memerlukan hasil pencarian, misalnya soal seperti X+Y
Tentu saja bisa dikatakan bahwa pelatihan saya masih dasar dibandingkan apa yang mampu dilakukan laboratorium riset terdepan. Meski begitu, saya rasa ini mengisyaratkan keterbatasan yang lebih mendasar. LLM itu rumit, dan tidak benar-benar memahami secara rapi dari prinsip pertama hal-hal seperti “lihat daftar hasil pencarian, periksa relevansinya terhadap kueri pengguna, dan jika relevansi jawaban di bawah ambang tertentu maka jangan gunakan dalam jawaban”
Singkatnya, ini tidak sesederhana yang terlihat, dan mungkin saja mustahil dicapai
0: https://huggingface.co/datasets/microsoft/ms_marco
Model memang bisa disetel agar lebih sering mengatakan “tidak tahu”, tetapi ada biaya pada performa. Model juga akan menolak sebagian pertanyaan yang sebenarnya bisa dijawab dengan bermakna. Dalam kasus yang terdegradasi, model bahkan bisa runtuh menjadi selalu atau hampir selalu memprediksi kalimat itu
Skor tingkat halusinasi agak sulit diinterpretasikan. Ini karena nilainya dikondisikan pada situasi ketika model tidak tahu jawabannya. Jadi, ini tidak secara langsung mengukur probabilitas menemui halusinasi dalam penggunaan sehari-hari. Probabilitas itu juga bergantung pada kemungkinan model tidak tahu jawabannya, serta seberapa cocok distribusi tugas pengguna dengan distribusi evaluasi.
Sulit juga menyimpulkan bahwa perbedaan tingkat halusinasi ini murni disebabkan oleh ukuran model. GLM-5.2 jauh lebih jarang berhalusinasi daripada DeepSeek-V4 Pro yang parameternya dua kali lebih banyak, tetapi DeepSeek-V4 Flash ukurannya bahkan kurang dari setengah GLM-5.2 namun berada di peringkat 1 pada indeks halusinasi AA-Omniscience.
Opus 4.8 kemungkinan lebih besar daripada DeepSeek-V4 Pro, dan di indeks itu memiliki tingkat halusinasi 36%, lebih tinggi daripada 28% milik GLM-5.2, tetapi jauh lebih rendah daripada angka DeepSeek. Selain itu, akurasi Opus adalah 47% sedangkan GLM-5.2 25%. Jika dari angka ini dihitung tingkat halusinasi absolut, yaitu jumlah respons berhalusinasi dibagi jumlah total respons, maka Opus menjadi 19% dan GLM-5.2 menjadi 21%.
Jadi, jika kondisi lain sama, model besar mungkin lebih rentan berhalusinasi saat tidak tahu jawabannya, tetapi ada banyak faktor lain yang memengaruhi tingkat halusinasi, dan juga belum sepenuhnya jelas apakah metrik ini memang metrik utama yang perlu dilacak.
Jika suatu fakta muncul sekali di data pelatihan, tidak pernah muncul, muncul sepuluh kali, atau seribu kali, apa yang sebenarnya diketahui model? Fakta tidak disimpan apa adanya, melainkan dipecah menjadi komponen dan dikompresi ke dalam bobot.
Fakta-fakta “mirip” yang tidak muncul secara sangat dominan akan dikelompokkan bersama dan pada akhirnya tercampur. Tetapi apa yang dimaksud fakta yang mirip? Fakta mana yang benar-benar dihapus, dan fakta mana yang digabungkan dengan hal lain sehingga mencemari kumpulan itu sekaligus memberi kemampuan penalaran? Model tidak tahu apa-apa, dan juga tidak pernah bisa tahu apa yang ia ketahui atau tidak ketahui.
Jika Opus menjawab benar semua pertanyaan kecuali yang paling sulit, maka pertanyaan yang salah itu justru adalah pertanyaan yang paling sulit untuk diverifikasi atau dideteksi halusinasinya, sehingga tingkat halusinasinya bisa menjadi lebih tinggi.
Pada struktur biaya model frontier di AS, ada sesuatu yang terasa seperti menyetrum model setiap kali ia ragu apakah harus melakukan pencarian atau tidak. Hampir semua halusinasi termasuk respons penghindaran pencarian.
Saya bahkan tidak menunggu giliran model. Kalau ada man page atau hasil Hoogle, saya langsung memasukkannya pada titik pemotongan cache prefiks terakhir. Lebih menguntungkan begitu.
Jika semua use case sama-sama berisiko keluar dari cakupan dukungan, maka logika sebelumnya masuk akal, tetapi sering kali ada kasus ketika suatu data point dipastikan berada di luar cakupan dukungan, sehingga kemampuan absolut untuk mengenali hal itu menjadi penting.
Bahwa GPT-5.5 dan DeepSeek V4 Pro sangat besar tetapi tetap menjadi pemimpin halusinasi yang paling mencolok terdengar seperti berarti semakin besar model, semakin besar kemungkinan halusinasi. Itu tidak sesuai dengan pengalaman saya.
Bagian “jika model dilatih dengan data sangat faktual dan sangat besar yang nonteoretis, ia akan belajar untuk selalu memberi jawaban” dan angka tingkat halusinasi AA-Omniscience untuk DeepSeek V4 Pro 94%, GLM-5.2 28%, Opus 4.8 36%, Fable 5 48%, dan GPT-5.5 86% itu mengejutkan.
Dari penelitian sebelumnya kita sudah tahu bahwa halusinasi adalah masalah mendasar LLM dan kemungkinan sulit diperbaiki seperti prompt injection, tetapi saya tidak tahu kalau tingkat halusinasinya seburuk ini.
Selama ini semua orang bertindak seolah model terbaik hanya berhalusinasi pada edge case, tetapi di sini bahkan GLM-5.2 yang performanya paling baik pun punya tingkat halusinasi 28% ketika ia “tidak tahu” sesuatu.
Meski begitu, menurut saya judul blog “Bigger models are not the way” lebih tepat, dan menyentuh poin yang seharusnya menjadi berita yang lebih besar. Jika model yang lebih besar dan set pelatihan yang lebih besar sudah tidak lagi menghasilkan imbal hasil yang sebanding, ada kemungkinan kita sudah mendekati bagian atas kurva-S. Mengingat valuasi perusahaan seperti OpenAI atau xAI sangat bertumpu pada gagasan konyol tentang penskalaan model tanpa akhir, ini adalah berita besar.
Token pertanyaan hanya mendefinisikan token jawaban. Intinya ada pada pengelompokan bobot yang relevan bersama-sama.
Jika yang dikejar hanya memaksimalkan skor benchmark, lebih besar belum tentu selalu lebih baik, tetapi untuk kecerdasan umum dan nuansa khas model besar, sama sekali tidak begitu.
Model open source memang mengesankan, tetapi dibandingkan dengan Opus atau 5.5, cukup jelas betapa cepatnya mereka runtuh begitu keluar dari himpunan masalah sempit yang cocok dengan benchmark.
Menurut saya, tingkat halusinasi bukan persoalan ukuran model, melainkan bergantung pada cara pelatihannya. Model dilatih dengan korpus raksasa yang didominasi pertanyaan yang tersusun rapi serta jawaban yang tertata baik dan benar. Buku terutama seperti itu, dan buku adalah materi yang dikurasi sangat ketat oleh para ahli di bidangnya
Di buku, hampir tidak pernah terlihat pertanyaan yang tidak memiliki jawaban, lalu penalaran dan penjelasan tentang mengapa dan bagaimana pertanyaan itu tidak punya jawaban. Juga hampir tidak ada buku yang mengajukan pertanyaan bagus lalu dengan jujur menjelaskan bahwa jawabannya tidak diketahui. Dalam proses kurasi, pertanyaan yang penulisnya tidak punya jawaban biasanya dikeluarkan dari pembahasan
Selain itu, selama RLHF, lab-lab riset tampaknya bias ke pertanyaan yang punya solusi dan menghasilkan jawaban menarik, sementara pertanyaan “buruk” yang tidak memiliki jawaban bagus menjadi kurang terwakili. Sangat mungkin juga upaya RLHF lebih sedikit dicurahkan pada pertanyaan yang mengharuskan model mengakui bahwa ia tidak tahu
Manusia belajar sepanjang hidup dengan menghadapi pertanyaan di dunia nyata yang tidak langsung mereka ketahui jawabannya, dan belajar sangat cepat menilai kapan mereka tidak tahu atau tidak yakin
Selain itu, manusia punya rasa takut yang tidak dimiliki LLM. Di otak manusia ada amigdala yang terpisah dari bagian penalaran logis dan mengirimkan sinyal takut, sehingga kita jauh lebih berhati-hati terhadap apa yang kita katakan. Sebaliknya, LLM tidak punya organ rasa takut seperti amigdala, dan hanya belajar merespons berdasarkan pola dalam korpus pelatihan. Karena tidak “takut” akan malu karena jawaban salah atau dipecat, model bisa dengan antusias mengeluarkan jawaban yang sepenuhnya salah
Karena itu, tingkat halusinasi bisa diperbaiki lewat pelatihan, tetapi saat ini lab-lab riset tidak mengoptimalkan ke sana karena persaingan berisiko tinggi untuk membuat model yang paling cerdas dan paling mampu
Sebagai alternatif, saya rasa kita bisa membuat organ terpisah mirip amigdala untuk LLM. Organ itu dapat secara asinkron mengirim sinyal berdasarkan prompt pengguna dan jejak penalaran LLM, lalu menyuntikkan sinyal takut ke penalaran LLM agar berbelok ke jawaban yang lebih aman
Karena itu, menurut saya persaingan menuju “ukuran data pelatihan maksimum” tanpa sengaja berujung pada overfitting. Tidak sampai pada tingkat fatal, tetapi cukup untuk memicu semacam persepsi di dalam model yang tampak seperti kemahatahuan