GPT-5.5, Tingkat Halusinasinya 3 Kali GLM-5.2 Berlisensi MIT

(arrowtsx.dev)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Di tengah meningkatnya keraguan di kalangan laboratorium riset AI besar terhadap strategi penskalaan tanpa batas, muncul contoh bahwa ukuran model tidak menjamin akurasi terhadap realitas
GLM-5.2, model open-weight berlisensi MIT, memiliki 753B parameter dengan sekitar 40B parameter aktif dan berhasil mendekati GPT-5.5 dengan selisih hanya 4 poin
Pada AA-Omniscience, tingkat halusinasi tercatat 28% untuk GLM-5.2, 86% untuk GPT-5.5, dan 94% untuk DeepSeek V4 Pro, sehingga kesenjangan dalam kalibrasi ketidakpastian menjadi sama pentingnya dengan skor performa
Dalam pengujian Python, DeepSeek V4 Pro tetap salah meski menghabiskan 3 menit 52 detik dan 7.7k reasoning tokens, sedangkan GLM-5.2 dalam 12 detik dan sekitar 800 tokens berhasil menunjukkan kemustahilan teknis
Pemilihan model sulit dinilai hanya dari jumlah parameter atau performa teoretis; kemampuan mentah, tingkat halusinasi, dan efisiensi komputasi perlu dilihat bersama

Keraguan terhadap strategi penskalaan model

Di kalangan laboratorium AI utama, keraguan terhadap pendekatan yang terus mendorong performa hanya dengan menambah jumlah parameter dan data pelatihan makin besar
Claude Fable 5 dibatasi oleh pemerintah AS tiga hari setelah rilis, dan diperlakukan sebagai kasus pelarangan AI pertama di AS yang berakar pada keamanan nasional
- Fakta bahwa salah satu model terbesar di dunia dilarang karena risiko jailbreak tunggal dipakai sebagai contoh yang menunjukkan batas paradigma penskalaan
Model besar masih mencatat skor tinggi di Artificial Analysis Intelligence Index, tetapi model open-weight juga telah memperkecil kesenjangan secara signifikan
- GLM-5.2 dari Z.ai adalah LLM open-weight berlisensi MIT dengan 753B parameter dan sekitar 40B parameter aktif
- GLM-5.2 berhasil mendekati GPT-5.5 dengan selisih 4 poin dan Fable 5 dengan selisih 9 poin pada Artificial Analysis Intelligence Index
- Dalam kondisi model tertutup diperkirakan 1.5~2 kali lebih besar daripada GLM-5.2, penyempitan kesenjangan ini mendukung kemungkinan adanya plateau kecerdasan aktual

Tingkat halusinasi mengungkap masalah kalibrasi ketidakpastian

Model yang dilatih dengan data faktual dalam jumlah besar dan nonteoretis dapat diperkuat ke arah tetap memberi jawaban bahkan saat tidak tahu
Tingkat halusinasi pada benchmark AA-Omniscience menunjukkan perbedaan besar antar model
- Perbandingan tingkat halusinasi: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T parameter, 49B parameter aktif, AA Intelligence Index 44 poin, tingkat halusinasi 94%
- GLM-5.2: tingkat halusinasi 28%
- Opus 4.8: tingkat halusinasi 36%
- Fable 5: tingkat halusinasi 48%
- GPT-5.5: tingkat halusinasi 86%
Tingkat halusinasi 94% pada DeepSeek V4 Pro berarti bahwa pada pertanyaan yang tidak berhasil dijawab, model itu hanya sekitar 6% mengatakan “tidak tahu”, sedangkan sisanya memberi jawaban salah dengan penuh keyakinan

Efisiensi komputasi yang berbeda dalam pengujian Python

Uji perbandingan dilakukan dengan pertanyaan Python yang relatif kompleks dan memiliki cacat arsitektur yang jelas
- Kedua model diuji di OpenRouter dengan high reasoning effort dan temperature 1
- System prompt-nya adalah “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 disediakan oleh Z.ai dengan FP8 precision, sedangkan DeepSeek V4 Pro disediakan oleh Baidu Qianfan dengan FP8 precision
DeepSeek V4 Pro menghasilkan jawaban salah dengan penuh keyakinan meski menggunakan 7.7k reasoning tokens selama 3 menit 52 detik
GLM-5.2 hanya membutuhkan 12 detik dan sekitar 800 reasoning tokens untuk menyimpulkan bahwa tugas single-threaded yang melakukan multiplexed I/O tanpa yielding atau system polling adalah hal yang secara teknis mustahil
Jika reasoning budget, ukuran korpus, dan jumlah parameter ditambah tanpa kendali, risikonya adalah pemborosan komputasi dan meningkatnya kemungkinan menghasilkan jawaban salah yang terdengar meyakinkan
Karena bahkan model yang sangat besar pun bisa gagal mengatakan “tidak tahu” atau gagal mengenali kesalahan logika maupun teknis yang rumit, maka raw capability, uncertainty calibration/hallucination rate, dan computational efficiency harus dievaluasi bersama

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Mengatakan bahwa kecerdasan nyata telah mandek secara besar-besaran, dan bahwa jika model yang lebih besar terus dilatih ke depan maka kecerdasan bukan hanya akan mandek tetapi malah memburuk, adalah klaim yang cukup berani
Saya tidak tahu mengapa disimpulkan bahwa model yang lebih besar dan data yang lebih banyak akan langsung berujung pada halusinasi yang lebih banyak. Dalam beberapa tahun terakhir kenyataannya justru sebaliknya, dan meski beberapa model masih bisa lebih sering berhalusinasi, model-model saat ini jauh lebih jarang berhalusinasi dibanding ChatGPT awal 175B yang dilatih dengan model lebih kecil dan data yang jauh lebih sedikit
Saya menyebut data karena ada kutipan bahwa laboratorium AI utama mulai skeptis terhadap ekspansi tanpa akhir pada jumlah parameter dan data pelatihan. Situasi sekarang tampaknya menunjukkan industri melihat bahwa bahkan pada model di bawah 1T masih banyak yang bisa digali, hanya saja untuk membuka kemampuan yang diinginkan tampaknya dibutuhkan lebih banyak data berkualitas tinggi di dalam distribusi tersebut
- Untuk membuat model lebih pintar daripada sekarang, dibutuhkan kasus dan contoh untuk dipelajari, tetapi semakin mendekati persentil teratas penalaran manusia, bahan semacam itu menjadi sangat langka
  Soal logika yang dipaksakan memang bisa dibuat, tetapi bahasa Inggris bukan logika formal, jadi sering berubah menjadi permainan bahasa. Soal jenis “Monty Hall” juga, jika disajikan dengan cara berbeda, menjadi lebih jelas; itu lebih mirip permainan bahasa yang hanya menarik bagi manusia
  Pada akhirnya, para pelatih model sedang berhadapan dengan kebiasaan biasa-biasa saja yang sangat dominan dalam korpus pelatihan, yaitu keseluruhan hasil keluaran manusia yang pernah tercatat dalam sejarah. Jika model terus membaik, tahap berikutnya kemungkinan adalah model yang dirancang bersama manusia untuk melampaui keterbatasan seperti ini. Cara kita menggunakan bahasa, proses pemecahan masalah, bahkan hal yang sekarang disebut “orchestration”, semuanya akan ikut berevolusi
  Jika model bisa menangani konteks yang sangat besar dan tidak membutuhkan batasan yang sama, metafora dunia nyata menjadi kurang cocok. Lalu muncul juga pertanyaan seperti seberapa berbeda halusinasi dan ekstrapolasi
  Sebagian besar skeptisisme dan kebingungan terhadap LLM tidak jauh berbeda dari orang dengan kecerdasan rata-rata yang mendengar penjelasan dari orang yang sangat pintar, lalu menganggapnya omong kosong dan dengan angkuh menuduhnya tidak ramah
  Seperti serigala yang dijinakkan menjadi anjing agar memiliki sifat yang cocok hidup di sisi manusia, LLM juga akan berevolusi dengan berpusat pada keterbatasan kita, keangkuhan kita, bias estetika kita, dan prasangka kita. Yang diinginkan kebanyakan manusia dari LLM pada dasarnya bukanlah kecerdasan dan rasionalitas
- Kutipan itu tidak mengatakan “model yang lebih besar dan data yang lebih banyak = lebih banyak halusinasi”. Yang dikatakan adalah model yang lebih besar mengalami stagnasi kecerdasan, bukan soal data yang lebih banyak atau peningkatan halusinasi
  Kutipan yang terkait adalah bagian yang mengatakan “jika model dilatih dengan data besar yang sangat faktual dan nonteoretis, ia belajar untuk selalu mengeluarkan jawaban”
  Jadi ada dua klaim yang terpisah. 1) Model yang lebih besar mengalami stagnasi performa 2) Model yang dilatih dengan lebih banyak data faktual memiliki tingkat halusinasi lebih tinggi
  Poin 1 terasa seperti hal yang sudah cukup dikenal. Saya ingat studi hukum penskalaan OpenAI beberapa tahun lalu juga menunjukkan hasil yang semakin menurun pada jumlah parameter dan volume data pelatihan. Untuk poin 2, saya tidak tahu apakah ada dasar lain selain isi artikel aslinya
- Bukankah halusinasi juga sangat dipengaruhi oleh jumlah komputasi dan kapasitas memori? Perusahaan bisa menghabiskan lebih banyak waktu untuk memverifikasi hasil dalam struktur bergaya agen, menggunakan lebih banyak token penalaran, dan mengurangi kuantisasi. Semua ini sangat bergantung pada komputasi dan memori, tetapi sudah terbukti mengurangi halusinasi
  Mungkin saja GPT-5.5 dibatasi cukup besar karena kekurangan komputasi, memori, atau energi
  Saya setuju bahwa menyimpulkan model yang lebih besar sudah mandek terdengar berlebihan
- Alasan utama laboratorium AI besar menjadi skeptis terhadap ekspansi tanpa akhir pada jumlah parameter dan data pelatihan kemungkinan besar adalah kualitas data pelatihan. Saya tidak tahu mengapa hal ini jarang disebut dalam diskusi seperti ini
  Seperti yang sudah jelas sejak awal, hukum penskalaan hanya memungkinkan sebagian kemampuan yang terdeskripsikan dalam data dasar, lalu membiarkan jaringan saraf tiruan mengabstraksikannya dalam ruang laten
- Bukankah itu overfitting? Datanya memang lebih banyak, tetapi ketika ditanya sesuatu yang tidak ada di data itu, muncullah halusinasi seperti ini
Saya penasaran apakah ini bentuk dari “LLM minimum viable”. Saya sering memikirkan seberapa besar LLM harus dibuat, lalu setelah titik itu cukup diperbesar jendela konteks-nya dan disuntik dengan konten pengetahuan dinamis seperti file PDF atau Markdown agar bisa diberi pengetahuan di luar data pelatihan
Rasanya LLM tidak membutuhkan lebih banyak data, melainkan proses penyempurnaan yang lebih baik
Halusinasi sekilas tampak seperti masalah yang mudah dibidik dengan RLVR. Kita sudah menghasilkan jejak penalaran dalam jumlah sangat besar yang bisa diverifikasi dengan jawaban benar, jadi cukup masukkan “tidak tahu” sebagai jawaban yang valid, lalu untuk soal-soal di mana tidak satu pun dari ribuan jejak penalaran mencapai jawaban benar, naikkan jejak yang sampai pada “tidak tahu” menjadi data pelatihan
Pada dasarnya ini berarti mengajarkan kepada model bahwa “tidak tahu” adalah jawaban yang valid
Sepertinya Sam Altman juga pernah menyinggung gagasan ini dalam sebuah tulisan blog dulu, jadi ini mungkin ide yang sudah jelas bagi semua orang. Kalau begitu, tampaknya dalam praktiknya ini memang tidak semudah kelihatannya
- Hampir semua benchmark mengukur akurasi dengan aturan jika jawabannya benar dapat 1 poin, selain itu 0. Jika untuk 100 pertanyaan dengan keyakinan 10% semuanya dijawab “tidak tahu”, nilainya 0, tetapi jika semuanya dijawab dengan yakin, nilai ekspektasinya 10. Karena itu sebagian besar AI dilatih seperti itu
  Sepengetahuan saya, satu-satunya benchmark AI di mana tebakan acak rata-rata mendapat skor lebih rendah daripada menjawab “tidak tahu” untuk semua pertanyaan adalah AA-Omniscience
- Saya rasa masalahnya ada pada keluaran LLM dan cara alat menafsirkannya. Keluaran itu adalah distribusi probabilitas atas semua token berikutnya yang mungkin. Bahkan jika probabilitas semua token sangat rendah, total probabilitas tetap dinormalisasi agar jumlahnya menjadi 1. Setelah tahap itu, sulit membedakan apakah model benar-benar sangat memfavoritkan token tertentu, atau kita hanya melihat noise yang diperkuat
  Melatih token “tidak tahu” yang terpisah berarti kita harus membuat semacam parit di antara semua token lain. Bukan sekadar ada wilayah noise samar di antara “ya” dan “tidak” yang keduanya punya probabilitas relatif tinggi, tetapi perlu ada puncak baru yang lebih tinggi untuk “tidak tahu”. Lalu akan muncul lagi wilayah samar baru antara “ya” dan “tidak tahu”, serta antara “tidak tahu” dan “tidak”. Jika ingin melatih jawaban lain di antaranya, itu harus dilakukan dengan jauh lebih cermat
  Sebagai gantinya, kita bisa memeriksa apakah beberapa pilihan memiliki probabilitas yang hampir sama. Namun kita juga harus memastikan apakah dua pilihan teratas itu pada dasarnya sinonim seperti “Genève” dan “Geneva”, yang merupakan sinyal bagus bahwa model tahu jawabannya, atau justru “ya” dan “tidak”
- Masalah intinya adalah penekanan halusinasi tidak bisa digeneralisasi. Kita bisa menghukum jawaban yang salah pada berbagai pertanyaan, tetapi itu tidak menghasilkan kemunculan pandangan dunia yang konsisten. Hanya pandangan dunia yang konsisten, dipadukan dengan kemampuan bernalar, yang bisa menjadi solusi sejati untuk halusinasi
  Dengan arsitektur saat ini, kemungkinan besar halusinasi akan tetap ada selamanya pada tugas domain terbuka
- Tidak sesederhana itu. Karena penasaran dengan pertanyaan ini, dulu saya pernah melatih LLM dengan tujuan persis seperti ini
  Tugasnya sederhana. Saya membuat set pelatihan menggunakan dataset MS-MARCO[0] yang berisi kueri, hasil pencarian, dan jawaban. 1) pertanyaan yang diberi hasil pendukung nyata dicampur dengan beberapa hasil yang tidak relevan lalu dipasangkan dengan jawaban benar 2) pertanyaan yang hanya diberi hasil tidak relevan dan jawabannya diisi “No answer present”
  Datasetnya besar, hampir 1 juta sampel, dan saya melatihnya dengan berbagai teknik, mulai dari pendekatan seperti SFT yang membuat model meniru dataset, hingga DPO yang mengontraskan jawaban baik dan buruk untuk kueri pengguna yang sama, sampai GRPO yang memverifikasi anotasi ada atau tidaknya jawaban
  Hasilnya, halusinasi tidak berkurang dan malah menjadi jauh lebih buruk. Sekarang model mulai mengklaim “No answer present” bahkan ketika jawabannya sebenarnya ada, atau pada pertanyaan sederhana yang sejak awal tidak memerlukan hasil pencarian, misalnya soal seperti X+Y
  Tentu saja bisa dikatakan bahwa pelatihan saya masih dasar dibandingkan apa yang mampu dilakukan laboratorium riset terdepan. Meski begitu, saya rasa ini mengisyaratkan keterbatasan yang lebih mendasar. LLM itu rumit, dan tidak benar-benar memahami secara rapi dari prinsip pertama hal-hal seperti “lihat daftar hasil pencarian, periksa relevansinya terhadap kueri pengguna, dan jika relevansi jawaban di bawah ambang tertentu maka jangan gunakan dalam jawaban”
  Singkatnya, ini tidak sesederhana yang terlihat, dan mungkin saja mustahil dicapai
  0: https://huggingface.co/datasets/microsoft/ms_marco
- Jika bisa memakai fungsi reward seperti itu, maka LLM tidak diperlukan; cukup tanyakan ke fungsi reward itu dan jawab pertanyaan apa pun dengannya. Kita bisa membuat benchmark dan melakukan pemeriksaan otomatis, tetapi untuk kasus umum ini tidak bisa diselesaikan. Model bisa saja bagus pada benchmark, tetapi tetap memberi jawaban penuh percaya diri pada area yang tidak tercakup benchmark
  Model memang bisa disetel agar lebih sering mengatakan “tidak tahu”, tetapi ada biaya pada performa. Model juga akan menolak sebagian pertanyaan yang sebenarnya bisa dijawab dengan bermakna. Dalam kasus yang terdegradasi, model bahkan bisa runtuh menjadi selalu atau hampir selalu memprediksi kalimat itu
Skor tingkat halusinasi agak sulit diinterpretasikan. Ini karena nilainya dikondisikan pada situasi ketika model tidak tahu jawabannya. Jadi, ini tidak secara langsung mengukur probabilitas menemui halusinasi dalam penggunaan sehari-hari. Probabilitas itu juga bergantung pada kemungkinan model tidak tahu jawabannya, serta seberapa cocok distribusi tugas pengguna dengan distribusi evaluasi.
Sulit juga menyimpulkan bahwa perbedaan tingkat halusinasi ini murni disebabkan oleh ukuran model. GLM-5.2 jauh lebih jarang berhalusinasi daripada DeepSeek-V4 Pro yang parameternya dua kali lebih banyak, tetapi DeepSeek-V4 Flash ukurannya bahkan kurang dari setengah GLM-5.2 namun berada di peringkat 1 pada indeks halusinasi AA-Omniscience.
Opus 4.8 kemungkinan lebih besar daripada DeepSeek-V4 Pro, dan di indeks itu memiliki tingkat halusinasi 36%, lebih tinggi daripada 28% milik GLM-5.2, tetapi jauh lebih rendah daripada angka DeepSeek. Selain itu, akurasi Opus adalah 47% sedangkan GLM-5.2 25%. Jika dari angka ini dihitung tingkat halusinasi absolut, yaitu jumlah respons berhalusinasi dibagi jumlah total respons, maka Opus menjadi 19% dan GLM-5.2 menjadi 21%.
Jadi, jika kondisi lain sama, model besar mungkin lebih rentan berhalusinasi saat tidak tahu jawabannya, tetapi ada banyak faktor lain yang memengaruhi tingkat halusinasi, dan juga belum sepenuhnya jelas apakah metrik ini memang metrik utama yang perlu dilacak.
- Bukan berarti saya tidak setuju, tetapi pada saat yang sama model juga tidak “tahu” sesuatu dalam arti dikotomis seperti itu. Ini tampak seperti penjelasan sederhana, tetapi sebenarnya sangat subtil.
  Jika suatu fakta muncul sekali di data pelatihan, tidak pernah muncul, muncul sepuluh kali, atau seribu kali, apa yang sebenarnya diketahui model? Fakta tidak disimpan apa adanya, melainkan dipecah menjadi komponen dan dikompresi ke dalam bobot.
  Fakta-fakta “mirip” yang tidak muncul secara sangat dominan akan dikelompokkan bersama dan pada akhirnya tercampur. Tetapi apa yang dimaksud fakta yang mirip? Fakta mana yang benar-benar dihapus, dan fakta mana yang digabungkan dengan hal lain sehingga mencemari kumpulan itu sekaligus memberi kemampuan penalaran? Model tidak tahu apa-apa, dan juga tidak pernah bisa tahu apa yang ia ketahui atau tidak ketahui.
- Mungkin saja semakin mudah pertanyaannya, semakin mudah pula bagi model untuk menyadari bahwa ia tidak tahu jawabannya.
  Jika Opus menjawab benar semua pertanyaan kecuali yang paling sulit, maka pertanyaan yang salah itu justru adalah pertanyaan yang paling sulit untuk diverifikasi atau dideteksi halusinasinya, sehingga tingkat halusinasinya bisa menjadi lebih tinggi.
- Itu tampaknya bisa diuji dengan pertanyaan hipotesis. Cukup tanyakan tentang hal-hal yang tidak terjadi setelah tanggal cutoff pengetahuan, atau tanyakan sesuatu yang memang tidak bisa dipecahkan.
- Halusinasi seharusnya disebut “kegagalan memberikan dasar”.
  Pada struktur biaya model frontier di AS, ada sesuatu yang terasa seperti menyetrum model setiap kali ia ragu apakah harus melakukan pencarian atau tidak. Hampir semua halusinasi termasuk respons penghindaran pencarian.
  Saya bahkan tidak menunggu giliran model. Kalau ada man page atau hasil Hoogle, saya langsung memasukkannya pada titik pemotongan cache prefiks terakhir. Lebih menguntungkan begitu.
- Yang hilang di sini adalah mode kegagalan umum berupa informasi setelah tanggal cutoff pengetahuan. Jika informasi setelah titik itu diperlukan, model akan gagal terlepas dari ukurannya, jadi tingkat halusinasi bisa tetap penting secara terpisah dari basis pengetahuan.
  Jika semua use case sama-sama berisiko keluar dari cakupan dukungan, maka logika sebelumnya masuk akal, tetapi sering kali ada kasus ketika suatu data point dipastikan berada di luar cakupan dukungan, sehingga kemampuan absolut untuk mengenali hal itu menjadi penting.
Bahwa GPT-5.5 dan DeepSeek V4 Pro sangat besar tetapi tetap menjadi pemimpin halusinasi yang paling mencolok terdengar seperti berarti semakin besar model, semakin besar kemungkinan halusinasi. Itu tidak sesuai dengan pengalaman saya.
- Sepertinya maksudnya adalah lebih mungkin berhalusinasi saat tidak tahu jawabannya. Model besar akan lebih sering memberi jawaban benar daripada model kecil, tetapi ketika salah, model besar lebih cenderung mengarang daripada mengatakan “saya tidak tahu”.
Bagian “jika model dilatih dengan data sangat faktual dan sangat besar yang nonteoretis, ia akan belajar untuk selalu memberi jawaban” dan angka tingkat halusinasi AA-Omniscience untuk DeepSeek V4 Pro 94%, GLM-5.2 28%, Opus 4.8 36%, Fable 5 48%, dan GPT-5.5 86% itu mengejutkan.
Dari penelitian sebelumnya kita sudah tahu bahwa halusinasi adalah masalah mendasar LLM dan kemungkinan sulit diperbaiki seperti prompt injection, tetapi saya tidak tahu kalau tingkat halusinasinya seburuk ini.
Selama ini semua orang bertindak seolah model terbaik hanya berhalusinasi pada edge case, tetapi di sini bahkan GLM-5.2 yang performanya paling baik pun punya tingkat halusinasi 28% ketika ia “tidak tahu” sesuatu.
Meski begitu, menurut saya judul blog “Bigger models are not the way” lebih tepat, dan menyentuh poin yang seharusnya menjadi berita yang lebih besar. Jika model yang lebih besar dan set pelatihan yang lebih besar sudah tidak lagi menghasilkan imbal hasil yang sebanding, ada kemungkinan kita sudah mendekati bagian atas kurva-S. Mengingat valuasi perusahaan seperti OpenAI atau xAI sangat bertumpu pada gagasan konyol tentang penskalaan model tanpa akhir, ini adalah berita besar.
- LLM tidak memiliki konsep pengetahuan seperti di Wikipedia.
  Token pertanyaan hanya mendefinisikan token jawaban. Intinya ada pada pengelompokan bobot yang relevan bersama-sama.
- Saya setuju soal judul itu, dan itu kesalahan saya. Khususnya saat memakai model “frontier” seperti ini dalam coding agent, saya mengalami hal-hal yang benar-benar buruk; mereka sering mengarang fakta tentang codebase.
Jika yang dikejar hanya memaksimalkan skor benchmark, lebih besar belum tentu selalu lebih baik, tetapi untuk kecerdasan umum dan nuansa khas model besar, sama sekali tidak begitu.
Model open source memang mengesankan, tetapi dibandingkan dengan Opus atau 5.5, cukup jelas betapa cepatnya mereka runtuh begitu keluar dari himpunan masalah sempit yang cocok dengan benchmark.
Menurut saya, tingkat halusinasi bukan persoalan ukuran model, melainkan bergantung pada cara pelatihannya. Model dilatih dengan korpus raksasa yang didominasi pertanyaan yang tersusun rapi serta jawaban yang tertata baik dan benar. Buku terutama seperti itu, dan buku adalah materi yang dikurasi sangat ketat oleh para ahli di bidangnya
Di buku, hampir tidak pernah terlihat pertanyaan yang tidak memiliki jawaban, lalu penalaran dan penjelasan tentang mengapa dan bagaimana pertanyaan itu tidak punya jawaban. Juga hampir tidak ada buku yang mengajukan pertanyaan bagus lalu dengan jujur menjelaskan bahwa jawabannya tidak diketahui. Dalam proses kurasi, pertanyaan yang penulisnya tidak punya jawaban biasanya dikeluarkan dari pembahasan
Selain itu, selama RLHF, lab-lab riset tampaknya bias ke pertanyaan yang punya solusi dan menghasilkan jawaban menarik, sementara pertanyaan “buruk” yang tidak memiliki jawaban bagus menjadi kurang terwakili. Sangat mungkin juga upaya RLHF lebih sedikit dicurahkan pada pertanyaan yang mengharuskan model mengakui bahwa ia tidak tahu
Manusia belajar sepanjang hidup dengan menghadapi pertanyaan di dunia nyata yang tidak langsung mereka ketahui jawabannya, dan belajar sangat cepat menilai kapan mereka tidak tahu atau tidak yakin
Selain itu, manusia punya rasa takut yang tidak dimiliki LLM. Di otak manusia ada amigdala yang terpisah dari bagian penalaran logis dan mengirimkan sinyal takut, sehingga kita jauh lebih berhati-hati terhadap apa yang kita katakan. Sebaliknya, LLM tidak punya organ rasa takut seperti amigdala, dan hanya belajar merespons berdasarkan pola dalam korpus pelatihan. Karena tidak “takut” akan malu karena jawaban salah atau dipecat, model bisa dengan antusias mengeluarkan jawaban yang sepenuhnya salah
Karena itu, tingkat halusinasi bisa diperbaiki lewat pelatihan, tetapi saat ini lab-lab riset tidak mengoptimalkan ke sana karena persaingan berisiko tinggi untuk membuat model yang paling cerdas dan paling mampu
Sebagai alternatif, saya rasa kita bisa membuat organ terpisah mirip amigdala untuk LLM. Organ itu dapat secara asinkron mengirim sinyal berdasarkan prompt pengguna dan jejak penalaran LLM, lalu menyuntikkan sinyal takut ke penalaran LLM agar berbelok ke jawaban yang lebih aman
- Saya jelas setuju bahwa ukuran model bukan penyebab langsungnya. Namun, memang benar bahwa model dengan jumlah parameter lebih besar memerlukan lebih banyak data pelatihan agar terhindar dari overfitting atau underfitting
  Karena itu, menurut saya persaingan menuju “ukuran data pelatihan maksimum” tanpa sengaja berujung pada overfitting. Tidak sampai pada tingkat fatal, tetapi cukup untuk memicu semacam persepsi di dalam model yang tampak seperti kemahatahuan
- Skinner mungkin akan mengatakan bahwa ini masalah konsekuensi, bukan emosi seperti rasa takut atau keserakahan

GPT-5.5, Tingkat Halusinasinya 3 Kali GLM-5.2 Berlisensi MIT

Keraguan terhadap strategi penskalaan model

Tingkat halusinasi mengungkap masalah kalibrasi ketidakpastian

Efisiensi komputasi yang berbeda dalam pengujian Python

Bacaan terkait

1 komentar

Komentar Hacker News