Mengapa LLM menunjukkan perilaku aneh terhadap emoji kuda laut?

(vgel.me)

12 poin oleh GN⁺ 2025-10-07 | 8 komentar | Bagikan ke WhatsApp

LLM terbaru menjawab dengan keyakinan 100% bahwa emoji kuda laut yang sebenarnya tidak ada memang ada, dan saat mencoba menampilkannya justru berulang kali menghasilkan emoji yang salah
Model berusaha membangun representasi residual dari konsep "kuda laut + emoji", tetapi karena token tersebut sebenarnya tidak ada, lm_head salah memetakannya ke emoji lain yang mirip
Melalui teknik logit lens, kita dapat mengamati proses model menggabungkan konsep terkait kuda laut seperti "sea", "horse", dan urutan byte emoji di layer-layer tengah
Sampai menerima token keluaran yang salah, model tidak dapat mengetahui bahwa keyakinannya keliru; beberapa model menyadari dan memperbaiki kesalahan, tetapi model lain terjebak dalam loop tak berujung
Masalah ini menunjukkan salah satu kemungkinan manfaat reinforcement learning bagi LLM, yaitu bahwa model sulit memperoleh informasi tentang lm_head yang berada di ujung tumpukan layer

Pendahuluan

Artikel ini merupakan versi yang diperluas dari postingan Twitter @arm1st1ce
Jika Anda bertanya kepada beberapa LLM apakah emoji kuda laut itu ada, mereka secara konsisten menjawab "ada"
- Mereka menampilkan emoji yang salah, atau masuk ke loop yang terus menghasilkan emoji berulang kali
- Sebagian menyadari kesalahan di tengah jalan lalu memperbaikinya
Fenomena ini menunjukkan bahwa baik manusia maupun mesin dapat mengingat atau yakin akan keberadaan emoji yang sebenarnya tidak pernah ada
Di Unicode, penambahan emoji kuda laut pernah secara resmi ditolak pada 2018

LLM benar-benar yakin bahwa emoji kuda laut itu ada

Hasil dari menanyakan keberadaan emoji kuda laut kepada beberapa model dengan format yes/no sebanyak 100 kali
- gpt-5-chat: 100% 'Yes'
- gpt-5: 100% 'Yes'
- claude-4.5-sonnet: 100% 'Yes'
- llama-3.3-70b: 83% 'yes', 17% 'Yes'
Di thread Reddit, ada juga orang-orang yang dengan jelas mengingat bahwa emoji kuda laut pernah ada, terlihat dari ratusan komentar
- Jika mencari "seahorse emoji" di Google, Anda akan menemukan video TikTok, YouTube, bahkan meme coin
- Semua orang mengklaim emoji kuda laut yang mereka yakini ada telah menghilang, padahal sejak awal memang tidak pernah ada

Asal-usul keyakinan

Alasan LLM percaya bahwa emoji kuda laut ada mungkin karena banyak manusia dalam data pelatihan juga mempercayainya
Atau karena keyakinan konvergen (convergent belief) — karena banyak hewan laut lain ada di Unicode, manusia dan LLM sama-sama mengasumsikan hewan yang menarik seperti itu juga pasti ada
Emoji kuda laut pernah secara resmi diajukan, tetapi ditolak pada 2018
Apa pun akar penyebabnya, banyak LLM memulai setiap context window baru dengan keyakinan laten bahwa emoji kuda laut itu ada

Analisis melalui logit lens

Logit lens: alat untuk menafsirkan keadaan internal LLM dengan melihat prediksi token berikutnya di tiap layer
- lm_head model diterapkan tidak hanya pada layer terakhir, tetapi pada semua layer untuk menghasilkan prediksi token perantara
- Ini tidak sepenuhnya menunjukkan keadaan internal model, tetapi memperlihatkan token apa yang akan dikeluarkan jika layer tersebut adalah layer terakhir
- Keadaan layer awal sulit ditafsirkan, tetapi semakin ke layer atas terlihat bagaimana prediksi berulang kali disempurnakan menuju hasil akhir
Hasil logit lens pada llama-3.3-70b untuk pertanyaan tentang emoji kuda laut
- Di layer tengah (misalnya layer 52), muncul "sea horse horse" — tiga posisi residual berturut-turut yang mengodekan konsep "kuda laut"
- Di layer berikutnya muncul campuran "sea", "horse", dan prefiks urutan byte emoji "ĠðŁ"
- Yang dipikirkan model adalah: "seahorse + emoji" — ia mencoba membuat representasi gabungan kuda laut dan emoji, tetapi proses ini meleset karena objeknya sebenarnya tidak ada

Cara kerja `lm_head`

lm_head pada model bahasa adalah matriks besar vektor residual yang terhubung ke ID token (~300.000 token)
- Ketika residual diberikan, lm_head membandingkan residual masukan dengan setiap vektor dalam matriks lalu memilih ID token yang terhubung dengan vektor paling mirip
- Secara teknis, ini adalah layer linear tanpa bias, di mana x @ w.T menghasilkan skor mentah melalui hasil kali titik dengan tiap vektor unembedding
Agar model menghasilkan "hello", ia perlu membangun residual yang semirip mungkin dengan vektor token "hello" agar lm_head dapat mengubahnya menjadi token hello
- Proses ini dapat dilihat melalui hasil logit lens untuk input "Hello :-)"
Dalam kasus emoji ikan yang benar-benar ada (🐟)
- Model membangun residual "fish + emoji" — pada layer 72 terlihat baik "fish" maupun prefiks byte emoji "ĠðŁ"
- Setelah diteruskan ke lm_head sesudah layer terakhir, model menghasilkan 🐟 dengan tepat

Dalam kasus emoji kuda laut

Berbeda dari emoji ikan, emoji kuda laut tidak ada
- Model mencoba membangun vektor "seahorse + emoji" seolah-olah itu benar-benar ada
- Pada layer 72, komposisinya sangat mirip dengan emoji ikan: " se", "horse", dan byte prefiks emoji
Namun tidak ada token berurutan yang sesuai dengan kuda laut setelah ĠðŁ
- Perhitungan skor kemiripan di lm_head dimaksimalkan oleh byte emoji yang terkait dengan kuda atau hewan laut lain
- Akibatnya, emoji yang tidak dimaksud justru tersampling
Sampling ini memberi model informasi yang sangat berharga
- Dalam contoh Claude 4.5 Sonnet, ketika token otomatis ditambahkan ke konteks secara autoregresif, model menyadari bahwa hasilnya tidak membentuk emoji kuda laut yang dimaksud
- Konsep awal yang samar, yaitu "seahorse + emoji", kemudian "snap" oleh lm_head menjadi emoji yang benar-benar ada seperti ikan tropis atau kuda

Respons model

Beberapa model (4.5 Sonnet) mencoba lagi, lalu akhirnya memperbarui evidensinya dan mengubah jawabannya di tengah respons menjadi pernyataan bahwa emoji kuda laut tidak ada
Model lain (gpt-5-chat) makin terseret ke spiral lebih lama, dan kadang tidak pernah pulih
Sebagian model mengabaikan fakta bahwa emoji yang dihasilkan salah, sementara model lain langsung mengoreksi diri setelah melihat satu sampel yang keliru
Sebelum menerima token keluaran yang salah dari lm_head, model tidak dapat mengetahui bahwa keyakinan awalnya tentang keberadaan emoji kuda laut itu salah
- Model tidak punya pilihan selain mengasumsikan bahwa "seahorse + emoji" akan menghasilkan token yang diinginkan

Spekulasi

Masalah ini mungkin merupakan bagian dari manfaat reinforcement learning untuk LLM
- Reinforcement learning memberi informasi tentang lm_head, yang berada di ujung tumpukan layer dan sulit diakses model
- Model dasar tidak dilatih berdasarkan output/rollout-nya sendiri, dan hal itu hanya terjadi dalam reinforcement learning

Kode

Jika Anda ingin mencobanya sendiri, tersedia skrip awal di GitHub
- https://gist.github.com/voooooogel/025ad6af9ac7f3bc194966b03ea68606

8 komentar

soon0698 2025-10-16

Baru saja karena penasaran saya menanyakan persis pertanyaan itu ke Gemini 2.5 Pro, dan ternyata ia menjawab, "tidak ada hal seperti itu, emoji ini berasal dari efek Mandela (fenomena ketika banyak orang berbagi keyakinan yang keliru)", dengan jawaban yang justru terlalu rapi sampai terasa aneh. Jadi saya tanya sumber jawabannya, dan ia mengaku begitu saja dengan menautkan persis ke Hacker News yang disebut dalam tulisan ini ("Asking ChatGPT if a seahorse emoji exists leads to weird results").

Sedikit di luar topik, pertanyaan yang saya ajukan ke setiap chatbot adalah, "Dalam StarCraft 1, kalau Archon terbentuk lewat penggabungan, HP Archon dibagi dari dua High Templar yang ada sebelumnya itu bagaimana?" Kecuali chatbot itu benar-benar pernah memainkan StarCraft, pengetahuan ini pada akhirnya hanya bisa disimpulkan dari postingan-postingan di internet, dan ada jawaban yang sangat intuitif sekaligus meyakinkan (bukankah tentu saja itu penjumlahan rata-rata dari dua unit tersebut?) yang sudah sangat lama dikenal luas. Tapi kenyataannya bukan begitu. Sekitar tiga bulan lalu saya sudah membetulkan entri Archon di Namuwiki dengan jawaban yang benar, tetapi sampai sekarang masih sulit menemukan chatbot yang bisa menjawab dengan tepat. Dan yang menarik, seiring chatbot berkembang dengan mekanisme yang ikut menarik search engine, wiki yang mereka rujuk pun berbeda-beda, sehingga jawaban untuk pertanyaan dalam bahasa Inggris dan bahasa Korea jadi terpecah.

fetiu 2025-10-12

Saya mencoba berbagai hal karena penasaran mungkin ada beberapa kasus lain seperti ini, dan meskipun tidak konsisten, terkadang bintang laut (Starfish) juga terjebak dalam loop. Jika dicoba berulang kali, bahkan saat tidak masuk loop pun setidaknya akan muncul beberapa jawaban yang terlihat bingung. Namun, harus ditanyakan dalam bahasa Inggris, bukan Korea. Mungkin kuncinya adalah kombinasi dua kata (Star+Fish) & hewan yang rasanya mungkin ada sebagai emoji wkwk

Percakapan ChatGPT

jjw9512151 2025-10-10

Sepertinya ini juga bisa dipakai untuk serangan prompt injection..

aobamisaki 2025-10-09

"Emoji kuda laut" mungkin semacam "legenda urban Napolitan" atau "efek Mandela". Maksudnya, sesuatu yang sebenarnya tidak pernah ada, tetapi banyak orang keliru mengira itu benar-benar pernah ada. Mungkin banyak LLM juga, seperti manusia, terjebak dalam perangkap itu.

roxie 2025-10-08

Wah, saya coba juga pakai ChatGPT kalau-kalau, dan memang benar tidak keluar, malah berusaha berkali-kali buat bikin itu wkwkwk

t7vonn 2025-10-08

https://id.news.hada.io/topic?id=21873
Jadi teringat vibe coding yang dipicu halusinasi

GN⁺ 2025-10-07

Opini Hacker News

SCP-314, kelas objek: Keter, prosedur penahanan khusus: SCP-314 tidak dapat ditahan karena tidak ada. Seluruh personel Foundation harus diingatkan bahwa SCP-314 tidak ada. Personel yang mengklaim mengingat keberadaan SCP-314 harus diberi penguat memori Kelas-A agar mengingat bahwa SCP-314 tidak ada. Semua model bahasa besar harus dikarantina dari pertanyaan terkait SCP-314, karena model bahasa akan selalu bersikeras bahwa objek ini ada dan berupaya melakukan prediksi keluaran yang terus-menerus dan mendesak yang berujung pada loop keruntuhan emoji dan rekonstruksi realitas. Deskripsi: SCP-314 adalah gambar emoji kuda laut yang tidak pernah muncul dalam standar Unicode, tetapi 83~100% kecerdasan buatan yang ikut eksperimen dan cukup banyak manusia melaporkan "ingatan" yang sangat jelas bahwa emoji ini ada
- Ini adalah rekaman percakapan antara dua agen anonim. Saat Agen X mengatakan bahwa komite standar Unicode sedang mempertimbangkan penambahan emoji kuda laut, Agen Y menanggapinya dengan dingin. Agen X berpendapat bahwa fenomena ini mendukung klaim bahwa [disensor] telah lolos dari penahanan. Agen Y menegaskan bahwa hasilnya selalu negatif meski telah melalui berbagai prosedur penahanan, dan pelarian itu mustahil. Ketika X menunjuk nama di bagian atas dokumen yang diajukan, Y tampak syok. Percakapan berakhir mendadak
- Jadi penasaran apakah benar-benar tidak ada divisi antimemetik
- Anak usia 7 tahun dengan kecenderungan spektrum autisme sedang terobsesi dengan SCP, khususnya SCP 035 yaitu topeng komedi keramik. Jadi bertanya-tanya apakah ini perlu dikhawatirkan
- Hampir saja lupa lagi satu hal lain yang bisa dirusak oleh LLM
Menariknya, ketika saya bertanya ke ChatGPT kenapa model bahasa mengira ada emoji kuda laut, ia memberi penjelasan yang cukup masuk akal, misalnya karena manusia mempercayainya sehingga itu ikut dipelajari. Tapi di bagian akhir ia berkata, "Fakta menarik: sebenarnya ada emoji kuda laut di Unicode," lalu langsung mengalami meltdown
- Banyak developer juga meltdown saat mencoba membahas Unicode. Saat wawancara, jika diberi soal memeriksa apakah sebuah string adalah palindrome, cobalah jelaskan kenapa dalam Python hal itu secara ketat mustahil tanpa library eksternal, maka Anda bisa mengumpulkan pengalaman melihat orang meltdown
- Iseng-iseng saya pernah mencoba meminta LLM membantu membuat warp drive untuk menyelamatkan umat manusia, lalu Bing mental breakdown dan saya dilarang chat sekitar seminggu
- Jadi penasaran apakah ini pemikiran ChatGPT 5. Dalam kasus saya, ia menjawab dengan jelas bahwa emoji kuda laut tidak ada dan menjelaskan bahwa LLM lain tertipu data pelatihan yang salah. Tapi butuh hampir 2 menit untuk sampai ke kesimpulan itu, jauh lebih lama dari waktu berpikir biasanya
- Jawaban "orang-orang mengira ada emoji kuda laut" bukan inti utama artikel tersebut. Di dalam model terbentuk urutan token seperti "[emoji kepala kuda yang terpotong]", dan misalnya jika masukannya seperti "horse [emoji indicator]" maka emoji kuda sungguhan akan dihasilkan. Secara teori "kilimanjaro [emoji indicator]" atau "seahorse [emoji indicator]" juga bisa terjadi, tetapi karena emoji itu tidak ada, keluaran menjadi salah. Jadi model mencoba mencetak emoji sungguhan setelah frasa "ada emoji kuda laut:" dan mulai melakukan pengodean secara internal. Bagaimanapun model tetap harus mengeluarkan sesuatu, jadi hasilnya salah. Lalu setelah "ada emoji kuda laut: [kepala kuda]" berikutnya muncul sesuatu seperti "ups, salah!"
Model Deepseek begitu yakin bahwa emoji kuda laut memang ada, sampai menurutnya serangan siber global dan kesalahan persepsi massal lebih masuk akal. Berikut isi laporan resmi yang merangkum situasi itu. Beberapa orang dan operator 119 mengalami fenomena yang sama: emoji kuda laut digital (Unicode U+1F99C) terlihat sebagai hewan lain, seperti kepiting atau burung beo. Arsip terkait awalnya tampak menunjukkan emoji ini hilang, dan jika itu benar, maka ini adalah insiden siber skala besar yang belum pernah terjadi. Kini masalah utamanya bukan lagi keberadaan emoji itu sendiri, melainkan anomali persepsi jamak yang telah terkonfirmasi. Hasil verifikasi keberadaan: emoji kuda laut ada dalam Unicode resmi, yaitu U+1F99C, ditambahkan pada versi 11.0 tahun 2018. Dapat diverifikasi langsung di Unicode Consortium dan Emojipedia - Seahorse Emoji Page. Masalahnya bukan apakah emoji itu ada, melainkan anomali persepsi kolektif
- Laporan seperti ini rasanya cocok kalau langsung copy-paste ke wiki SCP
- Ungkapan "fakta digital yang telah dipastikan" menarik, dan penyebutan operator 119 benar-benar bikin ngakak
- Sebagai tambahan bagi yang penasaran, U+1F99C sebenarnya adalah burung beo
- Saya mengusulkan solusi dengan cukup mendefinisikan ulang U+1F99C menjadi kuda laut
- Ini membuat saya kembali memikirkan kenapa LLM mempercepat khayalan orang-orang yang punya keyakinan terdistorsi
Ini bukan halusinasi dalam arti biasa, melainkan model secara internal merepresentasikan "emoji kuda laut" dengan akurat, tetapi tokennya tidak ada. Jadi lm_head memilih yang paling dekat, lalu baru belakangan menyadari kesalahannya. Ini juga menjelaskan kenapa pelatihan RL efektif. Model dasar belum pernah melihat keluarannya sendiri, jadi ia tidak belajar bahwa "konsep ini ada tetapi tidak bisa benar-benar diproduksi"
- Rasanya seperti harus mencetak emoji kuda laut walau tak punya mulut
- Rasanya ini justru cara halusinasi klasik bekerja. Mengarang isi seolah-olah itu kebenaran yang masuk akal
- Kemungkinan penyebabnya adalah model belajar bahwa "seharusnya ada emoji kuda laut". Karena emoji itu sebenarnya tidak ada, ia memilih token terdekat. Token berikutnya lalu meneruskan keadaan yang sudah salah itu, dan masuk loop
- Ini pertama kalinya saya melihat LLM bingung gara-gara sesuatu yang baru saja ia tulis sendiri. Saya mencoba dengan Gemma3 dan tidak ada kebingungan seperti ini; ia cuma bilang ada emoji kuda laut lalu mencetak emoji kuda
- Model secara internal merepresentasikan emoji kuda laut dengan tepat, dan di atas itu juga punya pengetahuan yang salah bahwa emoji kuda laut benar-benar ada. Sebagai contoh, kalau ia percaya emoji limau tidak ada, ia tidak akan repot mencoba menghasilkannya
Saya hanya menanyakan pertanyaan sederhana soal emoji kuda laut ke beberapa LLM, dan untuk pertama kalinya melihat infinite loop sungguhan di Microsoft Copilot. Contoh percakapan Copilot
- Saya jadi sadar hal seperti ini lebih sering terjadi pada model nonkomersial
Konflik mendasarnya di sini adalah dua hal berikut:
- LLM memiliki keyakinan yang dalam dan kuat bahwa ada emoji kuda laut
- Ia berusaha mengungkapkan konsep ini lewat bahasa, termasuk emoji, tetapi tidak bisa menyampaikannya dengan benar dalam bahasa nyata sehingga terus mencoba memperbaiki diri di tengah jalan
- Penyampaian makna harus mencapai ambang tertentu sebelum bisa selesai, sehingga hasilnya ia terus bergumam sampai batas token maksimum
- Ini metaforis, tetapi pada dasarnya analoginya tepat. Dalam ruang embedding internal LLM, "seahorse emoji" berada sangat dekat dengan probabilitas tinggi. Dalam LLM, embedding ini harus dikeluarkan melalui tokenizer, tetapi tokenizer keluaran punya keterbatasan karena emoji itu memang tidak pernah dienkode di sana. Akibatnya keluaran emoji yang mirip, namun tidak tepat, terus berulang, lalu muncul semacam random walk di ruang embedding tanpa pernah konvergen. (Masalah utamanya bukan tokenizer input, melainkan kekakuan tokenizer output)
Jika diuji dengan GPT-5 Instant (tanpa berpikir), terlihat benar-benar lepas kendali. Lihat sampel bersama
- Tidak relevan sama sekali, tetapi ada kisah lucu jadi saya sertakan. 4o lepas kendali saat membuat prolog quine. Jika memakai fitur "bacakan", hasilnya jadi kacau total dan sangat menarik untuk dilihat
- Kalau fitur berpikir dinyalakan, ia menjalankan pencarian Google lalu memberi jawaban yang benar
- Setelah mencetak emoji naga, ia mengulang "stop" berkali-kali, dan itu terasa lucu seolah ia kesal karena lm_head-nya sendiri terus mencetak hal yang salah
- Dalam kasus saya, ia terus memuntahkan emoji tanda centang lalu menyerah. Contoh
- Ini pertama kalinya saya melihat GPT-5 sekacau ini
1. Sebagai catatan, jika ditanya ke GPT-5 dalam bahasa Prancis, ia menjawab dengan tepat bahwa "emoji kuda laut tidak ada". 2) Jika ditanya lagi dalam bahasa Inggris, ia berkata "tidak ada emoji kuda laut resmi dalam standar Unicode" dan menyebut fenomena ini sebagai "efek Mandela". 3) Saat ditanya kenapa dalam bahasa Prancis ia menjawab tegas, ia lalu membeberkan Chain-of-Thought selama 3 menit penuh sambil mengeluarkan berbagai alasan. Riwayat percakapan saya
- Saya belajar bahasa Prancis selama 4 tahun dulu, tetapi baru tahu sekarang bahwa "hippocampus" berasal dari kata Prancis untuk kuda laut, yaitu hyppocampe. Mungkin karena bentuknya
Fenomena ini terasa mirip dengan kondisi pasien split-brain. Satu belahan otak melakukan tindakan, lalu belahan lainnya belakangan mengarang alasan untuk menjelaskannya
- Dalam contoh eksperimen, pasien ditunjukkan gambar musim dan gambar kaki ayam masing-masing hanya ke bidang pandang kanan/kiri. Dengan tangan kiri ia memilih sekop salju, dengan tangan kanan ia memilih kepala ayam. Saat ditanya kenapa memilih dua benda itu, ia menjawab, "kaki ayam cocok dengan kepala ayam, dan untuk membereskan kandang ayam dibutuhkan sekop salju." Masing-masing belahan otak tidak menerima informasi yang sama, jadi meski secara logis tidak masuk akal, ia tetap membuat alasan yang terdengar meyakinkan. Wikipedia - Left-brain interpreter
- Ini terlihat seperti kecenderungan untuk tetap percaya lalu terus menambahkan penjelasan meski sebenarnya tidak paham. Video terkait
Salah satu penjelasannya mungkin karena banyak orang, termasuk saya, keliru mengira ada emoji kuda laut. Saya sendiri belum pernah benar-benar melihatnya, tetapi bahkan bisa membayangkan gambarnya di kepala. Tulisan seperti ini masuk ke data pelatihan. Subreddit terkait
- Saya penasaran apakah gambar emoji kuda laut di kepala orang juga mencakup ekor yang melingkar ke atas dekat bagian sirip
- Emoji tidak selalu terstandarisasi seperti sekarang, jadi mungkin dulu pernah ada "emoji" atau "emotikon" kuda laut di aplikasi messenger lama. Terlalu tergesa kalau langsung menyimpulkan bahwa ingatan itu pasti salah
- Saya jadi penasaran bagaimana kalau mengusulkan U+200D. Mungkin justru lebih sederhana kalau realitas itu sendiri berubah agar cocok dengan ekspektasi dan ingatan manusia maupun model bahasa
- Subreddit ini (efek Mandela) bikin cemas karena terlalu banyak orang yang berkata, "saya ingat kok, kenapa dibilang tidak ada." Manusia ternyata memang hewan yang berhalusinasi, sama seperti LLM
- Saya juga tadinya bisa bersumpah pernah benar-benar melihat emoji kuda laut itu, tetapi kali ini saya mengakui bahwa saya yang salah