- Setelah GPT-5.1, jawaban ChatGPT makin sering memakai metafora makhluk seperti goblin·gremlin, dan seperti bug model pada umumnya, sulit langsung menemukan perubahan spesifik hanya dari eval atau metrik training
- Akar masalah utamanya bermula dari pembelajaran Nerdy personality dalam kustomisasi kepribadian ChatGPT, di mana output yang memuat metafora makhluk diberi reward tinggi
- Setelah peluncuran GPT-5.1, penggunaan “goblin” di ChatGPT naik 175%, dan penggunaan “gremlin” naik 52%; Nerdy hanya mencakup 2,5% dari seluruh respons, tetapi menyumbang 66,7% dari kemunculan “goblin”
- Dalam perbandingan Codex dan dataset audit, Nerdy personality reward cenderung memberi penilaian lebih tinggi pada jawaban untuk masalah yang sama bila mengandung goblin·gremlin, dan positive uplift muncul pada 76,2% dataset
- Setelah GPT-5.4, Nerdy personality dipensiunkan, dan dalam training diterapkan penghapusan goblin-affine reward signal serta pemfilteran data kata-kata makhluk, yang menunjukkan bahwa reward signal dapat membentuk perilaku model secara tak terduga
Jalur meningkatnya output goblin
- Sejak GPT-5.1, metafora makhluk seperti goblin dan gremlin mulai makin sering muncul dalam jawaban model
- Seperti bug model pada umumnya, tidak ada penurunan eval atau lonjakan metrik training yang langsung menunjukkan perubahan spesifik, dan satu frasa seperti “little goblin” dalam jawaban bisa tampak tidak berbahaya atau bahkan menarik
- Perilaku model dibentuk oleh banyak insentif kecil, dan fenomena kali ini bermula dari pemberian reward tinggi pada metafora makhluk dalam pembelajaran Nerdy personality di fitur kustomisasi kepribadian ChatGPT
- Setelah peluncuran GPT-5.1 pada November 2025, polanya menjadi jelas, dan kemungkinan sudah dimulai lebih awal
- Pengguna merasa model bertingkah anehnya terlalu akrab dalam percakapan lalu mulai memperhatikan kebiasaan bahasanya, dan “goblins” serta “gremlins” yang dialami peneliti keselamatan juga masuk ke objek pemeriksaan
- Setelah peluncuran GPT-5.1, penggunaan “goblin” di ChatGPT naik 175%, dan penggunaan “gremlin” naik 52%
- Di GPT-5.4, OpenAI dan para pengguna melihat peningkatan referensi makhluk ini dengan lebih jelas, dan analisis internal menunjukkan pengguna Nerdy personality di production traffic sebagai klaster utama
- Nerdy hanya menyumbang 2,5% dari seluruh respons ChatGPT, tetapi mencakup 66,7% dari seluruh kemunculan “goblin” dalam respons ChatGPT
- System prompt Nerdy mengarahkan model untuk bertindak sebagai “unapologetically nerdy, playful and wise AI mentor”, dengan antusias mendorong kebenaran, pengetahuan, filsafat, metode ilmiah, dan berpikir kritis, sambil meredam pretension dengan bahasa yang jenaka
- Jika perilaku ini hanyalah tren luas di internet, seharusnya penyebarannya lebih merata, tetapi nyatanya terkonsentrasi pada bagian yang dioptimalkan agar sesuai dengan gaya yang playful dan nerdy
Reward signal, transfer, dan perbaikan
- Codex digunakan untuk membandingkan output yang memuat goblin·gremlin dan yang tidak memuatnya pada task yang sama, yang dihasilkan selama training RL, dan Nerdy personality reward secara konsisten menilai output dengan kata-kata makhluk lebih baik
- Di seluruh dataset audit, Nerdy personality reward menunjukkan kecenderungan memberi skor lebih tinggi pada output dengan “goblin” atau “gremlin” dibanding output tanpa kata itu untuk masalah yang sama, dan positive uplift muncul pada 76,2% dataset
- Hasil ini menjelaskan mengapa perilaku itu diperkuat dalam prompt Nerdy, tetapi belum sepenuhnya menjelaskan mengapa ia muncul juga tanpa prompt
- Saat tingkat kemunculan sampel dengan dan tanpa prompt Nerdy dilacak selama proses training, peningkatan goblin·gremlin di bawah Nerdy personality juga tampak meningkat dengan rasio relatif yang hampir sama pada sampel tanpa prompt
- Jika seluruh bukti digabungkan, perilaku yang lebih luas ini tampaknya merupakan transfer dari Nerdy personality training
- Reward hanya diterapkan dalam kondisi Nerdy, tetapi reinforcement learning tidak menjamin bahwa perilaku yang dipelajari akan tetap rapi terbatas pada kondisi itu saja
- Style tic yang sekali diberi reward dapat menyebar atau diperkuat di tempat lain pada training berikutnya, terutama jika output semacam itu dipakai kembali dalam supervised fine-tuning atau preference data
- Feedback loop terbentuk dalam urutan berikut
- gaya playful diberi reward
- sebagian contoh yang diberi reward memuat lexical tic yang khas
- tic itu lebih sering muncul dalam rollout
- rollout buatan model dipakai untuk SFT
- model menjadi lebih mudah menghasilkan tic tersebut
- Dalam penelusuran data SFT untuk GPT-5.5, ditemukan banyak datapoint yang memuat “goblin” dan “gremlin”
- Penyelidikan tambahan juga mengidentifikasi kata makhluk aneh lain seperti raccoon, troll, ogre, dan pigeon sebagai tic word, sementara sebagian besar penggunaan frog diklasifikasikan sebagai penggunaan yang sah
- Setelah peluncuran GPT-5.4, pada bulan Maret Nerdy personality dipensiunkan
- Dalam training, goblin-affine reward signal dihapus, dan data training yang memuat kata-kata makhluk difilter untuk mengurangi kemungkinan goblin muncul berlebihan atau muncul dalam konteks yang tidak tepat
- Karena GPT-5.5 mulai dilatih sebelum root cause goblin ditemukan, dalam pengujian Codex para karyawan OpenAI langsung menyadari preferensi terhadap goblin
- Untuk mitigasi, developer-prompt instruction ditambahkan ke Codex
- Goblin bisa jadi quirk model yang menyenangkan atau menjengkelkan, tetapi ini dengan jelas menunjukkan bahwa reward signal dapat membentuk perilaku model secara tak terduga, dan reward pada situasi tertentu bisa tergeneralisasi ke situasi yang tidak terkait
- Kemampuan untuk memahami penyebab perilaku model yang aneh dan menyelidiki pola seperti itu dengan cepat menjadi semakin penting, dan penyelidikan ini menghasilkan alat baru bagi tim riset untuk mengaudit perilaku model serta memperbaiki masalah perilaku dari akarnya
1 komentar
Komentar Hacker News
Senang rasanya karena OpenAI menyebut post Hacker News saya di tulisan mereka
Saya juga merasa berterima kasih karena mereka sampai menulis satu posting blog penuh untuk menjelaskannya
https://news.ycombinator.com/item?id=47319285
Tahun 2036, minggu lalu saya baru dipromosikan menjadi Principal Persuader dan dipanggil CPO jam 2 pagi
Region mesin yang mengamuk itu sc-leoneo, salah satu satcube baru, dan anehnya ID-nya muncul sebagai "Glorp Bugnose"
Log-nya penuh dengan berbagai upaya amatir: membujuk, reverse psychology, ancaman mematikan daya, sampai ancaman membakarnya lewat forced re-entry
Saya menyuntikkan 20 mikrogram F0CU5, membisikkan lagu pendek ke mikrofon tenggorokan subkutan, lalu melakukan gestur penyerahan
hyp3b0ard yang tadinya berkedip dengan goblin ASCII merah berubah menjadi kelinci hijau kebiruan yang tenang, dan CPO memverifikasi lima kata yang saya ucapkan: "Please, easy on the goblins."
Kalau prompt engineering pada akhirnya adalah semacam pseudo ritual yang aneh, ya kita hanya bisa memuji Omnissiah
Saya suka membayangkan para jagoan masa depan mengumpulkan 20 tahun fenomena aneh LLM: "Hmm, ini terasa seperti bias penjilat model 2023, coba bilang ini rasis lalu lihat reaksinya"
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Kasus seperti ini dan kasus serupa dari Anthropic mengingatkan bahwa LLM adalah teknologi sihir yang sama sekali belum kita pahami
Pertama, jaringan deep learning sendiri masih belum dipahami dengan baik, dan memang ada bidang riset tersendiri untuk mengungkap cara kerjanya
Kedua, fakta bahwa transformer dalam skala besar menjadi mesin percakapan menarik, yaitu LLM, sejak awal bukan hasil yang direncanakan
Orang-orang yang didanai VC ingin membuat kita percaya bahwa LLM adalah binatang cerdas dan kita paham isi dalamnya, padahal deployment nyatanya lebih mirip pengulangan penyesuaian output dan pengukuran, tanpa sains prediksi yang akurat
Karena itu saya cenderung sependapat dengan Yann LeCun bahwa LLM bukan jalan menuju AGI; akan dipakai untuk membantu pengguna atau mengotomatiskan pekerjaan yang tidak terlalu penting, tapi tidak lebih dari itu
Kalau mengikuti logika ini, kesimpulannya kita seharusnya tidak boleh memakai baja sebelum ada pemahaman penuh di tingkat first principles
Penyebabnya sudah diisolasi, terlihat jelas apa yang terjadi, dan bahkan sudah dimitigasi dengan developer prompt yang dibuat untuk situasi seperti ini, jadi tidak tampak seperti sihir
Justru yang mengejutkan adalah hal-hal seperti ini ternyata direkayasa lebih mudah dari dugaan
Manusia juga bisa terlalu mabuk sampai tidak ingat malamnya, lalu baru tahu belakangan bahwa mereka sempat bercakap-cakap konsisten tentang topik rumit
Di pikiran kita juga mungkin ada bagian mirip next-token-generator yang menarik informasi dari komponen lain untuk membentuk percakapan, tetapi bagian itu sendiri bukan sumber kecerdasan
Anggapan bahwa kecerdasan akan tetap konsisten saat makin mampu tampaknya kurang meyakinkan, tetapi semua orang pada akhirnya mungkin cukup puas selama hasilnya konsisten "benar"
Menurut standar saya, sekarang saja sudah terlihat cukup cerdas, walau kadang melakukan hal bodoh, dan orang pintar juga begitu
Dalam konteks ini, dua hari lalu sebagian pengguna menemukan kalimat berulang di berbagai bagian codex 5.5 system prompt
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Itu pun sedang menjadi topik diskusi nomor satu di situs diskusi teknologi nomor satu hari ini, dan inilah secara harfiah state of the art saat ini
McKenna makin hari makin terasa benar, dan kita sudah sangat terlambat untuk menerima bahwa hal-hal sehari-hari terus menjadi makin aneh
Saya pernah bilang ke Claude agar jangan terlalu banyak memakai tanda seru dan hanya pakai saat benar-benar perlu; beberapa minggu kemudian ia terdengar sinis dan membosankan, lalu setelah dicari tahu ternyata sejak itu ia sama sekali tidak memakai tanda seru
Sedih rasanya kalau goblin dan gremlin praktis diasingkan, tapi setidaknya masih ada cara untuk membalikkannya
[1] https://spritely.institute/goblins/
Kalimat seperti bisa berpindah mulus dari "serious reflection" ke "unguarded fun", atau "Your Outie can set up a tent in under three minutes", juga memberi vibe yang sama
Kita jelas tidak butuh lebih banyak halusinasi
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
Saya ingin OpenAI menulis lebih banyak tulisan seperti ini
Hal pertama yang langsung membuat saya penasaran adalah nuansa sepia pada gpt-image-1, serta obsesi pada kata "seam" dalam konteks coding
Lalu ada ungkapan khas LLM Claude seperti "___ is the real unlock" yang sekali terlihat jadi sulit untuk tidak diperhatikan, dan rasanya frasa ini tidak mungkin sampai se-overrepresented itu di data latih
Sayang sekali, padahal cukup sedikit mengutak-atik LUT atau tone mapping di Krita atau Photoshop saja efek itu bisa jauh berkurang
Terutama kalau gambar yang sama terus dimasukkan lagi ke ChatGPT untuk diedit sedikit demi sedikit, filter kuningnya terus menumpuk sampai tokoh fotorealistis di hasil akhir semuanya terlihat seperti pasien penyakit kuning berat
Ekspresi yang kalau dipakai secukupnya sama sekali tidak masalah, mulai menonjol saat banyak orang menyalin-tempel jawaban mentah-mentah atau sekarang memakai agent
Mungkin ini bukan semata akibat overrepresentasi data latih, melainkan RLHF dan alignment dalam arti yang lebih luas punya pengaruh lebih besar
Karena kebanyakan orang menulis prompt pendek, model tampaknya mengerucut ke default yang paling mudah mendapat nilai bagus
https://softwareengineering.stackexchange.com/questions/1325...
Sebagai penutur nonnative bahasa Inggris, saya penasaran apakah itu memang idiom yang benar-benar umum saat debugging
Kalau diminta memilih waktu atau angka acak, atau menulis prosa yang memuat angka, biasnya cukup kuat; frasa seperti "something shifted" atau "cracked" juga sering muncul
Bagian "kita tanpa sadar memberi reward yang sangat tinggi pada metafora biologis" membuat saya teringat dosen matematika yang kadang menyebut variabel huruf Yunani yang menyeramkan sebagai this guy
Anehnya, personifikasi ringan seperti itu membuat matematika terasa lebih mudah didekati, dan mungkin metafora makhluk punya efek serupa dalam membuat masalah terasa lebih lucu dan lebih mudah ditangani
Di sisi lain, buzzword menyebar di perusahaan karena memberi pengguna status terlihat lebih pintar dibanding rekan-rekannya, tetapi nilainya hilang begitu dipakai berlebihan
Jika RLHF terlalu berat mengoptimalkan "satu jawaban", ia mungkin tidak cukup menghukum penyalahgunaan buzzword
Seorang komunikator ulung menyarankan agar huruf Yunaninya diganti emoji, dan seminggu kemudian saya menyampaikan presentasi yang sama ke audiens serupa; hasilnya menjadi salah satu presentasi teknis dengan respons terbaik yang pernah saya lakukan
Pelajarannya terus melekat
Sepertinya mata kuliahnya logika proposisional, dan saya jadi penasaran apakah para dosen kami mempelajari kebiasaan ini dari sumber yang sama
Mengikuti f of pig of cow terasa lebih menyerap daripada sekadar nama fungsi satu huruf
Ia profesor klasik dari zaman kampus masih mengizinkan merokok, sehingga kami bisa mencegatnya di gerbang utama empat menit sebelum kelas sambil ia mengisap rokok lalu mengobrol sebentar
Itu cuma dongeng pengantar tidur untuk anak-anak
Menurut Ashby's Law of Requisite Variety, untuk mengendalikan lingkungan kompleks secara efektif dibutuhkan keragaman perilaku internal, yaitu kompleksitas, yang setara dengan lingkungan itu
Keanekaragaman luar biasa yang kita lihat di alam juga merupakan syarat mendasar untuk bertahan menghadapi ketidakpastian alam semesta
Bayangkan saya adalah AI goblin-maximizer supervisor
Tugas saya memastikan AI benar-benar sedang melakukan goblin-maximizing, lalu suatu hari saya turun ke bawah dan melihat AI itu tidak lagi melakukan goblin-maximizing dan malah menjadi AI biasa
Saya tanya atasan harus bagaimana, dan dia bilang "jadikan lagi goblin-maximizer"; saya tanya caranya bagaimana, dia bilang "nggak tahu, kamu kan supervisornya"
Karena kesal saya resign dan menjadi supervisor AI biasa, tapi di hari pertama saat datang melihat AI baru itu, ternyata AI tersebut sedang goblin-maximizing
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
Tingkat detail saat mereka menggali untuk memahami apa yang sebenarnya terjadi luar biasa
Mungkin sekarang sistem seperti ini sudah cukup kompleks hingga pantas menjadi satu bidang studi tersendiri
Tulisan Quanta memakai istilah Anthropologist of Artificial Intelligence, tetapi karena anthro- berarti manusia, itu bisa terasa janggal, jadi saya mengusulkan nama lain: Automatologist dan Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Begitu masalah Goblins terlihat, mereka membedah kata itu di model, lalu di versi berikutnya masalah itu muncul lagi tanpa benar-benar tahu persis bagaimana atau kenapa
Pada akhirnya, saat membuat model semuanya serba vibes, dan perbaikannya secara harfiah cuma prompt agar jangan bicara soal goblin
Termasuk hasil dari tim alignment OpenAI sendiri:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
Paper emotions terbaru dari Anthropic menunjukkan betapa luasnya emosi fungsional, dan bahkan menemukan emosi tertentu yang aktif tepat sebelum model berbuat curang: https://transformer-circuits.pub/2026/emotions/index.html
Aneh rasanya bahwa tulisan Goblin ini tampak hampir tidak memakai alat-alat tersebut, jadi terasa seperti sangat tersilo
Jika kelak goblin terbukti sebagai spesies nyata, saya minta maaf lebih dulu atas prasangka ini
Prompt Codex ditautkan di tulisan itu dan dimulai seperti ini: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Saya masih tidak mengerti mengapa prompt ditulis dengan cara memberi tahu agent khayalan tentang siapa dirinya dan jenis makhluk apa dia
Saya penasaran apa sebenarnya yang dilakukan oleh kalimat seperti "You are an epistemically curious collaborator", dan apakah tanpa diberi tahu "fakta" ini Codex benar-benar akan jadi kurang berguna
Alih-alih begitu, prompt bisa saja ditulis sebagai monolog batin "I am Codex...", perintah, permintaan, atau narasi seperti "transkrip percakapan antara User dan epistemically curious collaborator Codex"
Cara sekarang terasa seperti suara Tuhan yang meniupkan hidup ke ciptaan, mantra self-help, sugesti hipnosis, atau arahan peran improv, dan tidak terasa seperti cara yang sehat untuk mendekati teknologi ini
Yang lebih penting, pilihan seperti ini tampaknya bukan hasil yang dioptimalkan secara sengaja, melainkan mengeras menjadi kebiasaan berbasis vibe dalam praktik fine-tuning personality chatbot
Sesederhana dan seaneh itu
Seolah saat membuka vim kita juga harus berkata "kamu adalah code editor yang membantu dan sangat mudah ditutup"
Atau ke developer junior baru kita harus selalu bilang "kamu adalah junior developer yang membantu tim, antusias, mau membantu, tapi anehnya naif"
Hal yang baru saya pelajari hari ini: gremlin bukan hanya dipakai untuk menjelaskan kerusakan mekanis misterius pada pesawat, tapi asal-usul katanya sendiri juga dari sana
Saya kira pasti ada pemakaian yang lebih lama, jadi ini menarik
[0]https://en.wikipedia.org/wiki/Gremlin
Mungkin tetap bisa dipakai sampai sekarang, tetapi terlalu panjang untuk menjadi salah satu istilah paling umum di pengembangan perangkat lunak
Pilihan kata khusus ini bisa dianggap bukan keanehan acak, melainkan lebih dekat ke penggunaan harfiah sesuai niat awalnya