4 poin oleh GN⁺ 2025-10-06 | 2 komentar | Bagikan ke WhatsApp
  • OpenAI baru-baru ini membuka model berbobot terbuka, sehingga sebagian rahasia data pelatihannya kini dapat diakses
  • Dalam proses analisis GPT-5, ditemukan bukti bahwa frasa dari situs dewasa termasuk dalam data pelatihan
  • Dengan menganalisis token anomali (glitch token) tertentu, sifat data pelatihan model keluarga GPT dapat diinferensikan
  • Konten spam/tidak pantas yang dikumpulkan dari Github dan sumber lain juga tercermin pada sebagian token
  • Pembukaan bobot model dapat memperluas inferensi data pelatihan dan vektor serangan

Gambaran umum

  • Seiring OpenAI baru-baru ini merilis bobot GPT-oss, muncul situasi di mana isi data pelatihan dapat diperkirakan sebagian
  • Secara resmi, dataset itu hanya dijelaskan sebagai "dataset teks berisi triliunan token yang berfokus pada STEM, coding, dan pengetahuan umum", tanpa pengungkapan rinci tentang sumber data sebenarnya
  • Namun, informasi implisit dapat diperoleh melalui analisis struktural terhadap parameter model yang dipublikasikan

Eksperimen dan identifikasi token anomali

  • Ketika model GPT-5 (GPT-5-2025-08-07) diminta mengulang input Unicode tidak lazim seperti kata dalam bahasa Abkhaz, model justru mengembalikan jawaban berupa kata dalam Malayalam
  • Melalui eksperimen, diketahui bahwa input ini bukan acak, melainkan glitch token yang memicu kerentanan model
  • GPT-5 dan model OpenAI terbaru menggunakan tokenizer o200k, dan dengan menganalisis distribusi L2 Norm dari embedding tiap token, ditemukan bahwa
    • Sekitar 936 token dengan L2 Norm sangat rendah adalah token yang hampir tidak pernah muncul dalam pelatihan, token khusus, atau sebagian byte Unicode
    • Sebaliknya, token dengan L2 Norm tinggi umumnya adalah kode berbahasa Inggris, penjelasan, dan kata-kata yang sering dipakai untuk penalaran

Identitas token non-ASCII bernorma tinggi

  • Banyak token non-ASCII dengan L2 Norm tinggi terdiri dari bahasa Mandarin, Abkhaz, Armenia, Thai, dan bahasa-bahasa dari wilayah India
  • Khususnya, beberapa token Mandarin merujuk pada situs dewasa, situs perjudian, atau nama situs politik (misalnya .tieba, 凤凰大参考, dll.)
  • Disebutkan bahwa kata-kata semacam ini terwakili secara berlebihan (overrepresented) dalam tokenizer model keluarga GPT
  • Sebagian token tampaknya berasal dari spam internet atau pengumpulan data otomatis, misalnya nama kota di wilayah tertentu atau frasa terkait sepak bola

Pemanfaatan glitch token

  • Dengan memasukkan glitch token ke model GPT-5 dan keluarga GPT-oss, dievaluasi apakah model mengenali makna/bahasa token tersebut
  • Dalam eksperimen input nyata, ditemukan fenomena bahwa model memahami makna sebagian token sensitif atau menghasilkan jawaban terkait
  • Ini merupakan salah satu bentuk membership inference, yang mendukung bahwa token tersebut termasuk dalam data pelatihan
  • Dengan cara ini, dapat dilakukan inferensi kasar tentang data mana yang digunakan untuk melatih model

Analisis sumber data pelatihan dan implikasinya

  • Karena glitch token sering ditemukan lewat pencarian di Github, muncul kemungkinan bahwa sebagian data pelatihan dikumpulkan dari Github
    • Ada korelasi antara hasil pencarian token per token di Github dan tingkat pengenalan model (Spearman ρ=0.448)
  • Namun, distribusi model berbobot terbuka tidak hanya memperluas inferensi data pelatihan yang tidak lazim, tetapi juga memperbesar vektor serangan dari sisi keamanan
  • Laboratorium Frontier AI memerlukan langkah keamanan tambahan, seperti mencegah string abnormal/langka didaftarkan dalam tokenizer

Lampiran: perluasan riset glitch token

  • Glitch token dapat dimanfaatkan untuk berbagai tujuan, termasuk identifikasi model (menginferensikan model apa yang dipakai API/layanan tertentu)
  • Topik ini juga berkembang ke riset yang lebih mendalam, seperti jumlah pelatihan, efisiensi sampel, serta analisis distribusi tambahan melalui embedding dan layer awal
  • Disebutkan pula bahwa pada keluarga GPT-4o, glitch token dapat memicu output berulang tanpa henti, sehingga berpotensi dimanfaatkan untuk serangan denial-of-service (DoS)
  • Untuk contoh rinci dan tabel, lihat repositori Github pendamping

Referensi dan kesimpulan

  • Sebagai studi empiris yang representatif, dirujuk MIT Technology Review dan blog teknologi Tiongkok, dan lain-lain
  • Pada akhirnya, distribusi model berbobot terbuka memberikan cara baru untuk menginferensikan rincian data pelatihan yang tertanam dalam model, dengan implikasi besar bagi keamanan data dan privasi
  • Pengembang model perlu menyiapkan strategi pemblokiran yang proaktif agar data sensitif/tidak normal tidak masuk ke tokenizer maupun data pelatihan

2 komentar

 
aer0700 2025-10-07

Dari sudut pandang sains, jika tujuannya adalah mengajarkan pengetahuan umum tentang dunia kepada AI, rasanya tidak perlu sampai harus menyaring situs dewasa.
Namun dari sudut pandang membuat produk dan menyediakan chatbot yang dapat dipercaya kepada pelanggan, memang tepat untuk menyaring komunitas kelas bawah atau situs dewasa.
Saya penasaran seperti apa pertimbangan internal yang dibuat oleh PM OpenAI.

 
GN⁺ 2025-10-06
Komentar Hacker News
  • Artikel ini mengatakan bahwa "GPT-5 dilatih dengan frasa yang diambil dari situs dewasa", padahal maksud sebenarnya adalah GPT-5 dilatih dengan frasa yang juga muncul di situs dewasa, dan hanya ada dugaan bahwa sumber data yang memuat frasa tersebut bisa jadi GitHub
    • Iklan situs dewasa Tiongkok tersebar luas di konten gratis yang dikemas ulang atau konten bajakan, dan materi seperti ini didistribusikan lewat github, shadow libraries, YouTube, dan sebagainya; karena alasan yang sama, jika model whisper diberi audio kosong, kadang yang keluar justru frasa iklan seperti ini
    • Bagian ini dibahas di akhir blog
  • Saya penasaran apakah ungkapan “GPT-5 dilatih dengan frasa situs dewasa” benar-benar berarti diambil dari situs dewasa, atau hanya berarti frasa seperti itu umum di data latih; blog spam, link farm, affiliate marketing, dan semacamnya memang lazim di situs dewasa/judi, jadi wajar kalau frasa terkait banyak tercampur
    • Orang ini terkesan cukup paham soal situs dewasa
  • Soal klaim bahwa “ada sekitar 936 token dengan nilai L2 norm yang sangat kecil, yang berarti token-token ini tidak digunakan dalam pelatihan GPT-oss dan teredam akibat weight decay”, saya penasaran apakah secara konvensi embedding dan parameter norm memang dikecualikan dari weight decay, dan apakah itu masih berlaku sekarang; contoh kode minGPT memang menjelaskan demikian lihat kode minGPT
    • Mungkin saja token-token ini diinisialisasi dengan nilai rata-rata dataset + noise, lalu tidak pernah terekspos selama pelatihan sehingga nilainya tidak berubah; saya tidak tahu apakah ini teknik terbaru, tetapi di video Karpathy trik seperti ini kadang dipakai agar loss tidak langsung turun tajam pada gradient descent awal
    • Saya merasa artikel ini kurang menjelaskan proses bagaimana pola seperti ini ditemukan dari data latih; yang dibahas hanya hasil akhirnya, jadi isinya terasa kurang memuaskan
  • Salah satu hal menarik dari artikel ini adalah bahwa kita bisa menebak model bahasa apa yang digunakan lewat ‘glitch token’; cukup masukkan glitch token ke prompt dan lihat reaksinya, identitas modelnya bisa terungkap
    • Saya membayangkan ke depan dalam pentest bisa muncul alur untuk mengidentifikasi sidik jari LLM guna mengetahui jenis model dan kerentanan keamanannya
    • Saya juga sempat memikirkan hal serupa; saya penasaran apakah ini nantinya bisa mengungkap model apa yang dipakai di berbagai agentic flow, dan ketika satu model memanggil submodel lain, mungkin struktur pemanggilan keseluruhan bisa direkonstruksi balik dari respons glitch di tiap tahap
    • Tapi mungkin reverse engineering seperti ini hanya mungkin karena kita bisa melihat tokenizer secara langsung; apakah tokenizer untuk Claude atau Gemini sudah dipublikasikan? Kalau belum, mungkin teknik serangan seperti ini juga bisa dicegah
  • Saya penasaran apakah ada riset tentang reverse engineering LLM, khususnya model tertutup yang hanya tersedia lewat API, atau tentang mengungkap komposisi data latihnya; misalnya bagaimana memperkirakan data latih Claude Sonnet 4.5, dan apakah ada juga riset untuk mengungkap kecenderungan model pralatih setelah RLHF; saya juga ingin tahu apakah bias pada model seperti GPT-4o benar-benar hilang atau hanya tersembunyi lebih dalam di model
    • Ada makalah terkait arXiv:2403.06634, arXiv:2311.17035, dan saya ingat Nicholas Carlini juga pernah diwawancarai soal ini
    • Bias itu istilah yang sangat manusiawi, jadi kalau dibahas dengan cara seperti ini rasanya perdebatan tidak akan ada habisnya; dulu saat systemd dirilis, kalau saat itu sudah ada LLM, kemungkinan jawabannya akan berdasarkan informasi lama karena informasi yang tersedia masih sedikit; LLM hanya mereproduksi data yang diterimanya, dan menghapus informasi dari data cenderung lebih murah daripada membersihkan data latih sepenuhnya
  • Token “xadder” sempat dianggap aneh, tetapi sebenarnya bisa jadi salah ketik dari “xpadder” (alat gamepad), nama berbagai tool, parameter pemanggilan XLib, implementasi full adder di Xilinx Vivado, dan juga muncul dalam banyak konteks lain, termasuk sebagai nama panggilan di forum
  • Terjemahan frasa bahasa Mandarin yang diperkenalkan di artikel itu terlalu tidak akurat sehingga sulit memahami maknanya, dan akibatnya saya jadi merasa matriks datanya sendiri kemungkinan juga tidak akurat; penulis butuh verifikasi silang dari penutur asli Mandarin yang berpengalaman
    • Ada umpan balik bahwa kalau seseorang mengunggah terjemahan yang lebih baik, artikelnya akan diperbarui
  • Cakupannya sangat luas sampai-sampai ruang token terbuang untuk token iklan “berkualitas rendah” seperti ini; saya jadi penasaran apakah pernah ada upaya mengurangi ruang token demi meningkatkan performa model terkuantisasi, kepikiran gara-gara token iklan tadi
    • Saya jadi berpikir, bukankah beberapa model 30b parameter yang pada praktiknya hanya mengaktifkan sekitar 3b sekaligus itu pada dasarnya ide yang mirip?
  • Mungkin saya salah paham, tetapi artikel ini terkesan menyiratkan seolah OpenAI memakai data situs dewasa untuk pelatihan itu sesuatu yang skandal; padahal Google juga mengindeks situs dewasa dan merefleksikannya dalam hasil pencarian, jadi saya kurang paham apa bedanya dengan LLM
    • Sebenarnya ini juga bukan hal baru; lihat repositori gpt-tokens, sudah ada contoh sejak sekitar setahun lalu bahwa frasa Mandarin terkait situs dewasa ditemukan di Gpt-4o, jadi isu ini sudah diketahui sejak lama
    • Inti isunya adalah, jika frasa tertentu yang diunggah ke Github muncul di dalam model, maka kemungkinan besar Github termasuk dalam data latih
    • Secara pribadi saya tidak menangkap nuansa seperti itu dari artikelnya
    • Dari sudut pandang perusahaan, data seperti ini, terutama frasa terkait konten dewasa, memang sebaiknya dihapus lebih dulu dari data latih demi sensor atau kepatuhan kebijakan
  • Saya mencoba menguji contoh-contoh di artikel itu pada Gemini 2.5 pro dan hampir semuanya tertangani dengan baik; saya jadi berpikir model Google mungkin hanya rentan terhadap glitch token yang sama sekali berbeda, meski pembahasan teknis di artikel itu terasa agak sulit
    • glitch token bekerja berbeda tergantung tokenizer; Gemini memakai tokenizer yang berbeda dari model OpenAI; asal-usul glitch token OpenAI juga menarik: saat tokenizer awal dilatih, string-string populer dari data yang dipakai (misalnya nama pengguna aktif di Reddit) diberi integer, dan salah satu contoh yang terpilih secara acak adalah “davidjl”, penjelasan lebih lanjut