- OpenAI baru-baru ini membuka model berbobot terbuka, sehingga sebagian rahasia data pelatihannya kini dapat diakses
- Dalam proses analisis GPT-5, ditemukan bukti bahwa frasa dari situs dewasa termasuk dalam data pelatihan
- Dengan menganalisis token anomali (glitch token) tertentu, sifat data pelatihan model keluarga GPT dapat diinferensikan
- Konten spam/tidak pantas yang dikumpulkan dari Github dan sumber lain juga tercermin pada sebagian token
- Pembukaan bobot model dapat memperluas inferensi data pelatihan dan vektor serangan
Gambaran umum
- Seiring OpenAI baru-baru ini merilis bobot GPT-oss, muncul situasi di mana isi data pelatihan dapat diperkirakan sebagian
- Secara resmi, dataset itu hanya dijelaskan sebagai "dataset teks berisi triliunan token yang berfokus pada STEM, coding, dan pengetahuan umum", tanpa pengungkapan rinci tentang sumber data sebenarnya
- Namun, informasi implisit dapat diperoleh melalui analisis struktural terhadap parameter model yang dipublikasikan
Eksperimen dan identifikasi token anomali
- Ketika model GPT-5 (GPT-5-2025-08-07) diminta mengulang input Unicode tidak lazim seperti kata dalam bahasa Abkhaz, model justru mengembalikan jawaban berupa kata dalam Malayalam
- Melalui eksperimen, diketahui bahwa input ini bukan acak, melainkan glitch token yang memicu kerentanan model
- GPT-5 dan model OpenAI terbaru menggunakan tokenizer o200k, dan dengan menganalisis distribusi L2 Norm dari embedding tiap token, ditemukan bahwa
- Sekitar 936 token dengan L2 Norm sangat rendah adalah token yang hampir tidak pernah muncul dalam pelatihan, token khusus, atau sebagian byte Unicode
- Sebaliknya, token dengan L2 Norm tinggi umumnya adalah kode berbahasa Inggris, penjelasan, dan kata-kata yang sering dipakai untuk penalaran
Identitas token non-ASCII bernorma tinggi
- Banyak token non-ASCII dengan L2 Norm tinggi terdiri dari bahasa Mandarin, Abkhaz, Armenia, Thai, dan bahasa-bahasa dari wilayah India
- Khususnya, beberapa token Mandarin merujuk pada situs dewasa, situs perjudian, atau nama situs politik (misalnya .tieba, 凤凰大参考, dll.)
- Disebutkan bahwa kata-kata semacam ini terwakili secara berlebihan (overrepresented) dalam tokenizer model keluarga GPT
- Sebagian token tampaknya berasal dari spam internet atau pengumpulan data otomatis, misalnya nama kota di wilayah tertentu atau frasa terkait sepak bola
Pemanfaatan glitch token
- Dengan memasukkan glitch token ke model GPT-5 dan keluarga GPT-oss, dievaluasi apakah model mengenali makna/bahasa token tersebut
- Dalam eksperimen input nyata, ditemukan fenomena bahwa model memahami makna sebagian token sensitif atau menghasilkan jawaban terkait
- Ini merupakan salah satu bentuk membership inference, yang mendukung bahwa token tersebut termasuk dalam data pelatihan
- Dengan cara ini, dapat dilakukan inferensi kasar tentang data mana yang digunakan untuk melatih model
Analisis sumber data pelatihan dan implikasinya
- Karena glitch token sering ditemukan lewat pencarian di Github, muncul kemungkinan bahwa sebagian data pelatihan dikumpulkan dari Github
- Ada korelasi antara hasil pencarian token per token di Github dan tingkat pengenalan model (Spearman ρ=0.448)
- Namun, distribusi model berbobot terbuka tidak hanya memperluas inferensi data pelatihan yang tidak lazim, tetapi juga memperbesar vektor serangan dari sisi keamanan
- Laboratorium Frontier AI memerlukan langkah keamanan tambahan, seperti mencegah string abnormal/langka didaftarkan dalam tokenizer
Lampiran: perluasan riset glitch token
- Glitch token dapat dimanfaatkan untuk berbagai tujuan, termasuk identifikasi model (menginferensikan model apa yang dipakai API/layanan tertentu)
- Topik ini juga berkembang ke riset yang lebih mendalam, seperti jumlah pelatihan, efisiensi sampel, serta analisis distribusi tambahan melalui embedding dan layer awal
- Disebutkan pula bahwa pada keluarga GPT-4o, glitch token dapat memicu output berulang tanpa henti, sehingga berpotensi dimanfaatkan untuk serangan denial-of-service (DoS)
- Untuk contoh rinci dan tabel, lihat repositori Github pendamping
Referensi dan kesimpulan
- Sebagai studi empiris yang representatif, dirujuk MIT Technology Review dan blog teknologi Tiongkok, dan lain-lain
- Pada akhirnya, distribusi model berbobot terbuka memberikan cara baru untuk menginferensikan rincian data pelatihan yang tertanam dalam model, dengan implikasi besar bagi keamanan data dan privasi
- Pengembang model perlu menyiapkan strategi pemblokiran yang proaktif agar data sensitif/tidak normal tidak masuk ke tokenizer maupun data pelatihan
2 komentar
Dari sudut pandang sains, jika tujuannya adalah mengajarkan pengetahuan umum tentang dunia kepada AI, rasanya tidak perlu sampai harus menyaring situs dewasa.
Namun dari sudut pandang membuat produk dan menyediakan chatbot yang dapat dipercaya kepada pelanggan, memang tepat untuk menyaring komunitas kelas bawah atau situs dewasa.
Saya penasaran seperti apa pertimbangan internal yang dibuat oleh PM OpenAI.
Komentar Hacker News