Rahasia data pelatihan OpenAI yang terungkap lewat GPT-OSS OpenAI

(fi-le.net)

4 poin oleh GN⁺ 2025-10-06 | 2 komentar | Bagikan ke WhatsApp

OpenAI baru-baru ini membuka model berbobot terbuka, sehingga sebagian rahasia data pelatihannya kini dapat diakses
Dalam proses analisis GPT-5, ditemukan bukti bahwa frasa dari situs dewasa termasuk dalam data pelatihan
Dengan menganalisis token anomali (glitch token) tertentu, sifat data pelatihan model keluarga GPT dapat diinferensikan
Konten spam/tidak pantas yang dikumpulkan dari Github dan sumber lain juga tercermin pada sebagian token
Pembukaan bobot model dapat memperluas inferensi data pelatihan dan vektor serangan

Gambaran umum

Seiring OpenAI baru-baru ini merilis bobot GPT-oss, muncul situasi di mana isi data pelatihan dapat diperkirakan sebagian
Secara resmi, dataset itu hanya dijelaskan sebagai "dataset teks berisi triliunan token yang berfokus pada STEM, coding, dan pengetahuan umum", tanpa pengungkapan rinci tentang sumber data sebenarnya
Namun, informasi implisit dapat diperoleh melalui analisis struktural terhadap parameter model yang dipublikasikan

Eksperimen dan identifikasi token anomali

Ketika model GPT-5 (GPT-5-2025-08-07) diminta mengulang input Unicode tidak lazim seperti kata dalam bahasa Abkhaz, model justru mengembalikan jawaban berupa kata dalam Malayalam
Melalui eksperimen, diketahui bahwa input ini bukan acak, melainkan glitch token yang memicu kerentanan model
GPT-5 dan model OpenAI terbaru menggunakan tokenizer o200k, dan dengan menganalisis distribusi L2 Norm dari embedding tiap token, ditemukan bahwa
- Sekitar 936 token dengan L2 Norm sangat rendah adalah token yang hampir tidak pernah muncul dalam pelatihan, token khusus, atau sebagian byte Unicode
- Sebaliknya, token dengan L2 Norm tinggi umumnya adalah kode berbahasa Inggris, penjelasan, dan kata-kata yang sering dipakai untuk penalaran

Identitas token non-ASCII bernorma tinggi

Banyak token non-ASCII dengan L2 Norm tinggi terdiri dari bahasa Mandarin, Abkhaz, Armenia, Thai, dan bahasa-bahasa dari wilayah India
Khususnya, beberapa token Mandarin merujuk pada situs dewasa, situs perjudian, atau nama situs politik (misalnya .tieba, 凤凰大参考, dll.)
Disebutkan bahwa kata-kata semacam ini terwakili secara berlebihan (overrepresented) dalam tokenizer model keluarga GPT
Sebagian token tampaknya berasal dari spam internet atau pengumpulan data otomatis, misalnya nama kota di wilayah tertentu atau frasa terkait sepak bola

Pemanfaatan glitch token

Dengan memasukkan glitch token ke model GPT-5 dan keluarga GPT-oss, dievaluasi apakah model mengenali makna/bahasa token tersebut
Dalam eksperimen input nyata, ditemukan fenomena bahwa model memahami makna sebagian token sensitif atau menghasilkan jawaban terkait
Ini merupakan salah satu bentuk membership inference, yang mendukung bahwa token tersebut termasuk dalam data pelatihan
Dengan cara ini, dapat dilakukan inferensi kasar tentang data mana yang digunakan untuk melatih model

Analisis sumber data pelatihan dan implikasinya

Karena glitch token sering ditemukan lewat pencarian di Github, muncul kemungkinan bahwa sebagian data pelatihan dikumpulkan dari Github
- Ada korelasi antara hasil pencarian token per token di Github dan tingkat pengenalan model (Spearman ρ=0.448)
Namun, distribusi model berbobot terbuka tidak hanya memperluas inferensi data pelatihan yang tidak lazim, tetapi juga memperbesar vektor serangan dari sisi keamanan
Laboratorium Frontier AI memerlukan langkah keamanan tambahan, seperti mencegah string abnormal/langka didaftarkan dalam tokenizer

Lampiran: perluasan riset glitch token

Glitch token dapat dimanfaatkan untuk berbagai tujuan, termasuk identifikasi model (menginferensikan model apa yang dipakai API/layanan tertentu)
Topik ini juga berkembang ke riset yang lebih mendalam, seperti jumlah pelatihan, efisiensi sampel, serta analisis distribusi tambahan melalui embedding dan layer awal
Disebutkan pula bahwa pada keluarga GPT-4o, glitch token dapat memicu output berulang tanpa henti, sehingga berpotensi dimanfaatkan untuk serangan denial-of-service (DoS)
Untuk contoh rinci dan tabel, lihat repositori Github pendamping

Referensi dan kesimpulan

Sebagai studi empiris yang representatif, dirujuk MIT Technology Review dan blog teknologi Tiongkok, dan lain-lain
Pada akhirnya, distribusi model berbobot terbuka memberikan cara baru untuk menginferensikan rincian data pelatihan yang tertanam dalam model, dengan implikasi besar bagi keamanan data dan privasi
Pengembang model perlu menyiapkan strategi pemblokiran yang proaktif agar data sensitif/tidak normal tidak masuk ke tokenizer maupun data pelatihan

2 komentar

aer0700 2025-10-07

Dari sudut pandang sains, jika tujuannya adalah mengajarkan pengetahuan umum tentang dunia kepada AI, rasanya tidak perlu sampai harus menyaring situs dewasa.
Namun dari sudut pandang membuat produk dan menyediakan chatbot yang dapat dipercaya kepada pelanggan, memang tepat untuk menyaring komunitas kelas bawah atau situs dewasa.
Saya penasaran seperti apa pertimbangan internal yang dibuat oleh PM OpenAI.

GN⁺ 2025-10-06

Komentar Hacker News

Artikel ini mengatakan bahwa "GPT-5 dilatih dengan frasa yang diambil dari situs dewasa", padahal maksud sebenarnya adalah GPT-5 dilatih dengan frasa yang juga muncul di situs dewasa, dan hanya ada dugaan bahwa sumber data yang memuat frasa tersebut bisa jadi GitHub
- Iklan situs dewasa Tiongkok tersebar luas di konten gratis yang dikemas ulang atau konten bajakan, dan materi seperti ini didistribusikan lewat github, shadow libraries, YouTube, dan sebagainya; karena alasan yang sama, jika model whisper diberi audio kosong, kadang yang keluar justru frasa iklan seperti ini
- Bagian ini dibahas di akhir blog
Saya penasaran apakah ungkapan “GPT-5 dilatih dengan frasa situs dewasa” benar-benar berarti diambil dari situs dewasa, atau hanya berarti frasa seperti itu umum di data latih; blog spam, link farm, affiliate marketing, dan semacamnya memang lazim di situs dewasa/judi, jadi wajar kalau frasa terkait banyak tercampur
- Orang ini terkesan cukup paham soal situs dewasa
Soal klaim bahwa “ada sekitar 936 token dengan nilai L2 norm yang sangat kecil, yang berarti token-token ini tidak digunakan dalam pelatihan GPT-oss dan teredam akibat weight decay”, saya penasaran apakah secara konvensi embedding dan parameter norm memang dikecualikan dari weight decay, dan apakah itu masih berlaku sekarang; contoh kode minGPT memang menjelaskan demikian lihat kode minGPT
- Mungkin saja token-token ini diinisialisasi dengan nilai rata-rata dataset + noise, lalu tidak pernah terekspos selama pelatihan sehingga nilainya tidak berubah; saya tidak tahu apakah ini teknik terbaru, tetapi di video Karpathy trik seperti ini kadang dipakai agar loss tidak langsung turun tajam pada gradient descent awal
- Saya merasa artikel ini kurang menjelaskan proses bagaimana pola seperti ini ditemukan dari data latih; yang dibahas hanya hasil akhirnya, jadi isinya terasa kurang memuaskan
Salah satu hal menarik dari artikel ini adalah bahwa kita bisa menebak model bahasa apa yang digunakan lewat ‘glitch token’; cukup masukkan glitch token ke prompt dan lihat reaksinya, identitas modelnya bisa terungkap
- Saya membayangkan ke depan dalam pentest bisa muncul alur untuk mengidentifikasi sidik jari LLM guna mengetahui jenis model dan kerentanan keamanannya
- Saya juga sempat memikirkan hal serupa; saya penasaran apakah ini nantinya bisa mengungkap model apa yang dipakai di berbagai agentic flow, dan ketika satu model memanggil submodel lain, mungkin struktur pemanggilan keseluruhan bisa direkonstruksi balik dari respons glitch di tiap tahap
- Tapi mungkin reverse engineering seperti ini hanya mungkin karena kita bisa melihat tokenizer secara langsung; apakah tokenizer untuk Claude atau Gemini sudah dipublikasikan? Kalau belum, mungkin teknik serangan seperti ini juga bisa dicegah
Saya penasaran apakah ada riset tentang reverse engineering LLM, khususnya model tertutup yang hanya tersedia lewat API, atau tentang mengungkap komposisi data latihnya; misalnya bagaimana memperkirakan data latih Claude Sonnet 4.5, dan apakah ada juga riset untuk mengungkap kecenderungan model pralatih setelah RLHF; saya juga ingin tahu apakah bias pada model seperti GPT-4o benar-benar hilang atau hanya tersembunyi lebih dalam di model
- Ada makalah terkait arXiv:2403.06634, arXiv:2311.17035, dan saya ingat Nicholas Carlini juga pernah diwawancarai soal ini
- Bias itu istilah yang sangat manusiawi, jadi kalau dibahas dengan cara seperti ini rasanya perdebatan tidak akan ada habisnya; dulu saat systemd dirilis, kalau saat itu sudah ada LLM, kemungkinan jawabannya akan berdasarkan informasi lama karena informasi yang tersedia masih sedikit; LLM hanya mereproduksi data yang diterimanya, dan menghapus informasi dari data cenderung lebih murah daripada membersihkan data latih sepenuhnya
Token “xadder” sempat dianggap aneh, tetapi sebenarnya bisa jadi salah ketik dari “xpadder” (alat gamepad), nama berbagai tool, parameter pemanggilan XLib, implementasi full adder di Xilinx Vivado, dan juga muncul dalam banyak konteks lain, termasuk sebagai nama panggilan di forum
Terjemahan frasa bahasa Mandarin yang diperkenalkan di artikel itu terlalu tidak akurat sehingga sulit memahami maknanya, dan akibatnya saya jadi merasa matriks datanya sendiri kemungkinan juga tidak akurat; penulis butuh verifikasi silang dari penutur asli Mandarin yang berpengalaman
- Ada umpan balik bahwa kalau seseorang mengunggah terjemahan yang lebih baik, artikelnya akan diperbarui
Cakupannya sangat luas sampai-sampai ruang token terbuang untuk token iklan “berkualitas rendah” seperti ini; saya jadi penasaran apakah pernah ada upaya mengurangi ruang token demi meningkatkan performa model terkuantisasi, kepikiran gara-gara token iklan tadi
- Saya jadi berpikir, bukankah beberapa model 30b parameter yang pada praktiknya hanya mengaktifkan sekitar 3b sekaligus itu pada dasarnya ide yang mirip?
Mungkin saya salah paham, tetapi artikel ini terkesan menyiratkan seolah OpenAI memakai data situs dewasa untuk pelatihan itu sesuatu yang skandal; padahal Google juga mengindeks situs dewasa dan merefleksikannya dalam hasil pencarian, jadi saya kurang paham apa bedanya dengan LLM
- Sebenarnya ini juga bukan hal baru; lihat repositori gpt-tokens, sudah ada contoh sejak sekitar setahun lalu bahwa frasa Mandarin terkait situs dewasa ditemukan di Gpt-4o, jadi isu ini sudah diketahui sejak lama
- Inti isunya adalah, jika frasa tertentu yang diunggah ke Github muncul di dalam model, maka kemungkinan besar Github termasuk dalam data latih
- Secara pribadi saya tidak menangkap nuansa seperti itu dari artikelnya
- Dari sudut pandang perusahaan, data seperti ini, terutama frasa terkait konten dewasa, memang sebaiknya dihapus lebih dulu dari data latih demi sensor atau kepatuhan kebijakan
Saya mencoba menguji contoh-contoh di artikel itu pada Gemini 2.5 pro dan hampir semuanya tertangani dengan baik; saya jadi berpikir model Google mungkin hanya rentan terhadap glitch token yang sama sekali berbeda, meski pembahasan teknis di artikel itu terasa agak sulit
- glitch token bekerja berbeda tergantung tokenizer; Gemini memakai tokenizer yang berbeda dari model OpenAI; asal-usul glitch token OpenAI juga menarik: saat tokenizer awal dilatih, string-string populer dari data yang dipakai (misalnya nama pengguna aktif di Reddit) diberi integer, dan salah satu contoh yang terpilih secara acak adalah “davidjl”, penjelasan lebih lanjut