- Hasil pengujian dari Rumi terhadap model GPT-o3 dan o4-mini menunjukkan bahwa
pada jawaban panjang (mis. penulisan esai), ditemukan penyisipan watermark karakter khusus. - Watermark ini dibuat menggunakan karakter spasi khusus Unicode seperti "Narrow No-Break Space (U+202F)".
- Sama sekali tidak terlihat oleh mata biasa, tetapi akan terlihat di editor kode seperti Sublime Text atau VS Code, maupun di penampil karakter khusus.
- Watermark ini tetap bertahan saat disalin-tempel (mis. tetap ada saat copy-paste ke Google Docs).
- Namun, watermark ini bisa dihapus dengan find-and-replace sederhana, jadi bukan mekanisme perlindungan yang sempurna.
- OpenAI belum secara resmi mengumumkan fitur watermark ini. (Diduga sedang diuji secara diam-diam)
- Dilaporkan bahwa pada model GPT-4o, watermark seperti ini tidak teramati.
Tambahan
- Watermark cenderung hanya disisipkan pada teks panjang (terutama tulisan berbentuk tugas atau laporan), dan
- hampir tidak pernah disisipkan pada percakapan singkat atau tanya-jawab umum.
Ringkasan satu baris
"Beberapa model terbaru mulai melakukan watermarking dengan karakter khusus, tetapi karena mudah dideteksi dan dihapus, metode ini belum sempurna."
6 komentar
[Pembaruan] OpenAI secara resmi menanggapi Lumi
OpenAI menghubungi kami terkait postingan ini dan memberi tahu bahwa karakter khusus tersebut bukan watermark. Menurut OpenAI, itu hanyalah “keunikan dari reinforcement learning skala besar”. Namun, kami tetap membiarkan postingan ini ada, sehingga pembaca di masa depan masih dapat melihat masalah karakter-karakter khusus ini (dan yang berpotensi tidak diinginkan) dalam respons ChatGPT o3/o4.
Memang ada masalah kali ini bahwa o3 mengalami halusinasi yang sangat parah.
Saya sempat berpikir ini mungkin salah satunya, tapi lucu juga mereka sampai menghubungi langsung.
Mungkin ini supaya data yang dihasilkan AI tidak digunakan sebagai data pelatihan lagi (model collapse).
Bukankah itu bukan watermark, melainkan bug? Bahkan kalau dianggap sebagai pengujian, itu pun terlalu sederhana dibandingkan teknologi watermarking LLM yang saat ini sedang dibahas..
Saya kira akan membahas kecenderungan khas dari klaim tersebut, ternyata tidak. Bukankah ini solusi yang terlalu sederhana?
Hmm... apakah ini karena watermark seperti itu? Belakangan ini saya cukup sering mengalami fenomena di mana bahasa Korea terlihat normal di ChatGPT, tetapi saat disalin lalu ditempel justru menjadi rusak.