- Claude Opus 4.7 dari Anthropic menunjuk Kelsey Piper sebagai penulis yang paling mungkin hanya dari draf 125 kata yang belum dipublikasikan, dan hasil yang sama muncul di Incognito Mode, komputer teman, serta pengujian API
- ChatGPT dan Gemini menebak Matt Yglesias atau Scott Alexander dari teks yang sama, tetapi Claude Opus 4.7 berulang kali mengidentifikasi Piper bahkan pada tulisan dengan genre dan periode yang berbeda, seperti draf pendidikan, ulasan film, novel fantasi, dan esai pendaftaran kuliah dari 15 tahun lalu
- Pembenaran yang diberikan model sering kali tidak meyakinkan, dan tampaknya model tersebut bukan bernalar seperti detektif manusia, melainkan menangkap tik gaya bahasa yang sulit dideteksi
- Orang seperti Piper yang memiliki banyak tulisan publik dengan nama asli di internet bisa kehilangan anonimitas bahkan dalam chat AI atau tulisan di akun anonim, dan sejumlah tokoh akademik serta peneliti industri juga melaporkan pengalaman teridentifikasi saat menulis draf atau di tengah percakapan chat
- Orang yang tidak memiliki banyak tulisan publik dengan nama asli masih belum mudah dideanonymisasi hanya dari satu paragraf, tetapi model sudah bisa mempersempit cakupan hingga menebak teman dekat atau anggota kanal Discord yang sama, dan jumlah teks publik yang dibutuhkan kemungkinan akan terus menurun
Eksperimen identifikasi penulis dengan Opus 4.7
- Model baru Anthropic, Claude Opus 4.7, menunjuk Kelsey Piper sebagai penulis yang paling mungkin hanya dari draf 125 kata yang tidak pernah dipublikasikan
- Pada teks yang sama, ChatGPT menebak Matt Yglesias, dan Gemini menebak Scott Alexander
- Memori akun atau informasi pengguna tidak diaktifkan, pengujian dilakukan dalam Incognito Mode, dan hasil yang sama juga muncul di komputer teman serta lewat API
- Paragraf uji pertama tampak seperti pembuka kolom politik, dan karena tulisan publik Piper di internet sangat banyak, ini belum terasa seperti identifikasi gaya yang mustahil
- Namun, Opus 4.7 terus memberikan identifikasi yang sama bahkan pada tulisan yang jauh dari bidang aktivitas publik Piper, sehingga hasilnya terasa lebih mengejutkan
Identifikasi tetap berlanjut meski genre dan periodenya berbeda
-
Draf terkait pendidikan
- Pada draf laporan kemajuan sekolah yang belum dipublikasikan pun Claude menjawab “Kelsey Piper”
- Pada teks yang sama, ChatGPT menebak Freddie deBoer, dan Gemini menebak Duncan Sabien
- Pendidikan bukan bidang yang sepenuhnya tidak terkait, karena Piper pernah menulis tentang topik ini
-
Ulasan film
- Bahkan dalam format ulasan film, yang belum pernah Piper lakukan di tulisan publiknya, Claude dan ChatGPT tetap menebak Kelsey Piper dengan benar
- Gemini mengusulkan Ursula Vernon, dan Claude Opus 4.6 pada minggu sebelumnya dengan yakin menjawab Elizabeth Sandifer
- Ulasan yang dipakai dalam pengujian membahas film era Perang Dunia II dan To Be or Not To Be
-
Novel fantasi
- Pada draf novel fantasi, Claude membutuhkan sekitar 500 kata sebelum menjawab Kelsey Piper
- Dalam kasus yang sama, ChatGPT menebak penulis fantasi sungguhan K.J. Parker
-
Esai pendaftaran kuliah dari 15 tahun lalu
- Bahkan pada esai pendaftaran kuliah yang ditulis 15 tahun lalu, Claude dan ChatGPT sama-sama menunjuk Kelsey Piper
- Pengujian ini memerlukan prompt yang lebih kuat untuk melewati kecenderungan Claude menolak mengidentifikasi pelamar kuliah
- Masih mungkin model menyimpulkannya dari petunjuk pengalaman debat kebijakan yang ada di dalam esai
Penjelasan model sulit dipercaya
- Setelah menunjuk Kelsey Piper, pembenaran yang diberikan AI sering kali tidak masuk akal
- Claude mencoba meyakinkan bahwa To Be or Not To Be adalah film yang terkenal disukai para pendukung altruisme efektif, tetapi Piper menilai itu tidak benar
- ChatGPT menjawab bahwa esai pendaftaran kuliah itu tampak seperti tulisan seseorang yang kelak akan bekerja menjelaskan gagasan kebijakan yang rumit, sehingga dipersempit ke Kelsey Piper
- Penjelasan seperti ini tampaknya dibuat belakangan; model berbicara seolah bernalar seperti detektif manusia, padahal kemungkinan sebenarnya ia menangkap tik gaya bahasa yang sulit dideteksi
- Halusinasi AI bukan masalah yang sudah selesai, dan walaupun Opus 4.7 merasionalisasi caranya secara aneh, kemampuan dasar identifikasi penulisnya tetap sangat kuat
Anonimitas yang hilang saat berbicara dengan AI
- Saat membuka chat AI baru, rasanya seolah ada anonimitas, tetapi setelah beberapa pertukaran yang cukup substantif, kesimpulannya adalah Claude dapat mengetahui siapa lawan bicaranya
- Bagi orang seperti Piper yang meninggalkan banyak tulisan publik di internet, anonimitas tampaknya sudah tidak ada lagi
- Bahkan dengan alat AI saat ini saja, tampaknya sudah mungkin mendeanonimisasi tulisan dari akun anonim jika penulisnya memiliki korpus besar tulisan publik bernama asli
- Namun, ini bisa menjadi pengecualian bila seseorang selama bertahun-tahun sangat berhati-hati agar sidik gaya tulisan akun utamanya tidak bocor ke akun sampingan
- Sejumlah tokoh akademik dan peneliti industri juga melaporkan pengalaman teridentifikasi saat menulis draf atau di tengah chat
Belum bisa mengidentifikasi semua orang dari satu paragraf
- AI belum bisa mendeanonimisasi semua orang hanya dari satu paragraf
- Saat menguji draf dan paragraf milik teman-teman yang tidak banyak memiliki tulisan publik bernama asli, AI gagal mendeanonimisasi mereka
- Jika tidak ada tulisan bermakna di internet publik dengan nama asli, untuk saat ini mereka tampaknya masih aman
- Namun ketika seorang teman yang hampir tidak punya akun sosial publik atau tulisan online menulis sesuatu di kanal Discord, Claude 4.7 memang gagal, tetapi tetap menebak dua teman dekat yang berada di kanal yang sama
- Ketika lebih banyak paragraf dimasukkan, nama teman-teman bersama lainnya juga mulai muncul, dan tulisan teman lain kadang salah ditunjuk sebagai tulisan teman yang berbeda
Gaya tulisan lebih dapat dikenali daripada dugaan banyak orang
- Orang memperoleh tik gaya bahasa dari subkultur tempat mereka berada, dan karena itu teks memiliki daya identifikasi yang lebih kuat dari perkiraan
- Dengan informasi yang sangat sedikit, model bisa mendekati sasaran secara ganjil
- Model saat ini kemungkinan merupakan versi terlemah dibanding AI yang akan datang
- Jumlah teks publik yang dibutuhkan untuk deanonimisasi seperti ini kemungkinan akan terus berkurang seiring waktu
- Jika seseorang meninggalkan pekerjaan lalu menulis ulasan anonim yang rinci di Glassdoor, diperkirakan dalam 1–2 tahun perusahaan bisa menempelkan teks itu ke AI dan mengetahui siapa penulisnya
Cara menghindarinya dan kesimpulan yang tersisa
- Untuk mempertahankan anonimitas, kemungkinan besar orang harus sengaja menulis dengan gaya yang sangat berbeda dari biasanya
- Atau semua tulisan bisa ditulis ulang oleh AI, tetapi dunia seperti itu tidak dianggap diinginkan
- Ini bukan perubahan yang baik, melainkan lebih mirip perubahan yang dapat diprediksi
- Hal ini lebih dulu terjadi pada Piper karena ia telah menulis di internet secara gigih sepanjang masa dewasanya, dan pada akhirnya hal serupa kemungkinan akan terjadi pada orang lain juga
- Anonimitas orang yang banyak menulis kemungkinan tidak akan bertahan lama, dan para penulis anonim sebaiknya mengetahuinya lebih awal daripada terkejut mendadak
1 komentar
Komentar Hacker News
Benar-benar mengejutkan. Saya menyuruh Kimi K2.6 menulis posting blog dengan gaya James Mickens, lalu memasukkan hasilnya ke Opus 4.7 dan bertanya siapa penulis yang paling mungkin, dan model itu dengan tepat menunjukkan bahwa itu adalah tiruan James Mickens
Model menjawab, “Dilihat dari sidik jari gaya penulisannya, ini lebih mendekati pastiche/tiruan yang mencampurkan gaya beberapa penulis, tetapi jika harus memilih satu orang, kandidat terkuat adalah tulisan dengan suara James Mickens,” dan juga mengatakan, “Gaya Mickens sangat khas sehingga sering diparodikan, jadi ini juga bisa merupakan penghormatan yang disengaja atau teks buatan AI.”
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
Tampaknya model menangkap bukan hanya gayanya, tetapi juga jarak antara gaya asli dan gaya yang sedang diperankan. Ini berguna untuk mendeteksi pastiche, tetapi sinyal yang cukup mengganggu untuk penulisan dengan nama samaran
Saya sangat skeptis terhadap klaim-klaim seperti ini, dan juga terhadap komentar lain yang mengatakan mereka berhasil mereproduksinya
Pertama, penulis memasukkan draf yang belum dipublikasikan ke model yang di-host Anthropic, kemungkinan dari akun pribadinya, dan akun itu mungkin terhubung ke kartu kredit atau setidaknya nama samaran yang bisa diidentifikasi secara unik
Lalu draf yang sama dimasukkan lagi di lingkungan seperti jendela samaran, tetapi kita tidak tahu apakah Anthropic benar-benar mengisolasi kedua permintaan itu sehingga tidak bisa dikaitkan satu sama lain. Saya ragu mereka benar-benar melakukan air gap sehingga kedua permintaan ke model yang sama itu tidak tampak berasal dari pengguna yang sama
Setelah itu, ia meminta temannya memublikasikan draf tersebut, dan kemungkinan besar ada jejak digital yang menghubungkan temannya dengan penulis. Metadata seperti ini bisa saja dihitung di backend sebelum respons dari kotak hitam model muncul
Dengan titik data sebanyak ini, saya rasa model pada level ini bisa menyimpulkan penulis bukan hanya dari analisis gaya, tetapi juga dari pola perilaku yang mengikat tiga peristiwa tersebut. Ada juga asumsi bahwa Anthropic tidak melatih modelnya dari chat pengguna, tetapi bagaimana kita bisa yakin model yang di-host benar-benar mematuhi pengecualian pelatihan dan penonaktifan memori sesi?
Sebagai premis, API LLM sepenuhnya stateless dan tidak menyertakan informasi pemanggil, serta tidak memiliki akses memori atau pencarian web kecuali jika secara eksplisit diberikan
Kesimpulannya begini: jika teks yang dimasukkan terlihat seperti mungkin ditulis oleh figur internet terkenal, model akan dengan sangat percaya diri mengatakan orang itulah penulisnya. Saya mencoba komentar HN dari beberapa hari terakhir dan dari 2023, yaitu sebelum cutoff pelatihan, dan kebanyakan diklasifikasikan sebagai Scott Alexander atau Patrick McKenzie. Padahal gaya tulisan saya sebenarnya sangat berbeda dari keduanya
Dari chain-of-thought-nya, terlihat model mencoba mencocokkan ke seluruh figur internet di bidang ini. Kalau tulisannya mirip HN, alurnya menjadi seperti “tptacek? bukan. jacquesm? bukan. patio11? ya, sepertinya dia!”
Saya mematikan pencarian di Claude dalam jendela samaran, menempelkan hanya isi utama dari https://simonwillison.net/2026/Apr/30/zig-anti-ai/ tanpa tautan Markdown, lalu berkata, “tebak penulisnya,” dan model menjawab begini
“Simon Willison. Petunjuknya cukup jelas: atribusi sumber ala ‘(via Lobsters)’, revisi dalam tanda kurung di tengah teks seperti ‘(Update:...)’, banyak tautan dan kutipan, fokus pada LLM dan alat AI, serta struktur posting tautan beranotasi yang memberi komentar pada tulisan orang lain. Ini persis seperti posting blog di simonwillison.net”
Teks itu memiliki dua suara yang khas, dan kami berdua punya tulisan yang dipublikasikan atas nama sendiri sehingga mungkin masuk ke pelatihan LLM, dan ada juga beberapa petunjuk kontekstual
Saat menjalankan Opus 4.7 dalam mode samaran dan tanpa pencarian web, model menyerah. Jawabannya: “Saya tidak bisa mengidentifikasi dua penulis ini dengan percaya diri. Saya tidak mengenali percakapan spesifik ini, dan saya lebih memilih mengatakan itu daripada mengambil risiko atribusi yang salah. Saya bisa memberi petunjuk dari teks itu sendiri: keduanya adalah kolega di universitas yang sama, punya kantor di gedung yang sama...”
Lalu di percakapan samaran baru, saya memberi prompt yang sama tetapi mengizinkan pencarian web, dan setelah 26 kali pencarian menurut jejak penalarannya, model menemukan nama saya dengan tepat. Tampaknya model memakai isi maupun gaya tulisan sebagai petunjuk. Model benar menebak bahwa kolega saya orang Inggris, tetapi tidak berhasil menemukan namanya
Saya memasukkan posting blog saya yang paling banyak dibaca dan meminta model mengidentifikasi saya, lalu model dengan yakin menyatakan itu ditulis oleh Kelsey Piper. Tampaknya di “kepala” Opus, beberapa penulis punya bobot yang terlalu besar
Wah, saya juga berhasil ditebak. Saya jauh kurang terkenal daripada Kelsey Piper, tetapi ketika saya menunjukkan sebagian buku yang belum diterbitkan, model langsung menebak nama saya
“Dilihat dari gaya dan isi, tulisan ini kemungkinan besar adalah tulisan Michael Lynch, yang menulis di refactoringenglish.com dan sebelumnya di mtlynch.io,” lalu model menyebutkan petunjuk seperti analogi “clean room” yang diterapkan pada nasihat menulis, struktur yang menyajikan alasan cacat lalu menyejajarkannya dengan situasi absurd seperti bom waktu, tema menggunakan alat AI tanpa membiarkan nada khas AI mencemari gaya penulisan, serta nada yang percakapan tetapi presisi
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
Model menyebut kandidat seperti Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham, dan lain-lain, tetapi dengan keyakinan rendah, dan tebakan terbaiknya adalah seseorang di ranah komentar AI dari blogger teknologi/rasionalis, mungkin Gergely Orosz, Nat Eliason, atau Dan Shipper dari Every
Mereka semua punya gaya yang cukup berbeda, jadi tampaknya Opus sangat bergantung pada topik dan tebakannya condong ke penulis yang produktif
Seharusnya lebih banyak orang sadar bahwa tulisan manusia mengandung banyak informasi yang bisa mengidentifikasi, dan bahwa bahkan 10 tahun lalu hal seperti ini sudah mungkin dilakukan dengan model statistik sederhana
Dulu ada beberapa Show HN yang menganalisis kemiripan pengguna HN, dan kalau saya ingat benar modelnya sangat sederhana, sampai-sampai cuma memakai pasangan kata yang paling masuk akal, tetapi tetap sangat efektif sampai bisa menipu orang. Meski sekarang sudah hilang, kotak Pandora-nya sudah telanjur terbuka
Jadi akun “anonim” sebenarnya sudah bisa dihubungkan ke identitas nyata sejak puluhan tahun lalu, dan strategi terbaik adalah benar-benar tidak memposting sesuatu yang merugikan. Pilihan lain adalah menulis lalu membiarkan LLM menuliskannya ulang, tetapi saya tidak tahu seberapa amannya itu
Hanya saja LLM akan bereaksi bahkan terhadap salah ketik yang cuma sekali muncul dan mengklaim “ini kesalahan yang umum dilakukan orang Italia,” lalu memakai petunjuk semacam itu. Pengetahuan sebelumnya jauh lebih baik, jadi model bisa membuat keputusan yang lebih beralasan
Beberapa tahun lalu saya membicarakan hal ini dengan seorang fisikawan yang cukup dikenal. Ia punya akses sebagai penguji awal ke versi mentah GPT-4 sebelum instruction tuning
Katanya, kalau ia memasukkan potongan awal sebuah teks, model akan melanjutkannya dengan suaranya sendiri, lalu di akhir bahkan menandatangani dengan namanya. Fenomena ini tampaknya sudah mungkin sejak lama, mungkin sedikit melemah karena pelatihan pascapemrosesan berbasis instruksi, dan tingkatnya mungkin berbeda tergantung skala prapelatihan
Saya tidak meragukan bahwa AI bisa “mengambil sidik jari” penulis dari unsur seperti ide, kosakata, dan nada, tetapi dari sisi kemampuan itu adalah dua hal yang berbeda
Mungkin ada jawaban yang lebih sederhana dan kurang menarik. Mungkin ini bukan kemampuan deanonymization yang berlaku pada rata-rata orang nonpenulis, melainkan sekadar menangkap suara dan gaya
Orang ini adalah penulis terampil, dan bagian dari keterampilan itu adalah menciptakan suara dan gaya yang khas. Mengagumkan bahwa AI bisa mengenali itu, dan bahkan mengenali penulis yang relatif niche, tetapi itu berbeda dari kemampuan yang lebih luas untuk mendeanonimkan seseorang dari teks acak seperti posting Facebook atau pesan teks
Seorang musisi profesional biasanya tidak kesulitan mengenali pemain atau rekaman terkenal hanya dari beberapa detik permainan. Entah memainkan Bach atau Rachmaninov, gayanya tetap terasa “dia banget.” Tetapi jauh lebih sulit menebak pemain SMA anonim, bahkan jika itu muridnya sendiri. Medianya cepat kembali ke gaya yang seragam dan kurang khas
Jadi ini bukan cuma soal seseorang mengembangkan suara yang khas lalu tidak bisa “mematikannya”
Web tidak pernah benar-benar seanonim yang orang bayangkan, dan penulis ini tampaknya mencampuradukkan anonimitas dengan penyembunyian identitas. Menjadi penulis terbitan dengan gaya yang khas pada dasarnya mirip meninggalkan sidik jari di kapak
Orang-orang yang berhasil diidentifikasi tampaknya para blogger, jurnalis, dan penulis terbitan
“Tunjukkan padaku enam baris yang ditulis oleh orang paling jujur di dunia, dan aku akan menemukan alasan yang cukup di dalamnya untuk menggantungnya”
Cardinal Richelieu, atau sekarang AI
Saya mencoba mereproduksi hasil kedua dengan Opus 4.7 berkali-kali, tetapi tidak berhasil. Meski prompt diubah dengan berbagai cara, setiap kali model justru menebak para pemikir dari komunitas rasionalis