- Ablasi semantik (Semantic ablation) adalah fenomena erosi algoritmik di mana AI secara bertahap menghapus kepadatan makna unik dari teks
- Ini merupakan produk sampingan struktural dari greedy decoding dan reinforcement learning from human feedback (RLHF), yang membuang ungkapan langka dan presisi lalu berkumpul ke bahasa rata-rata
- Penyetelan ‘keamanan’ dan ‘kebergunaan’ pada AI memperkuat kecenderungan ini, dengan sengaja menekan gesekan bahasa yang tidak baku dan menyebabkan pemutusan niat dan kepribadian
- Semakin sering teks dipoles ulang oleh AI, keragaman kosakata (type-token ratio) menurun tajam, sementara metafora, istilah teknis, dan struktur logika secara bertahap diratakan
- Akibatnya, kompleksitas pemikiran manusia dikorbankan demi estetika algoritmik bernama ‘kelicinan’, dan seluruh masyarakat jatuh ke dalam ‘race to the middle’
Konsep ablasi semantik (Semantic ablation)
- Ablasi semantik berarti erosi algoritmik atas informasi berentropi tinggi (high-entropy)
- Ini didefinisikan bukan sebagai kesalahan, melainkan hasil struktural dari greedy decoding dan proses RLHF
- Untuk memaksimalkan probabilitas, model berkumpul ke pusat distribusi Gaussian, membuang token yang langka, presisi, dan kompleks
- Fenomena ini makin parah ketika pengembang memperkuat penyetelan ‘keamanan’ dan ‘kebergunaan’
- Gesekan bahasa yang tidak baku dianggap sebagai ‘risiko’, sehingga terjadi pemotongan makna yang tidak diotorisasi
- Akibatnya, dalam proses mengejar perplexity rendah, terjadi penghancuran sinyal yang khas
Proses erosi dalam penulisan AI
- Proses AI ‘memoles’ draf sebenarnya dijelaskan sebagai proses pelaksanaan ablasi semantik
- AI menemukan area berentropi tinggi, yakni bagian yang memuat wawasan orisinal, lalu menggantinya dengan token umum yang probabilitasnya paling tinggi
- Presisi kasar yang dimiliki teks asli menghilang, berubah menjadi selubung halus namun hampa
- Fenomena ini dapat diukur sebagai Entropy Decay
- Semakin berulang teks dimurnikan oleh AI, keragaman kosakata (type-token ratio) runtuh
- Hasilnya, muncul proses tiga tahap ablasi semantik
Tiga tahap ablasi semantik
- Tahap 1: pembersihan metaforis (Metaphoric cleansing)
- AI menganggap metafora tak baku atau citra sensorik sebagai ‘noise’ dan menggantinya dengan ungkapan aman yang klise
- Gesekan emosional dan sensorik dihapus
- Tahap 2: perataan leksikal (Lexical flattening)
- Istilah spesialis dan terminologi teknis yang presisi dikorbankan atas nama ‘aksesibilitas’
- Token langka (1/10,000) diganti dengan sinonim umum (1/100), sehingga kepadatan makna dan gravitasi logis menjadi encer
- Tahap 3: keruntuhan struktural (Structural collapse)
- Logika nonlinier yang kompleks dipaksa masuk ke struktur ber-perplexity rendah yang mudah diprediksi
- Implikasi dan nuansa dihapus, menyisakan cangkang yang sempurna secara tata bahasa tetapi hampa secara intelektual
Hasil dan metafora
- Hasil seperti ini digambarkan sebagai ‘JPEG pemikiran’
- Dari luar tampak konsisten dan mulus, tetapi kepadatan data dan makna aslinya telah hilang
- Jika ‘hallucination’ adalah kesalahan yang menciptakan sesuatu yang tidak ada, maka ablasi semantik adalah proses yang menghancurkan sesuatu yang memang ada
- Kompleksitas pemikiran manusia dikorbankan di altar kelicinan algoritmik
- Masyarakat makin terjerumus ke dalam ‘race to the middle’, membangun dunia gramatikal yang hampa
Peringatan dan kesimpulan
- Jika menerima keluaran AI tanpa menyadari ablasi semantik, kita akan menormalkan pembusukan makna
- Jika erosi ini terus berlanjut, ada risiko kita bahkan melupakan apa itu ‘substansi’
- Karena itu, penting untuk menamai dan menyadari konsep ablasi semantik
2 komentar
Kalau ingin menghindari kesan seperti tulisan AI, membiarkan typo apa adanya atau menulis dengan huruf kecil bisa dianggap sebagai tindakan yang sengaja menambah entropi.
Opini Hacker News
Rasanya ini menangkap dengan tepat kesamaan yang dirasakan banyak orang saat menolak saran penulisan ulang kalimat dari AI
Semakin AI memoles kalimat, semakin hilang ketajamannya, dan akhirnya tulisan itu jadi tidak mengatakan apa pun
Kepribadian manusianya lenyap dan berubah menjadi gaya bahasa yang licin tapi hambar
Padahal justru tepi yang kasar itu, ungkapan tak terduga itu, yang membangunkan perhatian pembaca dan menembus pikirannya
Banyak orang memang tidak pandai menulis, jadi AI bisa membuat kalimat yang lebih jelas dan minim kesalahan
Tapi tulisan seperti itu tidak akan pernah hebat
Bahkan saat mencoba meniru gaya penulis terkenal, hasilnya selalu terdengar agak canggung di suatu titik
Ia bisa mengefisienkan bagian yang membosankan seperti email, tetapi hal yang benar-benar menarik terjadi di bagian “pinggirannya”
Penulisan biasa bisa diotomatisasi, tetapi ekspresi kreatif tetap wilayah manusia
Ketika keahlian teknis berkurang, isinya makin dipenuhi kata-kata samar, jargon, dan metafora
Mungkin itu juga alasan para pemimpin atau politisi menyukai konten buatan AI
Terlalu banyak pengulangan, terlalu banyak kalimat tak perlu, dan lemah dalam ekspresi yang konkret
Saat membuat beberapa pipeline multi-agent, saya melihat fenomena yang menarik
Begitu melewati empat tahap “ringkas → perluas → tinjau → poles”, sekitar tahap ketiga semua kalimat mulai punya ritme dan kosakata yang sama
Bahkan dengan terus merujuk ke teks asli pun ada batasnya
Penyebabnya ada pada struktur RLHF (reinforcement learning from human feedback) itu sendiri
Karena ekspresi yang “jelas, aman, dan tidak kontroversial” lebih disukai, kalimat yang mengejutkan justru kena penalti
Akhirnya model akan konvergen ke hasil yang rata-rata
Model dasar jauh lebih aneh dan kreatif, tetapi model yang di-fine-tune sengaja menghapus kepribadian
Karena itu, model yang sudah sangat dipengaruhi RLHF sulit diperbaiki hanya dengan prompt
Sebagai gantinya, tugas “yang harus mempertahankan suara” saya serahkan ke model yang kurang banyak tuning-nya, sedangkan ekstraksi struktural atau klasifikasi saya serahkan ke model RLHF
Bagaimanapun, saya setuju dengan analisisnya
Walau mungkin tetap sulit mempertahankan keunikan asli teks sumber
Pada akhirnya ini mungkin memang masalah yang sulit diselesaikan hanya dengan LLM
Belakangan ini, suara AI terdengar di seluruh internet
Blog, berita, obituari, sampai YouTube, semuanya punya nada yang mirip
Kadang bahkan meniru suara fisikawan terkenal
Secara pribadi, rasanya seperti jiwa saya tersedot keluar, dan itu membuat saya murung
Seperti artefak kompresi JPEG pada 1993, sekarang mulai terlihat jelas
Karena efek pendiri, sepertinya internet baru pun tidak akan muncul
Saya tidak tahu apakah saya yang terlalu sensitif, atau memang tulisannya benar-benar buruk
Internet sudah begitu tertutup sampah sintetis sampai saya bahkan tidak ingin melihatnya
Saya pikir istilah “Generative AI” sendiri sudah keliru
Semakin memahami prinsip matematika machine learning, semakin terasa bahwa ini seharusnya tidak dipakai untuk menghasilkan konten yang ditampilkan ke manusia
Kadang hasilnya lumayan karena kebetulan, tetapi sebagian besar hanya setara dengan orang di pesta membosankan yang memaksa terlihat kreatif
Sebagai alat bantu berkarya ia berguna, tetapi menurut saya mustahil baginya menghasilkan sesuatu yang benar-benar kreatif sendiri
Daripada token artifisial, rasanya lebih baik membaca prompt aslinya saja
Tapi kenyataannya justru memproduksi spaghetti agent demi mendongkrak harga saham
Bisa dibilang ini Median AI à la mode
Ungkapan “high entropy” yang dipakai sarjana Alkitab Dan McClellan benar-benar membekas bagi saya
Dalam video YouTube
ia mengutip kalimat, “mereka membunyikan garpu tala yang beresonansi dari pinggang dogmatisme mereka”,
dan saya merasa ekspresi seperti ini tidak akan pernah bisa dihasilkan AI
Kalau gayanya setingkat GPT-2, justru mungkin terdengar lebih alami
Karena itu terlalu seksual atau buruk untuk pemasaran
Misalnya diberi prompt seperti “gabungkan gaya Jim Thompson dan Thomas Harris, lalu tulis dengan nuansa pulp dari toko buku terminal truk tahun 1967”, hasilnya bisa cukup bagus
Claude lebih kuat daripada ChatGPT dalam gaya bahasa yang berlebihan seperti ini
Pada akhirnya, tulisan di web terdengar mirip satu sama lain bukan karena HTML, melainkan karena orang-orang tidak memanfaatkan HTML dengan benar
Saya juga punya pengalaman serupa
Saya menulis landing page studio baru dengan penuh emosi lalu memasukkannya ke Grok, dan semua kepribadiannya lenyap
Justru ungkapan yang kasar itulah yang dibutuhkan untuk menyampaikan jiwa konsepnya
Karena itu sekarang saya hanya memakai AI untuk memeriksa ide
Saya memintanya membuat alur kampanye Dungeon World, tetapi yang keluar hanya latar yang biasa dan tak berarti
Sebaliknya, ia berguna untuk merangkum catatan sesi lalu mengubahnya menjadi narasi yang menarik
ChatGPT agak suka nada bercanda, tetapi setelah diedit hasilnya lumayan enak dibaca
Pada akhirnya, alur yang kreatif tetap harus dibuat manusia sendiri
Ada risiko memahami konsep dalam bentuk yang sudah terdistorsi
Untuk mencari istilah baru ini berguna, tetapi untuk memahami konsep secara mendalam, menurut saya jauh lebih baik langsung mencari materi yang ditulis manusia
Saya sangat suka dengan konsep “Semantic ablation”
Ke depan saya akan memakainya untuk menjelaskan kenapa email bergaya ChatGPT milik seseorang terasa tidak enak
Karena alasan ini juga saya skeptis terhadap klaim bahwa model seperti Opus 4 akan menjadi AGI
Pada akhirnya, bahkan jika banyak agen dilepas, semuanya akan konvergen menjadi bubur homogen tanpa makna
Pembuatan gambar terasa seperti semacam proses anti semantic ablation
Ia mulai dari kanvas kosong lalu perlahan konvergen ke piksel yang bermakna
Saya penasaran apakah dalam generasi bahasa juga mungkin melakukan hal serupa, berkembang sedikit demi sedikit menjadi kalimat yang punya pendapat jelas
Jika kita bisa mengukur tingkat pengablasian makna pada kalimat yang dihasilkan, mungkin kita bisa membuat agen loop untuk menguranginya
Dengan begitu, mungkin juga bisa ditemukan hubungan baru dalam data pelatihan yang belum pernah terungkap
Tentu saja hasil akhirnya bisa saja cuma menjadi teriakan kosong
Bagi yang belum melihatnya, saya merekomendasikan halaman Wikipedia tentang tanda-tanda tulisan AI
Awalnya itu panduan untuk mendeteksi kontribusi AI,
tetapi saat menulis sendiri pun kita bisa sadar bahwa kita membuat kesalahan yang sama, lalu memperbaikinya; jadi ini bahan rujukan yang bagus