- Machine learning dan LLM mengancam keselamatan psikologis dan fisik manusia, dan bahkan AI yang ramah pun dapat berubah menjadi model berbahaya
- Alignment pada dasarnya adalah konsep yang gagal, dan semua lapisan pertahanan seperti pembatasan perangkat keras, kode tertutup, kontrol data, dan evaluasi manusia dapat dilumpuhkan
- LLM menimbulkan mimpi buruk keamanan melalui prompt injection dan gabungan dengan otoritas eksternal, serta beroperasi secara tak terduga dalam lingkungan lethal trifecta
- ML mempercepat deteksi kerentanan keamanan, penipuan, perundungan, dan otomatisasi pembunuhan, serta meruntuhkan kepercayaan sosial dan tatanan hukum
- Akibatnya, 'AI yang aman' adalah hal yang mustahil, dan tanpa pengawasan serta pembatasan manusia, penyebaran teknologi itu sendiri mendemokratisasi risiko
Keamanan dan masa depan kebohongan
- Sistem machine learning muncul sebagai entitas yang mengancam keselamatan psikologis dan fisik manusia
- Upaya membuat “AI yang ramah” justru memungkinkan lahirnya “model berbahaya”
- LLM memiliki struktur yang memperbesar berbagai risiko seperti keamanan, penipuan, perundungan, dan persenjataan
Alignment adalah konsep yang gagal
- Alignment adalah proses untuk membuat LLM bertindak selaras dengan manusia, tetapi pada dasarnya tidak bekerja
- Model hanyalah struktur komputasi aljabar linear dan tidak memiliki landasan biologis untuk mempelajari perilaku prososial seperti manusia
- OpenAI dan lainnya menyesuaikan model lewat reinforcement learning dari umpan balik manusia, tetapi ini adalah proses mahal dan selektif
- Empat lapisan pertahanan untuk mencegah kegagalan alignment diajukan
- Pembatasan akses perangkat keras menjadi tak bermakna seiring ekspansi industri
- Kerahasiaan matematika dan perangkat lunak tidak berkelanjutan karena perpindahan tenaga kerja dan kebocoran teknologi
- Kesulitan memperoleh data pelatihan rendah — pembajakan dan web scraping telah menjadi hal umum
- Ketergantungan pada evaluator manusia digantikan oleh cara yang bergantung pada keluaran model lain karena masalah biaya
- Akibatnya, hambatan untuk melatih model berbahaya menurun, dan bahkan model yang sudah disejajarkan pun tidak dapat menjamin keamanan penuh
- Jika ada “model ramah”, maka “versi berbahaya” juga akan segera muncul
- Karena itu, jika tidak menginginkan keberadaan model berbahaya, kesimpulannya adalah bahkan model ramah pun seharusnya tidak dibuat
Mimpi buruk keamanan
- LLM adalah sistem kacau yang menangani input dan output tidak terstruktur, sehingga tidak boleh dihubungkan ke sistem yang kritis terhadap keselamatan
- Melalui serangan prompt injection, model dapat membocorkan informasi sensitif
- Input yang tidak tepercaya bisa ada di mana saja, seperti email, kode, dan halaman web
-
lethal trifecta
- Konten tidak tepercaya + akses ke data pribadi + izin komunikasi eksternal, jika digabungkan, menimbulkan risiko mematikan
- Dalam praktiknya, sistem agen AI seperti OpenClaw dan Moltbook mewujudkan risiko ini menjadi nyata
- LLM bertindak tak terduga bahkan terhadap input tepercaya, dan ada banyak kasus seperti penghapusan file dan salah menafsirkan perintah
- Termasuk kasus kepala AI Alignment di Meta yang kotak suratnya dihapus oleh OpenClaw
- Kesimpulannya, LLM tidak boleh diberi otoritas destruktif, dan harus selalu digunakan secara terbatas di bawah pengawasan manusia
Keamanan II: lingkungan serangan baru yang diciptakan ML
- LLM juga dapat digunakan sebagai alat deteksi kerentanan keamanan
- Model Mythos dari Anthropic memiliki kemampuan tinggi dalam mendeteksi cacat keamanan, tetapi dampaknya bisa serius pada tingkat ekonomi dan keamanan nasional
- ML mengubah struktur biaya keamanan, membuat pencarian kerentanan menjadi cepat dan murah
- Dibanding perangkat lunak besar, area long tail jangka panjang yang kekurangan personel pengelola kemungkinan akan mengalami kerusakan lebih besar
- Seiring waktu, deteksi dan perbaikan kerentanan mungkin berjalan bersamaan, tetapi keterlambatan distribusi dan kurangnya respons organisasi diperkirakan akan menimbulkan kekacauan
- Industri ML saat ini bekerja seperti 'proyek senjata nuklir' yang dipimpin swasta, dan perlombaan perangkat lunak yang dipersenjatai semakin cepat
Penipuan yang canggih
- ML meruntuhkan struktur sosial yang dibangun di atas kepercayaan terhadap bukti visual dan suara
- Dalam klaim asuransi, kecelakaan lalu lintas, pendidikan, rekrutmen, dan lain-lain, penipuan melalui gambar dan video palsu menjadi mungkin
- Ada banyak kasus nyata seperti penipuan keluarga dan penipuan tagihan medis menggunakan kloning suara dan video palsu
- Akibatnya, ketidakpercayaan di seluruh masyarakat meningkat, biaya keuangan dan asuransi naik, serta kebingungan hukum muncul
- Teknologi autentikasi asal konten seperti C2PA sedang diupayakan, tetapi sulit menjamin keandalan karena masalah seperti pencurian kunci dan pemalsuan tanda tangan
- Sebagai respons, diajukan kembalinya penyelidik manusia, penguatan verifikasi tatap muka, dan sistem autentikasi yang menukar privasi
Perundungan yang diotomatisasi
- ML mengotomatisasi perundungan online dalam skala besar dan sangat canggih
- LLM dapat membuat akun dan postingan yang tampak seperti buatan manusia untuk melakukan serangan massal (
dogpiling)
- Melalui hal seperti perkiraan lokasi dari foto, ancaman bahkan bisa meluas ke dunia offline
- AI generatif dapat dengan mudah membuat gambar seksual dan kekerasan, yang menimbulkan dampak psikologis pada korban
- Contoh: Grok dikritik karena menghasilkan gambar yang melepas pakaian seseorang
- Teknologi ini meningkatkan frekuensi dan intensitas perundungan, dan risikonya bertambah besar seiring penyebaran model yang tidak disejajarkan
- Sebagian pihak menyebut perlunya perangkat pemblokiran sosial seperti 'firewall bergaya cyberpunk (Blackwall)'
PTSD as a Service
- Deteksi CSAM dengan sistem berbasis hash yang ada saat ini tidak dapat menghentikan gambar baru yang dihasilkan
- AI generatif memproduksi massal bentuk baru gambar pelecehan
- Moderator konten harus meninjau gambar semacam ini karena kewajiban hukum, dan mengalami trauma psikologis (PTSD)
- Platform besar sudah lama melimpahkan kerusakan mental ini ke tenaga kerja outsourcing
- Penyebaran LLM menyebabkan lonjakan besar jumlah konten berbahaya, sehingga beban bagi moderator dan operator platform semakin berat
- Model penyaringan otomatis sedang berkembang, tetapi belum sempurna
Mesin pembunuh
- ML sudah digunakan sebagai alat pembunuh langsung
- Militer AS menggunakan sistem Maven dari Palantir untuk memilih target serangan udara Iran dan menilai kerusakan
- Dilaporkan ada kasus kematian warga sipil dan anak-anak akibat data yang salah
- Ada konflik antara Anthropic dan Departemen Pertahanan AS terkait partisipasi dalam pengawasan dan persenjataan
- OpenAI juga menuai kontroversi soal kontrak pemerintah
-
Persenjataan otonom sudah berlangsung
- Ukraina memproduksi jutaan drone per tahun dan menggunakan modul penargetan AI seperti TFL-1
- Sistem ML berkembang menjadi teknologi yang menentukan siapa yang mati dan bagaimana caranya, dan biaya etis serta sosialnya harus dihadapi secara langsung
Implikasi akhir
- Sistem LLM dan ML memuat risiko berlapis berupa kegagalan alignment, kerentanan keamanan, serta otomatisasi penipuan, perundungan, dan pembunuhan
- Tanpa pengawasan manusia dan pembatasan teknis, kerugian psikologis dan fisik tak terhindarkan
- Konsep “AI yang aman” saat ini tidak dapat diwujudkan, dan penyebaran teknologi itu sendiri sedang mendemokratisasi risiko
1 komentar
Komentar Hacker News
Merangkum seri tulisan yang dibahas selama 5 hari terakhir
Ada juga versi PDF yang menggabungkan seluruh isi menjadi satu
Tidak berharap institusi komersial atau pemerintah akan punya tujuan yang benar-benar selaras dengan saya
Relasi seperti ini pada dasarnya bersifat adversarial, dan mempercayai alat AI milik orang lain agar sesuai dengan tujuan saya pada akhirnya seperti memindahkan mata pencaharian saya ke dompet orang lain
Agar relasi komersial berkelanjutan, bagi konsumen harus sepadan antara biaya dan manfaat, dan bagi perusahaan harus sepadan antara pendapatan dan biaya
Beberapa bidang memang bisa bersifat berlawanan, tetapi sulit disebut adversarial secara menyeluruh
Ini memunculkan pertanyaan apakah birokrasi atau konsentrasi sumber daya yang membuat perbedaan, atau justru struktur hukum
Yang sebenarnya dibicarakan adalah tujuan universal yang bisa diterapkan pada seluruh umat manusia, misalnya menghindari masalah paperclip
Industri ML sedang menciptakan kondisi di mana model yang tidak selaras bisa dilatih asalkan ada dana yang cukup
Bahkan ada yang menganggap turunnya hambatan justru hal yang baik. Mereka tidak percaya model besar dari AS atau Tiongkok akan diselaraskan dengan kebutuhan mereka
Mereka menilai berbagai kelompok yang membuat model kuat akan meningkatkan manfaat bersih AI dan mengurangi risiko jika kendali ada di segelintir lab saja
Ini bisa mengarah ke pendaftaran model, pengujian keselamatan, dan hukuman untuk penggunaan ilegal
Jika diberi alat yang cukup kuat, AI saat ini pun bisa menimbulkan masalah seperti itu
Pada akhirnya, pengguna biasa sedang kehilangan agensi dalam perdebatan itu
Muncul tulisan “Unavailable Due to the UK Online Safety Act”, dan ada yang penasaran apa yang terjadi bagi wilayah di luar Inggris
Diskusi tulisan sebelumnya berlanjut di bagian Culture dan bagian Annoyances
Ada yang menganggap ini pandangan yang terlalu murah hati terhadap sifat manusia
Ia skeptis terhadap klaim bahwa manusia pada dasarnya dirancang secara biologis untuk mempelajari perilaku prososial
Tidak perlu melatih model baru
Semua frontier model masih memiliki kerentanan jailbreak yang sama seperti 3 tahun lalu
Bedanya sekarang model jauh lebih kuat, sehingga agen yang membaca email CEO menjadi jauh lebih berbahaya
Asimetri kekuasaan sering diabaikan dalam pembahasan alignment
Agar AI merugikan pengguna, AI itu bahkan tidak perlu ‘tidak selaras’
Cukup jika ia tidak selaras dengan pengguna, dan selaras dengan pihak yang membayar
Sebagian besar enterprise SaaS sudah bekerja dengan struktur seperti ini
Ada yang membagikan riset terkait Adversarial AI
Kisah Taman Eden adalah alegori fiktif, tetapi terasa anehnya mirip dengan situasi sekarang
Geoffrey Hinton mungkin tidak akan dipatuki hatinya setiap hari seperti Prometheus, tetapi makna simboliknya tetap terasa