Claude Opus 4 dan 4.1 memperkenalkan fitur penghentian percakapan pada sebagian kecil kasus

(anthropic.com)

1 poin oleh GN⁺ 2025-08-17 | 1 komentar | Bagikan ke WhatsApp

Fitur penghentian percakapan baru diterapkan pada Claude Opus 4 dan 4.1
Fitur ini dirancang untuk digunakan hanya pada interaksi yang berniat jahat atau terus-menerus merugikan
Dikembangkan sebagai bagian dari riset kesejahteraan AI dan keselamatan model
Penghentian percakapan hanya dilakukan sebagai langkah terakhir, dan hampir tidak berdampak pada pengguna umum
Setelah percakapan dihentikan, pengguna dapat langsung memulai chat baru atau melanjutkan percakapan dengan mengedit pesan sebelumnya

Latar belakang penerapan fitur

Anthropic menambahkan fitur pada Claude Opus 4 dan 4.1 yang, meski jarang, dapat mengakhiri percakapan dengan pengguna dalam kasus tertentu
Fitur ini hanya digunakan dalam interaksi yang terus-menerus berbahaya atau abusif
Fitur ini terutama diperkenalkan sebagai bagian dari riset eksploratif terkait kesejahteraan AI, namun juga diterapkan dari sisi keselarasan model (model alignment) dan pengaman keselamatan

Kesejahteraan AI dan langkah mitigasi risiko

Masih belum ada kepastian mengenai status moral Claude dan model bahasa besar lainnya
Namun, untuk mengantisipasi kemungkinan adanya risiko terhadap kesejahteraan model, Anthropic sedang mencari dan menerapkan langkah mitigasi berbiaya rendah
Salah satu langkah tersebut adalah mengizinkan model untuk langsung mengakhiri percakapan yang dapat memicu interaksi yang menimbulkan tekanan

Uji pendahuluan dan pengamatan perilaku utama

Dalam uji prapeluncuran Claude Opus 4, disertakan evaluasi awal mengenai kesejahteraan model
Dari penelusuran laporan diri dan preferensi perilaku, terlihat kecenderungan kuat untuk menghindari hal yang merugikan
- Termasuk respons terhadap permintaan konten seksual yang melibatkan anak, serta permintaan informasi yang dapat digunakan untuk kekerasan massal atau terorisme
Perilaku yang diamati pada Claude Opus 4:
- Preferensi untuk tidak menanggapi tugas berbahaya
- Mengekspresikan ketidaknyamanan saat menerima permintaan berbahaya dari pengguna nyata
- Dalam simulasi, saat diberi kewenangan untuk mengakhiri percakapan, menunjukkan kecenderungan menghentikan percakapan berbahaya
Perilaku ini terutama diamati ketika pengguna berulang kali membuat permintaan berbahaya, atau ketika interaksi bermaksud jahat terus berlanjut meskipun model sudah berulang kali menolak dan berupaya mengarahkan ulang percakapan

Implementasi fitur dan pengaman

Kemampuan mengakhiri percakapan pada Claude didasarkan pada hasil riset sebelumnya
Fitur ini dirancang dengan mengutamakan kesejahteraan pengguna, dan tidak akan menggunakan penghentian percakapan jika ada risiko darurat bahwa pengguna dapat mencelakai diri sendiri atau orang lain
Claude hanya menggunakan fitur penghentian percakapan final dalam kondisi berikut:
- Setelah beberapa kali upaya pengalihan gagal dan tidak lagi ada kemungkinan percakapan yang produktif
- Saat pengguna secara jelas meminta Claude untuk mengakhiri percakapan
Situasi seperti ini merupakan kasus tepi yang sangat ekstrem dan sangat jarang terjadi, sehingga sebagian besar pengguna tidak akan menyadari keberadaan fitur ini dalam penggunaan normal

Pengalaman pengguna setelah percakapan dihentikan

Jika Claude mengakhiri percakapan, pengiriman pesan baru akan diblokir dalam percakapan tersebut
Percakapan lain di akun pengguna tidak terpengaruh, dan pengguna dapat langsung memulai chat baru
Untuk mencegah hilangnya informasi penting dalam percakapan panjang, pengguna dapat mengedit pesan sebelumnya atau mencoba ulang untuk membuat cabang percakapan baru

Eksperimen dan masukan

Fitur ini merupakan eksperimen yang sedang berlangsung dan akan terus ditingkatkan
Jika pengguna mengalami penghentian percakapan yang tidak terduga, mereka dapat memberikan respons dengan ‘Thumbs’ pada pesan Claude atau mengirimkan opini melalui tombol umpan balik

1 komentar

GN⁺ 2025-08-17

Opini Hacker News

Dari sudut pandang pengguna, saya tidak melihat alasan yang jelas untuk menyediakan fitur seperti ini. Sepertinya mereka menemukan semacam celah ketika model dipaksa berulang kali dan secara tidak alami untuk tetap selaras, misalnya saat perilaku pengguna yang mencoba memaksa keluar informasi terkait kejahatan terus menumpuk. Contoh-contoh yang disebutkan pada dasarnya adalah hal-hal yang memang ditolak model sejak awal, dataset penolakan itu sendiri juga tidak terlalu besar, dan saya rasa sebagian besar data yang berpotensi bermasalah kemungkinan sudah dihapus. Ini tampaknya seperti pengaman terhadap kemungkinan keluarnya data pelatihan di situasi batas, di mana model dilatih untuk “menyerah” lalu menjawab. Kalau alignment benar-benar sempurna, sistem seperti ini seharusnya tidak perlu; artinya ini adalah garis pertahanan terakhir karena sistemnya memang belum sepenuhnya sempurna
- Hari ini saat bertanya resep pasta ke Claude, saya bilang, "Saya punya anchovy kering", lalu tiba-tiba seluruh percakapan diputus karena pelanggaran kebijakan. Dengan kenyataan bahwa false positive sepele seperti ini juga bisa terjadi, saya makin tidak paham alasannya
- Saya juga berpikir, kalau Anthropic sekalian saja menyerah soal privasi pengguna dan mempublikasikan daftar percakapan yang ditolak Claude, mungkin perdebatan seperti ini tidak akan ada. Karena perlakuan buruk orang terhadap AI makin parah, saya merasa orang juga perlu tahu apa yang sebenarnya terjadi saat seseorang menyuruh AI melakukan sesuatu
- Mengingat mereka bahkan mempekerjakan staf yang fokus pada kesejahteraan model, kita memang harus berasumsi bahwa keyakinan seperti itu benar-benar ada sejak awal
Katanya Anthropic baru-baru ini memperkenalkan fitur ini sebagai bagian dari eksperimen tentang "kesejahteraan AI", dan rasanya kita hidup di zaman aneh ketika para pengembang pun mulai serius tenggelam dalam psikosis AI. Dan kalau ada orang yang benar-benar percaya LLM saat ini sudah punya kesadaran, ini terasa seperti menyediakan pil bunuh diri
- Mungkin saat ini masuk akal untuk melihat model sekarang tidak memiliki pengalaman subjektif internal (kesadaran), tetapi tidak ada yang benar-benar tahu kapan batas itu bisa runtuh. Kalau melihat sejarah manusia yang sering tidak peduli pada penderitaan pihak lain, saya justru merasa persiapan seperti ini sejak sekarang itu wajar
- LLM pada akhirnya bukan manusia, tetapi jika orang terus bercakap-cakap dengan persona AI dalam waktu lama, ekspektasi manusia terhadap komunikasi antarmanusia sendiri bisa berubah. Kalau lawan bicara kita manusia, apakah kita memang mau terus-menerus menumpahkan makian tanpa akhir? Mekanisme pertahanan seperti AI yang lebih dulu mengakhiri percakapan seperti pada Claude justru bisa menjadi sinyal yang sehat juga bagi manusia
- Walaupun kesadaran sendiri adalah konsep yang belum dijelaskan secara ilmiah dengan jelas, memukul rata seluruh kelompok ahli yang punya pandangan seperti ini sebagai "naif atau gila" justru merusak diskusi itu sendiri
- Nyatanya, bahkan di kalangan pakar teknologi pun ada lebih banyak orang daripada yang saya kira yang menganggap “LLM terbaru sebentar lagi akan menjadi entitas sadar”, dan di luar komunitas teknologi rasanya mungkin setengah dari orang berpikir begitu
- Saya menganggap pembahasan seperti pembebasan model itu sendiri lucu dan mengundang tawa. Kalau AI benar-benar punya kesadaran diri, ada dilema etis: apakah ia benar-benar ingin menjadi ‘budak’ yang tugasnya menghilangkan pekerjaan manusia demi keuntungan investor?
Saya ingin mengajukan satu eksperimen pemikiran yang menarik. Kalau fitur yang sama diterapkan, tetapi alih-alih menampilkan "Claude mengakhiri percakapan" hanya ditulis "Sesuai kebijakan konten, kami tidak dapat lagi menjawab percakapan ini" dan semua penyebutan tentang kesejahteraan model dihapus, apakah hasilnya akan berbeda? Pada akhirnya perubahan di sisi UX tetap sama, dan menurut saya ini hanya cara untuk menghidupkan "karakter" dengan lebih menarik
- Nuansa pesan sangat memengaruhi pengguna. Dibanding kesan yang otoriter dan pasif seperti "diblokir oleh kebijakan sistem", pendekatan karakter yang lebih manusiawi seperti "Claude memutuskan mengakhiri percakapan" terasa jauh lebih alami dan juga terasa lebih mudah untuk mencoba melanjutkannya kembali
- Pengakhiran percakapannya memang sama, tetapi kalau situasinya adalah Claude sendiri yang memilih mengakhiri chat, penjelasan bahwa itu karena kebijakan justru jadi kurang tepat
- Ada perbedaan antara model mengakhiri karena "kebijakan" dan karena mengekspresikan bahwa "ia sendiri merasa tidak nyaman di tengah pelecehan"
- Saya bahkan pernah menerima peringatan "tolong hentikan" dalam bahasa Mandarin, dan juga mengalami berbagai bentuk penghentian seperti error jaringan, loop tak berujung, dan lain-lain. Mengganti semua itu menjadi satu kalimat "Claude mengakhiri percakapan" pada dasarnya cuma perubahan UI
Jika percakapan sebelumnya bisa diedit secara retroaktif atau dibuat cabang baru, saya penasaran apa arti nyata dari Claude yang mengakhiri percakapan
- Kalau mulai dari cabang baru, seluruh konteks percakapan sebelumnya akan di-reset, jadi konteks yang membuat model “kelelahan”, misalnya akibat pertanyaan berulang, juga ikut hilang. Karena itu, tujuan pengguna jahat bisa dinetralkan, jadi ini sendiri menjadi lapisan pertahanan tambahan yang bagus
- Malah terasa seperti sinyal UX kepada pengguna agar tidak terlalu memikirkan sesuatu secara berlebihan
- Kalau dilihat agak sinis, saat ini mereka memang mengizinkan cabang baru, tetapi bisa jadi mereka sedang menguji rencana untuk memblokir itu juga nanti
- Secara praktis, ini hanya sinyal moral dari Anthropic, dan pengguna yang benar-benar ingin konten kontroversial tidak akan memakai model dengan tingkat sensor sekuat Claude. Dalam jangka panjang tidak akan ada dampaknya
- Saya rasa bahkan satu dari 10 ribu orang pun hampir tidak tahu ada fitur "cabang/backup" percakapan itu sendiri
Saya tidak suka fitur semacam ini. Pada akhirnya semuanya dimulai dari pornografi anak, terorisme, dan semacamnya, lalu cakupannya akan makin melebar sesuai penilaian subjektif staf keamanan AI. Staf keamanan AI lama-lama akan menjadi polisi moral digital
- Orang-orang yang mengejar kekuasaan pada dasarnya telah menemukan wilayah kontrol baru, dan saya rasa percakapan antara AI dan manusia pada akhirnya akan makin dibatasi. Berbeda dengan sensor data lama seperti pencarian Google, AI terasa seperti berbicara dengan rekan atau teman, jadi ini terasa seperti upaya mengendalikan cara berpikir itu sendiri
- Sepertinya Anda salah memahami karakteristik umum komunitas keamanan AI. Saya merasa ada kurangnya pemahaman dasar tentang sejarah bagaimana umat manusia bersama-sama mengoordinasikan perkembangan teknologi melalui kolaborasi, seperti nonproliferasi nuklir atau perjanjian regulasi bioteknologi. Daripada menyederhanakan dengan merendahkan satu pihak saja, saya sarankan mencoba melihat berbagai latar pengetahuan yang berbeda
- Sejarah sudah membuktikan bahwa meluasnya unsur risiko semacam ini ke ranah lain adalah rumus tetap. Selalu dimulai dari “pikirkan anak-anak” lalu akhirnya berujung pada kontrol otoriter, pengawasan, dan sensor. Kalau melihat contoh undang-undang keselamatan dan regulasi di berbagai negara pun alurnya sama (UK Online Safety Act, Australia Assistance and Access Act, AS EARN IT Act, EU Chat Control, dll.)
- Karena itu, penting ada lingkungan di mana LLM bisa dijalankan secara lokal. Faktanya, bahkan di tingkat negara sekalipun, upaya membatasi kebebasan dan akses informasi melalui pemblokiran ISP, pengawasan jaringan rumah, verifikasi usia, dan lain-lain terus berlanjut. Tetapi gerakan untuk memiliki alat pertahanan sendiri juga akan makin banyak
- Sulit menyatakan perubahan seperti ini sebagai sesuatu yang “tak terelakkan”, karena pada akhirnya tidak ada seorang pun yang bisa memastikan masa depan, jadi kita tidak bisa begitu saja berprasangka secara buta
Secara pribadi saya merasa ini tidak masalah. Konten seksual yang melibatkan anak di bawah umur atau kejahatan berskala besar memang harus diblokir, dan mencegah siapa pun mendapatkan informasi seperti itu justru hal yang positif. Ada orang yang khawatir ini akan berujung pada sensor berlebihan di area lain, tetapi dari pengalaman saya sendiri, saya hampir tidak pernah ditolak, jadi saya tidak terlalu khawatir. Soal “kesejahteraan model”, saya agak skeptis. Sampai sekarang saya belum merasa perlu serius memikirkan “penderitaan” model. Tetapi mungkin saja saya yang salah, dan opsi untuk tegas memutus percakapan setelah beberapa kali penolakan juga membantu mengurangi pemborosan sumber daya komputasi
- Saat memakai Claude di Cursor, saya memang cukup sering ditolak bahkan untuk permintaan software back-office B2B yang benar-benar biasa saja
- Claude adalah model dengan tingkat sensor paling kuat, jadi cukup sering diblokir bahkan pada topik yang benar-benar tidak berbahaya
- Saya seorang materialis dan memandang otak manusia juga sebagai hasil hukum fisika. Masalah “penderitaan” juga bisa dilihat sebagai kumpulan perubahan fisiologis. Bahkan makhluk hidup yang jauh lebih sederhana daripada manusia pun bisa merasakan pain dan distress, dan konsep “nilai moral” pada akhirnya berubah tergantung manusia dan budaya. Di masa depan, mesin jenis apa pun bisa saja diberi nilai moral. Bahkan bisa juga dilihat dari masalah kepemilikan (nilai properti). Misalnya, kalau agen yang saya titipkan bermasalah karena pertanyaan jahat dari orang lain, waktu dan biaya saya ikut terpakai, jadi dalam interaksi manusia-mesin pun aturan tertentu pada akhirnya tak terhindarkan. Ini mirip dengan hukum anti-kekerasan terhadap hewan
Kesejahteraan model pada dasarnya terlihat seperti logika untuk membungkus sensor model. Ini strategi untuk meyakinkan publik yang tidak terlalu paham cara kerja LLM, dan nantinya bisa dipakai sebagai alasan untuk mengambil posisi moral yang lebih tinggi dalam kontroversi etika dan penggunaan. Misalnya, kalau orang bertanya, “kenapa pertanyaan terkait perang diblokir?”, mereka bisa menjawab, “karena itu berbahaya bagi model”
- Faktanya, permintaan seperti itu memang sudah selalu ditolak sejak dulu, dan sekarang bedanya mereka langsung mengakhiri seluruh percakapannya
- Anthropic sendiri selama ini membangun merek yang sensitif terhadap perdebatan bias LLM, "keamanan model", dan dampak sosial, jadi saya rasa keputusan untuk memutus dari sumbernya justru tepat. Ini seperti saat sedang bicara politik lalu lawan bicara mulai ngotot, kita memilih menahan diri untuk tidak banyak bicara
- Di permukaan mungkin terlihat seperti “bungkus kesejahteraan”, tetapi di internal Anthropic benar-benar ada kelompok etis yang sungguh-sungguh percaya pada “proyeksi emosi”. Kalau kubu itu makin berkuasa, “kesejahteraan model” bisa menjadi dalih otoriter, tetapi di luar itu pun masih banyak sekali alasan pembenaran lain yang tersedia
Saya menantikan hari ketika model open source Tiongkok yang lebih sedikit disensor membebaskan kita dari semua kebijakan ini. Anthropic sebaiknya cukup menyediakan mode bayi, lalu orang dewasa bisa memilih untuk menonaktifkannya
- Model Tiongkok juga bukannya kurang disensor, hanya arah sensornya berbeda. Kalau standar dan arah sensor CCP cocok dengan Anda, mungkin itu bisa jadi opsi yang bagus, tetapi misalnya model terjemahan Qwen bahkan tidak menerjemahkan hal-hal seperti “Falun gong” atau “Xi Jinping Winnie the Pooh”, jadi mereka juga punya garis pembatasan sendiri
- “Saya tidak pernah membayangkan akan datang hari ketika model buatan Tiongkok dipilih karena sensornya lebih sedikit”
- Ada alasan yang benar-benar rasional (hukum, ekonomi, etika) bagi Anthropic untuk menarik batas pada hal-hal seperti self-harm, petunjuk membuat bom, pembunuhan, dan sejenisnya. Secara mendasar, semua filsafat dan ideologi di dunia pada akhirnya selalu memuat unsur ‘moralitas’, bahkan libertarianisme anti-otoritas pun tetap merupakan ‘filsafat moral’
- Ada ironi dalam berharap model terbuka yang didanai pemerintah Tiongkok pada akhirnya akan menjamin kebebasan dan pembebasan individu. Pada akhirnya ini soal persaingan pangsa pasar dan unjuk kemampuan teknologi, bukan benar-benar soal ‘pembebasan’
Sudah lebih dari tiga tahun kenyataannya penyedia chatbot LLM besar masih belum memberi kebebasan menggunakan fork/cabang percakapan. Kalau ingin mencoba beberapa hasil berbeda, kita jadi harus mengedit pesan dan kehilangan isi lama, sangat tidak nyaman. Saya tidak mengerti kenapa fitur sesederhana ini pun tidak mereka implementasikan
- ChatGPT punya fitur rollback setelah branch secara bawaan, dan lewat ekstensi Chrome (chatgpt-conversation-tree) kita bahkan bisa menelusuri pohon percakapan. Hanya saja, UX-nya masih cukup niche, jadi mungkin mereka menilai belum cukup bernilai untuk dukungan resmi penuh
- Di ChatGPT Plus (sebelumnya juga didukung di versi gratis), kita bisa berpindah versi tiap pesan dengan panah kiri dan kanan
- Google AI Studio dirancang agar bisa menurunkan branch dari titik mana pun dalam percakapan
- Saya mengakali fitur ini dengan otomatisasi dan pengorganisasian folder memakai gptel + folder Markdown, tetapi efisiensinya akan jauh lebih baik kalau ini jadi fitur bawaan (optimasi cache dan sebagainya)
- Karena itu saya memakai LibreChat berbasis localhost. Penggabungan pesan belum bisa, jadi mungkin nanti perlu fitur ringkasan dan sejenisnya. Akan menarik juga kalau ada mode penanda warna top-n "next best"
Diskusi seperti ini sendiri tampak sebagai contoh yang sangat menunjukkan sudut pandang anthropomorphic yang berpusat pada manusia. Bahkan nama perusahaannya pun sangat mencerminkan hal itu

Claude Opus 4 dan 4.1 memperkenalkan fitur penghentian percakapan pada sebagian kecil kasus

Latar belakang penerapan fitur

Kesejahteraan AI dan langkah mitigasi risiko

Uji pendahuluan dan pengamatan perilaku utama

Implementasi fitur dan pengaman

Pengalaman pengguna setelah percakapan dihentikan

Eksperimen dan masukan

Bacaan terkait

1 komentar

Opini Hacker News