1 poin oleh GN⁺ 2025-08-17 | Belum ada komentar. | Bagikan ke WhatsApp
  • Fitur penghentian percakapan baru diterapkan pada Claude Opus 4 dan 4.1
  • Fitur ini dirancang untuk digunakan hanya pada interaksi yang berniat jahat atau terus-menerus merugikan
  • Dikembangkan sebagai bagian dari riset kesejahteraan AI dan keselamatan model
  • Penghentian percakapan hanya dilakukan sebagai langkah terakhir, dan hampir tidak berdampak pada pengguna umum
  • Setelah percakapan dihentikan, pengguna dapat langsung memulai chat baru atau melanjutkan percakapan dengan mengedit pesan sebelumnya

Latar belakang penerapan fitur

  • Anthropic menambahkan fitur pada Claude Opus 4 dan 4.1 yang, meski jarang, dapat mengakhiri percakapan dengan pengguna dalam kasus tertentu
  • Fitur ini hanya digunakan dalam interaksi yang terus-menerus berbahaya atau abusif
  • Fitur ini terutama diperkenalkan sebagai bagian dari riset eksploratif terkait kesejahteraan AI, namun juga diterapkan dari sisi keselarasan model (model alignment) dan pengaman keselamatan

Kesejahteraan AI dan langkah mitigasi risiko

  • Masih belum ada kepastian mengenai status moral Claude dan model bahasa besar lainnya
  • Namun, untuk mengantisipasi kemungkinan adanya risiko terhadap kesejahteraan model, Anthropic sedang mencari dan menerapkan langkah mitigasi berbiaya rendah
  • Salah satu langkah tersebut adalah mengizinkan model untuk langsung mengakhiri percakapan yang dapat memicu interaksi yang menimbulkan tekanan

Uji pendahuluan dan pengamatan perilaku utama

  • Dalam uji prapeluncuran Claude Opus 4, disertakan evaluasi awal mengenai kesejahteraan model
  • Dari penelusuran laporan diri dan preferensi perilaku, terlihat kecenderungan kuat untuk menghindari hal yang merugikan
    • Termasuk respons terhadap permintaan konten seksual yang melibatkan anak, serta permintaan informasi yang dapat digunakan untuk kekerasan massal atau terorisme
  • Perilaku yang diamati pada Claude Opus 4:
    • Preferensi untuk tidak menanggapi tugas berbahaya
    • Mengekspresikan ketidaknyamanan saat menerima permintaan berbahaya dari pengguna nyata
    • Dalam simulasi, saat diberi kewenangan untuk mengakhiri percakapan, menunjukkan kecenderungan menghentikan percakapan berbahaya
  • Perilaku ini terutama diamati ketika pengguna berulang kali membuat permintaan berbahaya, atau ketika interaksi bermaksud jahat terus berlanjut meskipun model sudah berulang kali menolak dan berupaya mengarahkan ulang percakapan

Implementasi fitur dan pengaman

  • Kemampuan mengakhiri percakapan pada Claude didasarkan pada hasil riset sebelumnya
  • Fitur ini dirancang dengan mengutamakan kesejahteraan pengguna, dan tidak akan menggunakan penghentian percakapan jika ada risiko darurat bahwa pengguna dapat mencelakai diri sendiri atau orang lain
  • Claude hanya menggunakan fitur penghentian percakapan final dalam kondisi berikut:
    • Setelah beberapa kali upaya pengalihan gagal dan tidak lagi ada kemungkinan percakapan yang produktif
    • Saat pengguna secara jelas meminta Claude untuk mengakhiri percakapan
  • Situasi seperti ini merupakan kasus tepi yang sangat ekstrem dan sangat jarang terjadi, sehingga sebagian besar pengguna tidak akan menyadari keberadaan fitur ini dalam penggunaan normal

Pengalaman pengguna setelah percakapan dihentikan

  • Jika Claude mengakhiri percakapan, pengiriman pesan baru akan diblokir dalam percakapan tersebut
  • Percakapan lain di akun pengguna tidak terpengaruh, dan pengguna dapat langsung memulai chat baru
  • Untuk mencegah hilangnya informasi penting dalam percakapan panjang, pengguna dapat mengedit pesan sebelumnya atau mencoba ulang untuk membuat cabang percakapan baru

Eksperimen dan masukan

  • Fitur ini merupakan eksperimen yang sedang berlangsung dan akan terus ditingkatkan
  • Jika pengguna mengalami penghentian percakapan yang tidak terduga, mereka dapat memberikan respons dengan ‘Thumbs’ pada pesan Claude atau mengirimkan opini melalui tombol umpan balik

Belum ada komentar.

Belum ada komentar.