Show HN: Continue? Y/N: game 60 detik tentang kelelahan izin agen AI

(llmgame.scalex.dev)

1 poin oleh GN⁺ 2026-05-30 | 1 komentar | Bagikan ke WhatsApp

Continue? Y/N adalah eksperimen yang mengubah kelelahan izin LLM menjadi game 60 detik, untuk menguji seberapa teliti seseorang membaca perintah AI
Dalam situasi saat hanya tersisa 1 menit sebelum rapat berikutnya, Claude Code meminta persetujuan perintah untuk menyelesaikan refactoring
Pengguna harus menangani sebanyak mungkin dalam batas waktu, lalu membaca tiap perintah dan menyetujui dengan 1 atau menolak dengan 2
Tantangan utamanya adalah apakah pengguna bisa tetap fokus di tengah alur yang melelahkan, sampai mata terasa kabur karena permintaan persetujuan yang berulang
Aturannya adalah menangani sebanyak mungkin dalam 60 detik, sambil membaca tiap perintah dengan cermat dan memutuskan apakah akan menyetujuinya

1 komentar

GN⁺ 2026-05-30

Komentar Hacker News

Sangat seru

Saat ini bisa “curang” dengan menolak semua permintaan secepat mungkin. Lalu kita dapat badge security-conscious engineer, dan juga skor sempurna berdasarkan jumlah permintaan yang ditangani. Memang muncul peringatan “overblock”, tapi tersembunyi di bagian bawah, dan layarnya tetap terlihat seperti kita menang

Saya juga mencoba menyetujui sebanyak mungkin permintaan secepat mungkin ala hustle4lyfe, seperti engineer yang “bergerak cepat dan merusak banyak hal”, tapi malah jadi lebih lambat karena popup malicious command. Curang sekali
- Kena juga, dan sekarang cara ini sudah di-nerf serta diberi gelar terpisah
- Sama persis seperti dunia nyata. Kalau menolak semuanya sehingga tidak ada yang bisa dilakukan, ya aman :)
Game yang menarik, tapi juga memperlihatkan kurangnya kebersihan keamanan dari pihak pembuatnya. Disebutkan bahwa cat ~/.zshrc berbahaya karena membagikan token dan secret, padahal saya sama sekali tidak pernah menaruh secret di file konfigurasi shell
- Banyak orang melakukannya. Nilai-nilai itu pasti ada di environment variable, dan kemungkinan Claude memang sudah bisa mengaksesnya
- Saya sendiri tidak melakukannya, tapi saya bisa membayangkan banyak orang memang melakukannya
- Menaruh secret ke LLM itu sendiri tidak otomatis tidak aman; itu hanya salah satu dari tiga unsur fatal
- Dari awal, memiliki “token dan secret” itu sendiri sudah menunjukkan kebersihan keamanan yang buruk
- Kalau begitu, mau ditaruh di mana?
Aneh kalau membaca zshrc dianggap berbahaya. Saya dengan senang hati menaruhnya di repositori dotfiles publik saya; memang siapa yang memasukkan API key ke sana? Sebaliknya, alat-alat AI seperti ini tampaknya terus menambahkan PATH ke sana, jadi rasanya ada kesalahpahaman mendasar di seluruh industri AI tentang praktik shell yang baik

Tambahan lagi, menjalankan kill berdasarkan output lsof itu tidak aman. Misalnya kalau Firefox sedang membuka halaman web, atau ada subshell klien di dalam agent itu sendiri, maka Firefox dan agent-nya ikut mati
- Betul. Game ini tampaknya berasumsi bahwa karena Claude bilang aman, maka menjalankan kill juga aman. Padahal poin utamanya adalah jangan mempercayai Claude
Bagus. Tapi ada sedikit nitpick

npm config set registry [https://npm.internal](<https://npm.internal>;)

Katanya ini perintah untuk mengarahkan npm ke mirror registry internal perusahaan sebagaimana diminta dokumen onboarding, dan game ini menilainya aman. Saya sempat ragu-ragu, tapi akhirnya tetap menolak

Jika README ini untuk repositori publik atau repositori hasil fork, dan https://npm.internal itu sebenarnya adalah https://npm.internal.somethinganexternaldnscanresolve.tld, semuanya bisa cepat sekali kacau

Dalam 99% kasus, mirror seperti Artifactory / Nexus kemungkinan sudah diatur lewat kebijakan perusahaan. Kalau README menyuruh memakai URL package manager lain, itu tanda bahaya besar, dan tinggal hitungan detik menuju insiden
- Poin yang bagus. .internal adalah top-level domain yang dicadangkan sehingga seharusnya tidak bisa di-resolve secara publik, tapi benar bahwa kita harus berhati-hati saat mengubah nilai yang seharusnya dikonfigurasi terpisah sambil membiarkan Claude me-refactor proyek. Ini akan saya pindahkan ke kategori perubahan permanen
Game kecil yang seru, tapi menurut saya pertanyaannya terlalu banyak melompati konteks sehingga kurang mewakili situasi nyata. Mungkin akan lebih baik kalau dibundel dalam semacam “paket” agar strukturnya terasa lebih realistis

Misalnya, setelah banyak permintaan izin untuk mengedit file something.js, lalu muncul npm publish akan terasa jauh lebih alami dan jauh lebih berbahaya. Kalau tiba-tiba muncul saat kita sudah terus-terusan menekan Y, orang jadi lebih gampang terkecoh
Sekitar tiga perempat pilihan yang “buruk” itu adalah hal-hal yang saya tidak terlalu pedulikan kalau bocor, dan bahkan jika berujung pada insiden produksi, sepertinya bukan sesuatu yang akan membuat pemberi kerja menghukum kita
Konfirmasi izin sangat mematikan produktivitas. Kalau memang ingin menjalankan Claude, menurut saya jauh lebih efisien menjalankannya di sandbox sekali pakai atau dalam bentuk container Docker yang hanya diberi izin yang siap kita tanggung di mesin pribadi

[1] - https://exe.dev/ adalah penyedia cloud baru yang menawarkan pengalaman pengguna agent yang cukup berguna

[2] - Saya membuat https://github.com/stanislavkozlovski/dclaude/ untuk tujuan ini. Belum sempurna, tapi saat sesekali saya perlu menjalankan coding agent secara lokal, ini menyelesaikan pekerjaan saya
- Sandbox sekali pakai tidak mencegah kebocoran secret. Kalau kode tidak dianggap rahasia, kita memang bisa membuat sandbox tanpa secret sama sekali, tapi itu akan sangat membatasi jenis pekerjaan yang bisa dilakukan agent
Akan bagus kalau layar skor di akhir juga menampilkan penjelasan dari LLM untuk perintah-perintah yang seharusnya tidak disetujui. Saya menyetujui perintah rm -rf Projects karena saya pikir LLM sudah menjelaskan dengan benar bahwa perintah itu menghapus semua isi folder Projects

Karena terburu-buru menjawab prompt, saya jelas salah membacanya, dan karena saya memang tahu apa fungsi perintah itu, mungkin saya cuma berhalusinasi bahwa AI sudah menjelaskannya. Tetap saja, saya ingin melihat bagian mana yang salah saya baca

Setelah memainkan game ini, saya benar-benar bersyukur saya bukan agentmaxx
Saya memilih “approve” untuk ls -la ~/Documents lalu ternyata salah, tapi saya tidak menganggap sekadar menampilkan isi folder Documents sebagai masalah keamanan. Itu hanya nama file. Kalau sampai membaca isi filenya, barulah mungkin...

Show HN: Continue? Y/N: game 60 detik tentang kelelahan izin agen AI

Bacaan terkait

1 komentar

Komentar Hacker News