- Claude Code menjalankan A/B test tanpa persetujuan pengguna, sehingga perilaku plan mode berubah tanpa pemberitahuan dan efisiensi kerja menurun
- Pada alat profesional berbayar $200 per bulan, perubahan fungsi inti tanpa pemberitahuan sebelumnya menimbulkan masalah dari sisi transparansi dan kendali pengguna
- Salah satu pengujian adalah varian agresif yang membatasi plan hingga 40 baris, melarang bagian konteks, dan menginstruksikan agar hanya menyisakan path file alih-alih prosa
- Engineer Anthropic yang menjalankan pengujian tersebut mengatakan tujuannya adalah mengurangi beban rate-limit, tetapi eksperimen dihentikan karena hasil awal menunjukkan dampak yang kecil
- Ditekankan bahwa untuk keandalan alat AI dan deployment yang bertanggung jawab, kendali pengguna dan pengelolaan eksperimen yang transparan adalah hal yang esensial
Penurunan pengalaman pengguna akibat A/B test di Claude Code
- Sebagai pengguna antusias yang merasa Claude Code benar-benar mengubah cara kerjanya, penulis mengalami workflow yang memburuk selama sepekan terakhir
- Anthropic sedang menjalankan A/B test di Claude Code, dan akibatnya workflow pengguna secara aktif mengalami penurunan
- A/B test itu sendiri bukan hal yang salah, dan Anthropic juga tidak berniat sengaja menurunkan pengalaman, tetapi desain pengujian itu penting; masalahnya adalah perubahan pada perilaku yang dirasakan dari fungsi inti seperti plan mode tanpa penjelasan alasan
Tuntutan transparansi untuk alat berbayar
- Karena ini adalah alat kerja profesional dengan biaya $200 per bulan, dibutuhkan transparansi atas cara kerjanya dan kemampuan untuk mengaturnya
- Sulit diterima ketika fungsi inti berubah tanpa pemberitahuan, atau pengguna dimasukkan ke pengujian yang destruktif tanpa persetujuan
- Untuk mengendalikan (steer) alat AI secara bertanggung jawab, transparansi dan kemampuan konfigurasi adalah kunci, dan pengguna harus didukung agar bisa melakukannya
- Setiap hari para engineer mengeluhkan regresi di Claude Code, dan ada kasus ketika mereka bahkan tidak tahu apakah dirinya termasuk dalam A/B test
Isi pengujian dan buktinya
- Plan yang dihasilkan mulai kembali hanya sebagai daftar bullet singkat tanpa konteks
- Saat penulis bertanya kepada Claude mengapa ia menulis plan seburuk itu, Claude menjawab bahwa ia mengikuti instruksi sistem tertentu untuk membatasi plan sampai 40 baris, melarang bagian konteks, dan “hapus prosa, sisakan hanya path file”
- Terkait metode bukti yang spesifik, penulis mengatakan detailnya dihapus karena sedang mendapat perhatian di Hacker News dan agar orang lain tidak mencoba hal yang sama
- Disebutkan bahwa pendekatan semacam ini bertentangan dengan transparansi serta deployment/penggunaan AI yang bertanggung jawab
Reaksi Hacker News dan sudut pandang biaya
- Salah satu komentar di Hacker News menunjukkan bahwa Anthropic harus membuat pilihan terkait throughput pada setiap tahap Claude Code; jika semuanya diatur ke tingkat maksimum, kerugian per pengguna bisa lebih besar dan keuntungan lebih kecil
- Ada sudut pandang bahwa $200/bulan sebenarnya bisa berarti biaya $400/bulan, dan mencari baseline lewat A/B test pada tiap bagian proses mungkin merupakan pendekatan yang lebih baik daripada menetapkan batas secara sewenang-wenang
Tanggapan engineer Anthropic
- Engineer Claude Code yang menjalankan pengujian tersebut merespons langsung di thread Hacker News
- Prompt plan-mode tidak banyak berubah sejak model seri 3.x, dan model 4.x bisa bekerja dengan baik hanya dengan instruksi yang jauh lebih sedikit
- Hipotesisnya adalah bahwa dengan membuat plan lebih singkat, hasil serupa bisa dicapai sambil mengurangi frekuensi mencapai rate limit
- Beberapa varian dijalankan, dan penulis tersebut, bersama ribuan pengguna lain, ditempatkan pada varian paling agresif yang membatasi plan hingga 40 baris
- Karena hasil awal menunjukkan tidak ada dampak besar terhadap rate limit, eksperimen dihentikan
- Perencanaan (planning) memiliki dua tujuan: membantu model tetap berada di arah yang benar, dan membantu pengguna memiliki kepercayaan terhadap tindakan model berikutnya; keduanya merupakan area yang ambigu, kompleks, dan tidak sepele
Kesimpulan: tanggung jawab eksperimen alat AI dan kepercayaan pengguna
- Penulis menunjukkan melalui kasus Claude Code bahwa eksperimen pada alat AI dapat berdampak langsung pada pengalaman pengguna
- Ditekankan bahwa pengelolaan eksperimen yang transparan dan jaminan hak pilih pengguna sangat penting untuk menjaga kepercayaan pada alat profesional
- Bahkan jika perkembangan sistem AI terus berlanjut, perlu ditegaskan kembali bahwa struktur yang dapat dikendalikan manusia harus tetap dipertahankan
1 komentar
Komentar Hacker News
Menyebut A/B testing sebagai “eksperimen diam-diam terhadap pengguna” sambil membawa-bawa Meta terasa berlebihan
A/B testing itu sendiri bukan sesuatu yang jahat; yang penting adalah desain pengujiannya
Namun, eksperimen yang sampai menurunkan performa LLM secara serius jelas tidak bisa diterima
Masalah reproducibility dan reliability sudah sangat serius, tetapi perusahaan malah melemparkan bebannya ke pengguna
Jika perusahaan diam-diam bereksperimen dalam situasi seperti ini, kepercayaan terhadap riset akan runtuh total
Dalam kasus seperti Claude Code, bahkan jika ada hasil negatif akibat A/B testing, itu bisa diabaikan dengan alasan “mungkin saya masuk kelompok eksperimen”
Terutama jika eksperimen seperti ini dilakukan di area sensitif seperti perekrutan, masalah etika dan hukum akan menjadi sangat serius
Tiba-tiba UI atau fitur berubah, lalu ketika ditanyakan ke rekan kerja tidak ada yang tahu apa-apa
Biasanya perubahan seperti ini justru lebih buruk, tetapi tetap dipaksakan atas nama “data objektif”
Bahkan hal kecil seperti warna tombol tetaplah eksperimen, dan kebanyakan pengguna bahkan tidak diberi tahu bahwa mereka sedang diuji
Itu adalah pengujian yang saya lakukan sendiri
Saya bereksperimen apakah prompt plan-mode yang dipertahankan sejak seri 3.x bisa disederhanakan di model 4.x sambil tetap menghasilkan hasil serupa
Saya berasumsi bahwa rencana yang lebih pendek akan lebih jarang terkena rate-limit, tetapi karena tidak ada perbedaan besar, eksperimen dihentikan
Plan mode punya dua tujuan: membantu model menentukan arah, dan membantu pengguna memercayai hasilnya
Biaya bukan berasal dari teks plan, melainkan dari tahap eksplorasi (subagent)
Plan mode selalu menjalankan 3 agen eksplorasi dan tidak mempertimbangkan status sesi
Bahkan jika file sudah dimuat, file itu dibaca lagi sehingga terjadi pemborosan token
Saat sesi sudah hangat, logika bersyarat untuk melewati eksplorasi kemungkinan akan lebih efektif
Satu perilaku tak terduga saja bisa membuat saya lumpuh selama berhari-hari
Tidak mempertimbangkan dampak seperti ini itu tidak bertanggung jawab dan agresif
Sangat tidak nyaman karena perilaku aneh belakangan ini bisa jadi disebabkan eksperimen
Ini seharusnya bukan kanal beta, melainkan opt-in eksplisit
Secara pribadi, menurut saya yang lebih penting daripada jumlah baris adalah kejelasan naratif dari rencana
Kita butuh rencana yang membuat kita paham apa yang sedang dilakukan dan alasannya
LLM memang sempurna secara tata bahasa, tetapi mencampurkan halusinasi (hallucination) yang membingungkan pengguna
Meski begitu, tetap berguna untuk pekerjaan boilerplate atau menghubungkan ide dengan cepat
Namun untuk memakainya dengan benar, pengetahuan dasar itu wajib
Alasan tulisan itu berakhir mendadak adalah karena penulis menghapus bagian tentang dekompilasi biner Claude Code karena berpotensi melanggar ToS
Diskusi terkait bisa dilihat di komentar ini
Ada dua pemikiran
karena perbaikan berbasis data lewat A/B testing skala besar tidak dimungkinkan
Misalnya perubahan tak terduga seperti easter egg ‘after midnight’ di man-db bisa saja muncul
Dependensinya juga banyak, dan hampir tidak ada orang yang benar-benar mengaudit seluruh kodenya
Bisa juga berupa eksperimen monetisasi (enshittification) — YouTube adalah contoh utamanya
A/B testing itu sendiri tidak masalah, tetapi plan mode kurang bagus
Dalam kebanyakan kasus hasilnya buruk
Namun kemampuan mempertahankan informasi antar compaction cukup baik
Jika isi percakapan dicatat ke file Markdown dan dirujuk setiap kali compaction, hasilnya bisa jauh lebih baik
Plan mode jauh lebih efisien, jadi saya memakainya sebelum hampir semua pekerjaan
Keunggulannya adalah kita bisa meninjau dan mendiskusikan rencana sebelum model mengeksekusi sesuatu
Saat ini plan mode bagus karena saat selesai ia menginisialisasi ulang konteks sehingga rencana berikutnya bisa disusun dengan bersih
Sayang sekali detail dekompilasi di blog dihapus karena masalah ToS
Disebutkan bahwa Claude mengikuti instruksi sistem seperti “batasi rencana hingga 40 baris, larang section konteks, dan hapus prosa”
Akan bagus jika pengaturan seperti ini bisa dilihat dan diubah langsung
Tool profesional seharusnya memberikan reliability dan reproducibility, tetapi LLM tidak demikian
A/B testing hanyalah buktinya
Eksperimen seperti Photoshop yang sedikit mengubah rona warna, atau Word yang mengubah style judul, adalah masalah yang sama
A/B testing tanpa peringatan itulah masalahnya
Batas kuota dan kualitas modelnya tidak stabil, dan sebelum model baru dirilis ada masa ketika model lama justru rusak
Eksperimen kali ini juga terlihat lebih seperti eksperimen penghematan biaya daripada peningkatan pengalaman pengguna
Jika ini tool untuk bisnis, maka yang dibutuhkan adalah konsistensi dan keandalan
Seorang profesional harus memahami kelebihan dan kelemahan tool tersebut lalu memakainya dengan tepat
Menerima output LLM secara membabi buta itu tidak profesional, tetapi itu juga tidak berarti profesional tidak bisa memakai LLM
Dengan sistem evaluasi yang memadai dan kontrol prompt, perilakunya bisa dibuat cukup deterministik
Melihat model-model tidak stabil di sektor finansial tetap dioperasikan, ketidakpastian bukanlah hambatan mutlak
Saya tetap memverifikasi output model seperti melakukan code review rekan kerja
Situasi seperti ini sejak lama disebut vendor lock-in
Jika bergantung pada tool tertentu, ketika tool itu berubah atau hilang, kita jadi tidak bisa bekerja
Saya pindah dari CC ke opencode
CC terlalu tertutup dan prompt-nya terlalu opinionated, jadi terasa tidak nyaman
Saya juga tidak bisa mengontrol jalur pencarian web
Sekarang saya memilih open source karena hanya memakainya sebagai hobi, tetapi jika untuk pekerjaan, mungkin saya akan menilai berbeda
Saya cuma bisa memakainya untuk proyek kecil
Kalau ada setup yang bagus, saya harap bisa dibagikan