Jangan A/B Test Workflow Saya

(backnotprop.com)

4 poin oleh GN⁺ 2026-03-15 | 1 komentar | Bagikan ke WhatsApp

Claude Code menjalankan A/B test tanpa persetujuan pengguna, sehingga perilaku plan mode berubah tanpa pemberitahuan dan efisiensi kerja menurun
Pada alat profesional berbayar $200 per bulan, perubahan fungsi inti tanpa pemberitahuan sebelumnya menimbulkan masalah dari sisi transparansi dan kendali pengguna
Salah satu pengujian adalah varian agresif yang membatasi plan hingga 40 baris, melarang bagian konteks, dan menginstruksikan agar hanya menyisakan path file alih-alih prosa
Engineer Anthropic yang menjalankan pengujian tersebut mengatakan tujuannya adalah mengurangi beban rate-limit, tetapi eksperimen dihentikan karena hasil awal menunjukkan dampak yang kecil
Ditekankan bahwa untuk keandalan alat AI dan deployment yang bertanggung jawab, kendali pengguna dan pengelolaan eksperimen yang transparan adalah hal yang esensial

Penurunan pengalaman pengguna akibat A/B test di Claude Code

Sebagai pengguna antusias yang merasa Claude Code benar-benar mengubah cara kerjanya, penulis mengalami workflow yang memburuk selama sepekan terakhir
Anthropic sedang menjalankan A/B test di Claude Code, dan akibatnya workflow pengguna secara aktif mengalami penurunan
A/B test itu sendiri bukan hal yang salah, dan Anthropic juga tidak berniat sengaja menurunkan pengalaman, tetapi desain pengujian itu penting; masalahnya adalah perubahan pada perilaku yang dirasakan dari fungsi inti seperti plan mode tanpa penjelasan alasan

Tuntutan transparansi untuk alat berbayar

Karena ini adalah alat kerja profesional dengan biaya $200 per bulan, dibutuhkan transparansi atas cara kerjanya dan kemampuan untuk mengaturnya
Sulit diterima ketika fungsi inti berubah tanpa pemberitahuan, atau pengguna dimasukkan ke pengujian yang destruktif tanpa persetujuan
Untuk mengendalikan (steer) alat AI secara bertanggung jawab, transparansi dan kemampuan konfigurasi adalah kunci, dan pengguna harus didukung agar bisa melakukannya
Setiap hari para engineer mengeluhkan regresi di Claude Code, dan ada kasus ketika mereka bahkan tidak tahu apakah dirinya termasuk dalam A/B test

Isi pengujian dan buktinya

Plan yang dihasilkan mulai kembali hanya sebagai daftar bullet singkat tanpa konteks
Saat penulis bertanya kepada Claude mengapa ia menulis plan seburuk itu, Claude menjawab bahwa ia mengikuti instruksi sistem tertentu untuk membatasi plan sampai 40 baris, melarang bagian konteks, dan “hapus prosa, sisakan hanya path file”
Terkait metode bukti yang spesifik, penulis mengatakan detailnya dihapus karena sedang mendapat perhatian di Hacker News dan agar orang lain tidak mencoba hal yang sama
Disebutkan bahwa pendekatan semacam ini bertentangan dengan transparansi serta deployment/penggunaan AI yang bertanggung jawab

Reaksi Hacker News dan sudut pandang biaya

Salah satu komentar di Hacker News menunjukkan bahwa Anthropic harus membuat pilihan terkait throughput pada setiap tahap Claude Code; jika semuanya diatur ke tingkat maksimum, kerugian per pengguna bisa lebih besar dan keuntungan lebih kecil
Ada sudut pandang bahwa $200/bulan sebenarnya bisa berarti biaya $400/bulan, dan mencari baseline lewat A/B test pada tiap bagian proses mungkin merupakan pendekatan yang lebih baik daripada menetapkan batas secara sewenang-wenang

Tanggapan engineer Anthropic

Engineer Claude Code yang menjalankan pengujian tersebut merespons langsung di thread Hacker News
Prompt plan-mode tidak banyak berubah sejak model seri 3.x, dan model 4.x bisa bekerja dengan baik hanya dengan instruksi yang jauh lebih sedikit
Hipotesisnya adalah bahwa dengan membuat plan lebih singkat, hasil serupa bisa dicapai sambil mengurangi frekuensi mencapai rate limit
Beberapa varian dijalankan, dan penulis tersebut, bersama ribuan pengguna lain, ditempatkan pada varian paling agresif yang membatasi plan hingga 40 baris
Karena hasil awal menunjukkan tidak ada dampak besar terhadap rate limit, eksperimen dihentikan
Perencanaan (planning) memiliki dua tujuan: membantu model tetap berada di arah yang benar, dan membantu pengguna memiliki kepercayaan terhadap tindakan model berikutnya; keduanya merupakan area yang ambigu, kompleks, dan tidak sepele

Kesimpulan: tanggung jawab eksperimen alat AI dan kepercayaan pengguna

Penulis menunjukkan melalui kasus Claude Code bahwa eksperimen pada alat AI dapat berdampak langsung pada pengalaman pengguna
Ditekankan bahwa pengelolaan eksperimen yang transparan dan jaminan hak pilih pengguna sangat penting untuk menjaga kepercayaan pada alat profesional
Bahkan jika perkembangan sistem AI terus berlanjut, perlu ditegaskan kembali bahwa struktur yang dapat dikendalikan manusia harus tetap dipertahankan

1 komentar

GN⁺ 2026-03-15

Komentar Hacker News

Menyebut A/B testing sebagai “eksperimen diam-diam terhadap pengguna” sambil membawa-bawa Meta terasa berlebihan
A/B testing itu sendiri bukan sesuatu yang jahat; yang penting adalah desain pengujiannya
Namun, eksperimen yang sampai menurunkan performa LLM secara serius jelas tidak bisa diterima
- Untuk LLM, menurut saya ini harus dilihat berbeda
  Masalah reproducibility dan reliability sudah sangat serius, tetapi perusahaan malah melemparkan bebannya ke pengguna
  Jika perusahaan diam-diam bereksperimen dalam situasi seperti ini, kepercayaan terhadap riset akan runtuh total
  Dalam kasus seperti Claude Code, bahkan jika ada hasil negatif akibat A/B testing, itu bisa diabaikan dengan alasan “mungkin saya masuk kelompok eksperimen”
  Terutama jika eksperimen seperti ini dilakukan di area sensitif seperti perekrutan, masalah etika dan hukum akan menjadi sangat serius
- Saya rasa perusahaan teknologi masih belum benar-benar memahami konsep ‘persetujuan eksplisit’
- Saya benci A/B testing
  Tiba-tiba UI atau fitur berubah, lalu ketika ditanyakan ke rekan kerja tidak ada yang tahu apa-apa
  Biasanya perubahan seperti ini justru lebih buruk, tetapi tetap dipaksakan atas nama “data objektif”
- Saya tidak paham kenapa A/B testing dianggap bukan “eksperimen diam-diam terhadap pengguna”
  Bahkan hal kecil seperti warna tombol tetaplah eksperimen, dan kebanyakan pengguna bahkan tidak diberi tahu bahwa mereka sedang diuji
- Penulis posting asli setuju dan mengatakan akan memperbaiki pilihannya kata-katanya
Itu adalah pengujian yang saya lakukan sendiri
Saya bereksperimen apakah prompt plan-mode yang dipertahankan sejak seri 3.x bisa disederhanakan di model 4.x sambil tetap menghasilkan hasil serupa
Saya berasumsi bahwa rencana yang lebih pendek akan lebih jarang terkena rate-limit, tetapi karena tidak ada perbedaan besar, eksperimen dihentikan
Plan mode punya dua tujuan: membantu model menentukan arah, dan membantu pengguna memercayai hasilnya
- Batas 40 baris tidak memengaruhi rate-limit itu wajar
  Biaya bukan berasal dari teks plan, melainkan dari tahap eksplorasi (subagent)
  Plan mode selalu menjalankan 3 agen eksplorasi dan tidak mempertimbangkan status sesi
  Bahkan jika file sudah dimuat, file itu dibaca lagi sehingga terjadi pemborosan token
  Saat sesi sudah hangat, logika bersyarat untuk melewati eksplorasi kemungkinan akan lebih efektif
- Sebagai divergent thinker, saya sudah menghabiskan ratusan jam menyiapkan constraint di claude.mds, jadi sangat mengejutkan ketika saya dimasukkan secara acak ke eksperimen seperti ini
  Satu perilaku tak terduga saja bisa membuat saya lumpuh selama berhari-hari
  Tidak mempertimbangkan dampak seperti ini itu tidak bertanggung jawab dan agresif
- Bukankah token yang dipakai untuk pengujian seperti ini seharusnya dikembalikan?
- Eksperimen seperti ini perlu punya opsi opt-out
  Sangat tidak nyaman karena perilaku aneh belakangan ini bisa jadi disebabkan eksperimen
  Ini seharusnya bukan kanal beta, melainkan opt-in eksplisit
- Terima kasih atas transparansinya
  Secara pribadi, menurut saya yang lebih penting daripada jumlah baris adalah kejelasan naratif dari rencana
  Kita butuh rencana yang membuat kita paham apa yang sedang dilakukan dan alasannya
LLM memang sempurna secara tata bahasa, tetapi mencampurkan halusinasi (hallucination) yang membingungkan pengguna
Meski begitu, tetap berguna untuk pekerjaan boilerplate atau menghubungkan ide dengan cepat
Namun untuk memakainya dengan benar, pengetahuan dasar itu wajib
- Kunci menggunakan LLM dengan baik adalah kemampuan membedakan output yang berguna dan sampah AI
- Ada juga pendapat bahwa jangan meremehkan kecepatan perkembangan LLM
- Pada akhirnya, ada juga pandangan bahwa orang yang terampil akan bertahan, dan yang tidak akan tergantikan
Alasan tulisan itu berakhir mendadak adalah karena penulis menghapus bagian tentang dekompilasi biner Claude Code karena berpotensi melanggar ToS
Diskusi terkait bisa dilihat di komentar ini
Ada dua pemikiran
1. Tool open source menyelesaikan masalah eksperimen tidak sukarela atau perubahan tanpa pemberitahuan
2. Namun justru karena alasan itu, open source mungkin sulit mencapai kualitas setara Claude Code
  karena perbaikan berbasis data lewat A/B testing skala besar tidak dimungkinkan
- Bahkan open source pun tidak selalu reproducible
  Misalnya perubahan tak terduga seperti easter egg ‘after midnight’ di man-db bisa saja muncul
  Dependensinya juga banyak, dan hampir tidak ada orang yang benar-benar mengaudit seluruh kodenya
- Ada juga candaan, “ayo kita A/B test kernel Linux”
- A/B testing tidak selalu dilakukan demi perbaikan untuk pengguna
  Bisa juga berupa eksperimen monetisasi (enshittification) — YouTube adalah contoh utamanya
A/B testing itu sendiri tidak masalah, tetapi plan mode kurang bagus
Dalam kebanyakan kasus hasilnya buruk
Namun kemampuan mempertahankan informasi antar compaction cukup baik
Jika isi percakapan dicatat ke file Markdown dan dirujuk setiap kali compaction, hasilnya bisa jauh lebih baik
- Pengalaman saya justru kebalikannya
  Plan mode jauh lebih efisien, jadi saya memakainya sebelum hampir semua pekerjaan
  Keunggulannya adalah kita bisa meninjau dan mendiskusikan rencana sebelum model mengeksekusi sesuatu
- Saya pernah beberapa kali kena batas compaction, dan sejak itu berusaha menghindarinya
  Saat ini plan mode bagus karena saat selesai ia menginisialisasi ulang konteks sehingga rencana berikutnya bisa disusun dengan bersih
Sayang sekali detail dekompilasi di blog dihapus karena masalah ToS
Disebutkan bahwa Claude mengikuti instruksi sistem seperti “batasi rencana hingga 40 baris, larang section konteks, dan hapus prosa”
Akan bagus jika pengaturan seperti ini bisa dilihat dan diubah langsung
Tool profesional seharusnya memberikan reliability dan reproducibility, tetapi LLM tidak demikian
A/B testing hanyalah buktinya
- Inti masalahnya bukan LLM, melainkan aplikasi yang diam-diam mengubah perilaku
  Eksperimen seperti Photoshop yang sedikit mengubah rona warna, atau Word yang mengubah style judul, adalah masalah yang sama
  A/B testing tanpa peringatan itulah masalahnya
- Anthropic punya masalah serius dalam kurangnya transparansi
  Batas kuota dan kualitas modelnya tidak stabil, dan sebelum model baru dirilis ada masa ketika model lama justru rusak
  Eksperimen kali ini juga terlihat lebih seperti eksperimen penghematan biaya daripada peningkatan pengalaman pengguna
  Jika ini tool untuk bisnis, maka yang dibutuhkan adalah konsistensi dan keandalan
- Tool yang diperbarui otomatis pada dasarnya memang berubah perilakunya
  Seorang profesional harus memahami kelebihan dan kelemahan tool tersebut lalu memakainya dengan tepat
  Menerima output LLM secara membabi buta itu tidak profesional, tetapi itu juga tidak berarti profesional tidak bisa memakai LLM
- Reproducibility adalah spektrum
  Dengan sistem evaluasi yang memadai dan kontrol prompt, perilakunya bisa dibuat cukup deterministik
  Melihat model-model tidak stabil di sektor finansial tetap dioperasikan, ketidakpastian bukanlah hambatan mutlak
- Jika output LLM benar-benar deterministik, apa yang akan saya lakukan secara berbeda?
  Saya tetap memverifikasi output model seperti melakukan code review rekan kerja
Situasi seperti ini sejak lama disebut vendor lock-in
Jika bergantung pada tool tertentu, ketika tool itu berubah atau hilang, kita jadi tidak bisa bekerja
Saya pindah dari CC ke opencode
CC terlalu tertutup dan prompt-nya terlalu opinionated, jadi terasa tidak nyaman
Saya juga tidak bisa mengontrol jalur pencarian web
Sekarang saya memilih open source karena hanya memakainya sebagai hobi, tetapi jika untuk pekerjaan, mungkin saya akan menilai berbeda
- Saya juga sudah mencoba opencode, tetapi versi default-nya jauh lebih lemah daripada CC
  Saya cuma bisa memakainya untuk proyek kecil
  Kalau ada setup yang bagus, saya harap bisa dibagikan

Jangan A/B Test Workflow Saya

Penurunan pengalaman pengguna akibat A/B test di Claude Code

Tuntutan transparansi untuk alat berbayar

Isi pengujian dan buktinya

Reaksi Hacker News dan sudut pandang biaya

Tanggapan engineer Anthropic

Kesimpulan: tanggung jawab eksperimen alat AI dan kepercayaan pengguna

Bacaan terkait

1 komentar

Komentar Hacker News