4 poin oleh GN⁺ 2026-03-15 | 1 komentar | Bagikan ke WhatsApp
  • Claude Code menjalankan A/B test tanpa persetujuan pengguna, sehingga perilaku plan mode berubah tanpa pemberitahuan dan efisiensi kerja menurun
  • Pada alat profesional berbayar $200 per bulan, perubahan fungsi inti tanpa pemberitahuan sebelumnya menimbulkan masalah dari sisi transparansi dan kendali pengguna
  • Salah satu pengujian adalah varian agresif yang membatasi plan hingga 40 baris, melarang bagian konteks, dan menginstruksikan agar hanya menyisakan path file alih-alih prosa
  • Engineer Anthropic yang menjalankan pengujian tersebut mengatakan tujuannya adalah mengurangi beban rate-limit, tetapi eksperimen dihentikan karena hasil awal menunjukkan dampak yang kecil
  • Ditekankan bahwa untuk keandalan alat AI dan deployment yang bertanggung jawab, kendali pengguna dan pengelolaan eksperimen yang transparan adalah hal yang esensial

Penurunan pengalaman pengguna akibat A/B test di Claude Code

  • Sebagai pengguna antusias yang merasa Claude Code benar-benar mengubah cara kerjanya, penulis mengalami workflow yang memburuk selama sepekan terakhir
  • Anthropic sedang menjalankan A/B test di Claude Code, dan akibatnya workflow pengguna secara aktif mengalami penurunan
  • A/B test itu sendiri bukan hal yang salah, dan Anthropic juga tidak berniat sengaja menurunkan pengalaman, tetapi desain pengujian itu penting; masalahnya adalah perubahan pada perilaku yang dirasakan dari fungsi inti seperti plan mode tanpa penjelasan alasan

Tuntutan transparansi untuk alat berbayar

  • Karena ini adalah alat kerja profesional dengan biaya $200 per bulan, dibutuhkan transparansi atas cara kerjanya dan kemampuan untuk mengaturnya
  • Sulit diterima ketika fungsi inti berubah tanpa pemberitahuan, atau pengguna dimasukkan ke pengujian yang destruktif tanpa persetujuan
  • Untuk mengendalikan (steer) alat AI secara bertanggung jawab, transparansi dan kemampuan konfigurasi adalah kunci, dan pengguna harus didukung agar bisa melakukannya
  • Setiap hari para engineer mengeluhkan regresi di Claude Code, dan ada kasus ketika mereka bahkan tidak tahu apakah dirinya termasuk dalam A/B test

Isi pengujian dan buktinya

  • Plan yang dihasilkan mulai kembali hanya sebagai daftar bullet singkat tanpa konteks
  • Saat penulis bertanya kepada Claude mengapa ia menulis plan seburuk itu, Claude menjawab bahwa ia mengikuti instruksi sistem tertentu untuk membatasi plan sampai 40 baris, melarang bagian konteks, dan “hapus prosa, sisakan hanya path file”
  • Terkait metode bukti yang spesifik, penulis mengatakan detailnya dihapus karena sedang mendapat perhatian di Hacker News dan agar orang lain tidak mencoba hal yang sama
  • Disebutkan bahwa pendekatan semacam ini bertentangan dengan transparansi serta deployment/penggunaan AI yang bertanggung jawab

Reaksi Hacker News dan sudut pandang biaya

  • Salah satu komentar di Hacker News menunjukkan bahwa Anthropic harus membuat pilihan terkait throughput pada setiap tahap Claude Code; jika semuanya diatur ke tingkat maksimum, kerugian per pengguna bisa lebih besar dan keuntungan lebih kecil
  • Ada sudut pandang bahwa $200/bulan sebenarnya bisa berarti biaya $400/bulan, dan mencari baseline lewat A/B test pada tiap bagian proses mungkin merupakan pendekatan yang lebih baik daripada menetapkan batas secara sewenang-wenang

Tanggapan engineer Anthropic

  • Engineer Claude Code yang menjalankan pengujian tersebut merespons langsung di thread Hacker News
  • Prompt plan-mode tidak banyak berubah sejak model seri 3.x, dan model 4.x bisa bekerja dengan baik hanya dengan instruksi yang jauh lebih sedikit
  • Hipotesisnya adalah bahwa dengan membuat plan lebih singkat, hasil serupa bisa dicapai sambil mengurangi frekuensi mencapai rate limit
  • Beberapa varian dijalankan, dan penulis tersebut, bersama ribuan pengguna lain, ditempatkan pada varian paling agresif yang membatasi plan hingga 40 baris
  • Karena hasil awal menunjukkan tidak ada dampak besar terhadap rate limit, eksperimen dihentikan
  • Perencanaan (planning) memiliki dua tujuan: membantu model tetap berada di arah yang benar, dan membantu pengguna memiliki kepercayaan terhadap tindakan model berikutnya; keduanya merupakan area yang ambigu, kompleks, dan tidak sepele

Kesimpulan: tanggung jawab eksperimen alat AI dan kepercayaan pengguna

  • Penulis menunjukkan melalui kasus Claude Code bahwa eksperimen pada alat AI dapat berdampak langsung pada pengalaman pengguna
  • Ditekankan bahwa pengelolaan eksperimen yang transparan dan jaminan hak pilih pengguna sangat penting untuk menjaga kepercayaan pada alat profesional
  • Bahkan jika perkembangan sistem AI terus berlanjut, perlu ditegaskan kembali bahwa struktur yang dapat dikendalikan manusia harus tetap dipertahankan

1 komentar

 
GN⁺ 2026-03-15
Komentar Hacker News
  • Menyebut A/B testing sebagai “eksperimen diam-diam terhadap pengguna” sambil membawa-bawa Meta terasa berlebihan
    A/B testing itu sendiri bukan sesuatu yang jahat; yang penting adalah desain pengujiannya
    Namun, eksperimen yang sampai menurunkan performa LLM secara serius jelas tidak bisa diterima

    • Untuk LLM, menurut saya ini harus dilihat berbeda
      Masalah reproducibility dan reliability sudah sangat serius, tetapi perusahaan malah melemparkan bebannya ke pengguna
      Jika perusahaan diam-diam bereksperimen dalam situasi seperti ini, kepercayaan terhadap riset akan runtuh total
      Dalam kasus seperti Claude Code, bahkan jika ada hasil negatif akibat A/B testing, itu bisa diabaikan dengan alasan “mungkin saya masuk kelompok eksperimen”
      Terutama jika eksperimen seperti ini dilakukan di area sensitif seperti perekrutan, masalah etika dan hukum akan menjadi sangat serius
    • Saya rasa perusahaan teknologi masih belum benar-benar memahami konsep ‘persetujuan eksplisit’
    • Saya benci A/B testing
      Tiba-tiba UI atau fitur berubah, lalu ketika ditanyakan ke rekan kerja tidak ada yang tahu apa-apa
      Biasanya perubahan seperti ini justru lebih buruk, tetapi tetap dipaksakan atas nama “data objektif”
    • Saya tidak paham kenapa A/B testing dianggap bukan “eksperimen diam-diam terhadap pengguna”
      Bahkan hal kecil seperti warna tombol tetaplah eksperimen, dan kebanyakan pengguna bahkan tidak diberi tahu bahwa mereka sedang diuji
    • Penulis posting asli setuju dan mengatakan akan memperbaiki pilihannya kata-katanya
  • Itu adalah pengujian yang saya lakukan sendiri
    Saya bereksperimen apakah prompt plan-mode yang dipertahankan sejak seri 3.x bisa disederhanakan di model 4.x sambil tetap menghasilkan hasil serupa
    Saya berasumsi bahwa rencana yang lebih pendek akan lebih jarang terkena rate-limit, tetapi karena tidak ada perbedaan besar, eksperimen dihentikan
    Plan mode punya dua tujuan: membantu model menentukan arah, dan membantu pengguna memercayai hasilnya

    • Batas 40 baris tidak memengaruhi rate-limit itu wajar
      Biaya bukan berasal dari teks plan, melainkan dari tahap eksplorasi (subagent)
      Plan mode selalu menjalankan 3 agen eksplorasi dan tidak mempertimbangkan status sesi
      Bahkan jika file sudah dimuat, file itu dibaca lagi sehingga terjadi pemborosan token
      Saat sesi sudah hangat, logika bersyarat untuk melewati eksplorasi kemungkinan akan lebih efektif
    • Sebagai divergent thinker, saya sudah menghabiskan ratusan jam menyiapkan constraint di claude.mds, jadi sangat mengejutkan ketika saya dimasukkan secara acak ke eksperimen seperti ini
      Satu perilaku tak terduga saja bisa membuat saya lumpuh selama berhari-hari
      Tidak mempertimbangkan dampak seperti ini itu tidak bertanggung jawab dan agresif
    • Bukankah token yang dipakai untuk pengujian seperti ini seharusnya dikembalikan?
    • Eksperimen seperti ini perlu punya opsi opt-out
      Sangat tidak nyaman karena perilaku aneh belakangan ini bisa jadi disebabkan eksperimen
      Ini seharusnya bukan kanal beta, melainkan opt-in eksplisit
    • Terima kasih atas transparansinya
      Secara pribadi, menurut saya yang lebih penting daripada jumlah baris adalah kejelasan naratif dari rencana
      Kita butuh rencana yang membuat kita paham apa yang sedang dilakukan dan alasannya
  • LLM memang sempurna secara tata bahasa, tetapi mencampurkan halusinasi (hallucination) yang membingungkan pengguna
    Meski begitu, tetap berguna untuk pekerjaan boilerplate atau menghubungkan ide dengan cepat
    Namun untuk memakainya dengan benar, pengetahuan dasar itu wajib

    • Kunci menggunakan LLM dengan baik adalah kemampuan membedakan output yang berguna dan sampah AI
    • Ada juga pendapat bahwa jangan meremehkan kecepatan perkembangan LLM
    • Pada akhirnya, ada juga pandangan bahwa orang yang terampil akan bertahan, dan yang tidak akan tergantikan
  • Alasan tulisan itu berakhir mendadak adalah karena penulis menghapus bagian tentang dekompilasi biner Claude Code karena berpotensi melanggar ToS
    Diskusi terkait bisa dilihat di komentar ini

  • Ada dua pemikiran

    1. Tool open source menyelesaikan masalah eksperimen tidak sukarela atau perubahan tanpa pemberitahuan
    2. Namun justru karena alasan itu, open source mungkin sulit mencapai kualitas setara Claude Code
      karena perbaikan berbasis data lewat A/B testing skala besar tidak dimungkinkan
    • Bahkan open source pun tidak selalu reproducible
      Misalnya perubahan tak terduga seperti easter egg ‘after midnight’ di man-db bisa saja muncul
      Dependensinya juga banyak, dan hampir tidak ada orang yang benar-benar mengaudit seluruh kodenya
    • Ada juga candaan, “ayo kita A/B test kernel Linux”
    • A/B testing tidak selalu dilakukan demi perbaikan untuk pengguna
      Bisa juga berupa eksperimen monetisasi (enshittification) — YouTube adalah contoh utamanya
  • A/B testing itu sendiri tidak masalah, tetapi plan mode kurang bagus
    Dalam kebanyakan kasus hasilnya buruk
    Namun kemampuan mempertahankan informasi antar compaction cukup baik
    Jika isi percakapan dicatat ke file Markdown dan dirujuk setiap kali compaction, hasilnya bisa jauh lebih baik

    • Pengalaman saya justru kebalikannya
      Plan mode jauh lebih efisien, jadi saya memakainya sebelum hampir semua pekerjaan
      Keunggulannya adalah kita bisa meninjau dan mendiskusikan rencana sebelum model mengeksekusi sesuatu
    • Saya pernah beberapa kali kena batas compaction, dan sejak itu berusaha menghindarinya
      Saat ini plan mode bagus karena saat selesai ia menginisialisasi ulang konteks sehingga rencana berikutnya bisa disusun dengan bersih
  • Sayang sekali detail dekompilasi di blog dihapus karena masalah ToS
    Disebutkan bahwa Claude mengikuti instruksi sistem seperti “batasi rencana hingga 40 baris, larang section konteks, dan hapus prosa”
    Akan bagus jika pengaturan seperti ini bisa dilihat dan diubah langsung

  • Tool profesional seharusnya memberikan reliability dan reproducibility, tetapi LLM tidak demikian
    A/B testing hanyalah buktinya

    • Inti masalahnya bukan LLM, melainkan aplikasi yang diam-diam mengubah perilaku
      Eksperimen seperti Photoshop yang sedikit mengubah rona warna, atau Word yang mengubah style judul, adalah masalah yang sama
      A/B testing tanpa peringatan itulah masalahnya
    • Anthropic punya masalah serius dalam kurangnya transparansi
      Batas kuota dan kualitas modelnya tidak stabil, dan sebelum model baru dirilis ada masa ketika model lama justru rusak
      Eksperimen kali ini juga terlihat lebih seperti eksperimen penghematan biaya daripada peningkatan pengalaman pengguna
      Jika ini tool untuk bisnis, maka yang dibutuhkan adalah konsistensi dan keandalan
    • Tool yang diperbarui otomatis pada dasarnya memang berubah perilakunya
      Seorang profesional harus memahami kelebihan dan kelemahan tool tersebut lalu memakainya dengan tepat
      Menerima output LLM secara membabi buta itu tidak profesional, tetapi itu juga tidak berarti profesional tidak bisa memakai LLM
    • Reproducibility adalah spektrum
      Dengan sistem evaluasi yang memadai dan kontrol prompt, perilakunya bisa dibuat cukup deterministik
      Melihat model-model tidak stabil di sektor finansial tetap dioperasikan, ketidakpastian bukanlah hambatan mutlak
    • Jika output LLM benar-benar deterministik, apa yang akan saya lakukan secara berbeda?
      Saya tetap memverifikasi output model seperti melakukan code review rekan kerja
  • Situasi seperti ini sejak lama disebut vendor lock-in
    Jika bergantung pada tool tertentu, ketika tool itu berubah atau hilang, kita jadi tidak bisa bekerja

  • Saya pindah dari CC ke opencode
    CC terlalu tertutup dan prompt-nya terlalu opinionated, jadi terasa tidak nyaman
    Saya juga tidak bisa mengontrol jalur pencarian web
    Sekarang saya memilih open source karena hanya memakainya sebagai hobi, tetapi jika untuk pekerjaan, mungkin saya akan menilai berbeda

    • Saya juga sudah mencoba opencode, tetapi versi default-nya jauh lebih lemah daripada CC
      Saya cuma bisa memakainya untuk proyek kecil
      Kalau ada setup yang bagus, saya harap bisa dibagikan