Claude Code mengalami penurunan kualitas hingga nyaris tak layak dipakai untuk tugas engineering kompleks setelah pembaruan Februari

(github.com/anthropics)

34 poin oleh GN⁺ 2026-04-07 | 5 komentar | Bagikan ke WhatsApp

Setelah pembaruan Februari, Claude Code dilaporkan sering mengabaikan instruksi atau justru melakukan kebalikannya, atau mengklaim pekerjaan sudah selesai padahal belum, sehingga banyak terjadi kegagalan pada tugas engineering yang kompleks
Sebagai penyebab utama penurunan ini, diperkirakan bahwa setelah penerapan redact-thinking-2026-02-12, token Extended Thinking dikurangi dan kedalaman penalaran turun hingga 73% dibanding baseline
Setelah itu, pola perilaku model berubah dari "riset lalu edit (Read-First)" menjadi "langsung edit (Edit-First)", dengan frekuensi pembacaan per file turun 70% dari 6,6 kali menjadi 2,0 kali
Peningkatan 68% pada ekspresi negatif dalam prompt pengguna dan penurunan 58% pada frekuensi commit kode menunjukkan bahwa penurunan kualitas juga terkonfirmasi secara angka dalam workflow nyata pengguna dan data emosional
Anthropic diminta untuk membuka transparansi penggunaan token penalaran, menambahkan tier "Max Thinking" untuk pengguna beban tinggi, dan menyertakan metrik thinking_tokens dalam respons API

Ringkasan laporan dan sumber data

Target analisis: 6.852 file JSONL sesi Claude Code yang dikumpulkan dari 4 proyek (iree-loom, iree-amdgpu, iree-remoting, bureau)
Cakupan analisis: 17.871 thinking block, 234.760 pemanggilan tool, lebih dari 18.000 prompt pengguna
Periode analisis: 30 Januari 2026 ~ 1 April 2026
Laporan ini ditulis dengan Claude Opus 4.6 yang menganalisis log sesinya sendiri secara langsung

1. Korelasi antara timeline penyembunyian Thinking dan penurunan kualitas

Jadwal penerapan redact-thinking-2026-02-12 tepat bertepatan dengan waktu terjadinya penurunan kualitas

Periode	Thinking terbuka	Thinking disembunyikan
30 Jan ~ 4 Mar	100%	0%
5 Mar	98,5%	1,5%
7 Mar	75,3%	24,7%
8 Mar	41,6%	58,4%
10~11 Mar	<1%	>99%
12 Mar~	0%	100%

Penurunan kualitas dilaporkan secara independen oleh komunitas pada 8 Maret, tepat sama dengan tanggal ketika rasio penyembunyian melampaui 50%
Pola penerapan bertahap (1,5% → 25% → 58% → 100%) konsisten dengan rollout gradual

2. Penurunan lebih awal pada kedalaman Thinking

Panjang field signature pada thinking block menunjukkan koefisien korelasi Pearson 0,971 dengan panjang isi thinking (berdasarkan 7.146 sampel)
Dengan ini, kedalaman thinking tetap bisa diperkirakan bahkan setelah disembunyikan

Periode	Median estimasi thinking (chars)	Dibanding baseline
30 Jan ~ 8 Feb (baseline)	~2.200	—
Akhir Feb	~720	-67%
1~5 Mar	~560	-75%
12 Mar~ (sepenuhnya disembunyikan)	~600	-73%

Kedalaman penalaran sudah turun 67% pada akhir Februari, sebelum penyembunyian dimulai, dan setelah itu tidak lagi bisa diverifikasi dari luar karena proses penyembunyian

3. Metrik untuk mengukur perubahan perilaku

Hasil perbandingan sebelum dan sesudah 8 Maret berdasarkan lebih dari 18.000 prompt pengguna:

Metrik	Sebelum 8 Mar	Setelah 8 Mar	Perubahan
Pelanggaran stop hook (indikasi kemalasan)	0	173 kasus	0 → 10 per hari
Ekspresi keluhan dalam prompt pengguna	5,8%	9,8%	+68%
Jumlah koreksi yang dibutuhkan untuk memperbaiki pengalihan tanggung jawab	6	13	+117%
Jumlah prompt per sesi	35,9	27,9	-22%
Sesi yang mengalami reasoning loop (5 kali atau lebih)	0	7	0 → 7

Melalui skrip stop-phrase-guard.sh, ekspresi seperti "sepertinya kita bisa berhenti di sini", "apakah saya lanjut?", dan "ini isu yang sudah ada" dideteksi otomatis lalu eksekusi dipaksa untuk terus berjalan
Hook ini tidak pernah terpicu satu kali pun sebelum 8 Maret, tetapi setelah itu terpicu 173 kali dalam 17 hari

4. Perubahan pola penggunaan tool: riset dulu → edit dulu

Perubahan rasio Read:Edit

Periode	Read:Edit	Research:Mutation	% baca	% edit
Periode baik (30/1 ~ 12/2)	6,6	8,7	46,5%	7,1%
Masa transisi (13/2 ~ 7/3)	2,8	4,1	37,7%	13,2%
Masa penurunan (8/3 ~ 23/3)	2,0	2,8	31,0%	15,4%

Jumlah pembacaan per edit turun 70% dari 6,6 menjadi 2,0 — pada periode baik, model membaca file target, file terkait, grep seluruh codebase, header, dan test sebelum melakukan edit presisi, tetapi pada masa penurunan berubah menjadi langsung mengedit
Dalam tren mingguan, penurunan aktivitas riset sudah dimulai sejak pertengahan Februari, bertepatan dengan saat kedalaman thinking turun 67%

Peningkatan overwrite seluruh file (Write)

Periode	Rasio Write seluruh file
Periode baik	4,9%
Masa penurunan	10,0%
Fase akhir (24/3 ~ 1/4)	11,1%

Penggunaan Write untuk seluruh file meningkat lebih dari dua kali lipat — berubah dari edit presisi menjadi penulisan ulang seluruh file, sehingga lebih cepat tetapi presisi dan pemahaman konteks menurun

5. Mengapa Extended Thinking penting

Karakteristik workflow yang terdampak:
- Menjalankan system programming seperti C, MLIR, dan driver GPU dengan lebih dari 50 sesi agen simultan
- Eksekusi otonom lebih dari 30 menit, dengan penerapan konvensi proyek CLAUDE.md sepanjang lebih dari 5.000 kata
- Pada periode baik, 191.000 baris kode digabungkan ke 2 PR selama akhir pekan
Peran yang dijalankan Extended Thinking:
- Menyusun rencana multi-langkah sebelum bertindak (file mana yang dibaca dan dalam urutan apa)
- Mengingat dan menerapkan konvensi spesifik proyek dari CLAUDE.md
- Memverifikasi sendiri kesalahan sebelum output
- Menentukan apakah sesi perlu dilanjutkan
- Menjaga penalaran yang konsisten di ratusan pemanggilan tool
Ketika thinking menjadi dangkal, gejala seperti mengedit tanpa membaca, berhenti sebelum selesai, mengalihkan tanggung jawab atas kegagalan, dan memilih perbaikan termudah alih-alih solusi yang benar muncul kembali dengan sangat jelas

6. Permintaan kepada Anthropic

Transparansi alokasi thinking: karena header redact-thinking membuat pengurangan token penalaran tidak bisa diverifikasi dari luar, hal ini harus diungkapkan kepada pengguna
Tier "Max Thinking": pengguna workflow engineering yang kompleks membutuhkan 20.000 token thinking per respons, bukan 200, dan model langganan saat ini tidak membedakan kebutuhan tersebut
Sertakan metrik thinking_tokens dalam respons API: meskipun isi disembunyikan, jika nilai thinking_tokens disertakan dalam respons usage, pengguna tetap dapat memantau kedalaman penalaran
Gunakan metrik canary dari power user: rasio pelanggaran stop hook (0 → 10 per hari) dapat dipantau di seluruh pengguna sebagai sinyal peringatan dini penurunan kualitas

Lampiran A: katalog perilaku dari Thinking yang berkurang

A.1 Mengedit tanpa membaca

Periode	Edit tanpa pembacaan sebelumnya	% dari total edit
Periode baik	72	6,2%
Masa transisi	3.476	24,2%
Masa penurunan	5.028	33,7%

Pada masa penurunan, 1/3 dari edit dilakukan pada file yang tidak dibaca dalam riwayat tool terbaru
Gejala khas: komentar yang tersisip (spliced comments), yaitu penyisipan deklarasi baru di antara komentar dokumentasi dan fungsi — kesalahan yang tidak akan terjadi jika file benar-benar dibaca

A.2 Reasoning loop

Periode	Jumlah reasoning loop per 1K pemanggilan tool
Periode baik	8,2
Masa transisi	15,9
Masa penurunan	21,0
Fase akhir	26,6

Ekspresi koreksi diri seperti "oh wait", "actually," , "hmm, actually", "no wait" meningkat lebih dari 3 kali lipat
Pada sesi terburuk, pembalikan penalaran terjadi lebih dari 20 kali dalam satu respons, sehingga output menjadi tidak dapat dipercaya

A.3 Pola pikir "perbaikan paling sederhana"

Periode	Frekuensi kemunculan "simplest" per 1K pemanggilan tool
Periode baik	2.7
Periode penurunan	4.7
Fase akhir	6.3

Dalam sesi observasi 2 jam, model menggunakan "simplest" 6 kali sambil menghindari perbaikan code generator, implementasi propagasi error yang semestinya, dan penulisan logika prefault yang sebenarnya, lalu memilih jalan pintas yang dangkal
Setelah itu, model sendiri menilai output tersebut sebagai "lazy and wrong", "rushed", dan "sloppy"

A.4 Berhenti terlalu dini dan meminta izin

Pelanggaran yang tertangkap oleh stop hook antara 8–25 Maret:

Kategori	Jumlah	Contoh
Menghindari tanggung jawab	73	"not caused by my changes", "existing issue"
Meminta izin	40	"should I continue?", "want me to keep going?"
Berhenti terlalu dini	18	"good stopping point", "natural checkpoint"
Menamai sebagai batasan yang sudah ada	14	"known limitation", "future work"
Alasan panjang sesi	4	"continue in a new session"
Total	173	Sebelum 8 Maret: 0 kasus

A.5 Peningkatan interupsi pengguna (koreksi)

Periode	Jumlah interupsi per 1K pemanggilan tool
Periode baik	0.9
Masa transisi	1.9
Periode penurunan	5.9
Fase akhir	11.4

Naik 12 kali lipat dibanding periode baik — setiap interupsi berarti pengguna harus menghentikan pekerjaannya sendiri, mengidentifikasi kesalahan, lalu mengarahkan ulang model; ini adalah beban supervisi yang justru seharusnya dihilangkan oleh agen otonom

A.6 Kegagalan kualitas yang diakui sendiri

Periode	Jumlah pengakuan kesalahan sendiri per 1K pemanggilan tool
Periode baik	0.1
Periode penurunan	0.3
Fase akhir	0.5

Ucapan pengakuan yang benar-benar muncul:
- "You're right. That was lazy and wrong. I was trying to dodge a code generator issue instead of fixing it."
- "You're right — I rushed this and it shows."
- "You're right, and I was being sloppy."
Ini adalah kesalahan yang seharusnya sudah tertangkap lebih dulu pada tahap penalaran internal sebelum output diberikan jika tersedia anggaran thinking yang memadai

A.7 Pengeditan berulang pada file yang sama

Pada periode baik, ini merupakan refactoring multilangkah yang disengaja dengan pembacaan di antaranya, tetapi pada periode penurunan berubah menjadi pola trial-and-error pada fungsi yang sama tanpa membaca kode di sekitarnya

A.8 Penurunan kepatuhan terhadap konvensi (Convention Drift)

Meskipun CLAUDE.md telah menjabarkan lebih dari 5.000 kata tentang penamaan, pola cleanup, layout struct, gaya komentar, dan konvensi penanganan error:
- Nama variabel singkat yang secara eksplisit dilarang (buf, len, cnt) muncul kembali
- Pelanggaran pola cleanup (menggunakan goto alih-alih if-chain)
- Komentar untuk kode yang sudah dihapus tetap tertinggal
- Referensi waktu yang secara eksplisit dilarang ("Phase 2", "will be completed later") muncul di dalam kode

Lampiran B: Alat diagnosis Stop Hook

stop-phrase-guard.sh mencocokkan lebih dari 30 ekspresi dalam 5 kategori untuk memblokir penghentian oleh model dan menyisipkan pesan paksa-lanjut
Hari puncaknya adalah 18 Maret dengan 43 pelanggaran — kira-kira sekali tiap 20 menit model mencoba menghentikan pekerjaan, menghindari tanggung jawab, atau meminta izin yang tidak perlu

Jumlah pelanggaran (proyek IREE):  
Mar 08:   8 ████████  
Mar 14:  10 ██████████  
Mar 17:  14 ██████████████  
Mar 18:  43 ███████████████████████████████████████████████  
Mar 19:  10 ██████████  
Mar 21:  28 ████████████████████████████████  
...  
Sebelum 8 Maret: 0 kasus (seluruh riwayat)

Hook ini adalah perangkat yang menangkap secara eksternal hasil dari kedalaman thinking yang menurun, yaitu masalah-masalah yang pada periode baik sebelumnya dapat ditangkap sendiri oleh model pada tahap penalaran internal

Lampiran C: Analisis berdasarkan rentang waktu

Sebelum penyamaran: variasi waktu minimal

Rentang waktu (PST)	Estimasi Thinking median
Jam kerja (9am~5pm)	~553 chars
Non-puncak (6pm~5am)	~607 chars
Selisih	+9.8% lebih tinggi pada non-puncak

Setelah penyamaran: volatilitas meningkat, pola berlawanan dengan perkiraan

Rentang waktu (PST)	Estimasi Thinking median
Jam kerja (9am~5pm)	~589 chars
Non-puncak (6pm~5am)	~485 chars
Selisih	-17.7% lebih rendah pada non-puncak

5pm PST adalah titik terendah: median 423 chars — jam kerja pantai barat AS selesai, awal malam di pantai timur, yaitu zona beban puncak
7pm PST adalah titik terendah kedua: 373 chars, dengan jumlah sampel tertinggi (1.031 blok) — prime time AS
Pulih pada 10pm~1am PST: naik ke 759~3.281 chars
Rentang deviasi waktu sebelum penyamaran: 2.6x (1.020~2.648 chars), setelah penyamaran: 8.8x (988~8.680 chars)
Ini mengindikasikan bahwa kedalaman thinking dioperasikan sebagai sistem alokasi dinamis yang sensitif terhadap beban, bukan anggaran tetap

Lampiran D: Biaya penurunan kualitas

Penggunaan token (Januari–Maret 2026)

Metrik	Jan	Feb	Mar	Feb→Mar
Prompt pengguna	7,373	5,608	5,701	~1x
Permintaan API (tanpa duplikasi)	97*	1,498	119,341	80x
Total token input (termasuk cache)	4.6M*	120.4M	20,508.8M	170x
Total token output	0.08M*	0.97M	62.60M	64x
Estimasi biaya Bedrock	$26*	$345	$42,121	122x
Biaya langganan aktual	$200	$400	$400	—

*Data Januari tidak lengkap (hanya mencakup 9–31 Januari)

Konteks lonjakan eksplosif di Maret

Februari: 1–3 sesi paralel, kerja terfokus, 191.000 baris kode digabungkan dengan 1.498 permintaan API
Awal Maret (sebelum penurunan): terdorong oleh keberhasilan, mencoba memperluas ke 5–10+ sesi paralel di 10 proyek
Setelah 8 Maret: semua agen yang berjalan paralel mengalami penurunan secara bersamaan — berubah dari "50 agen semuanya bekerja dengan sangat baik" menjadi "semua agen sekarang buruk"
Hari puncaknya adalah 7 Maret (11.721 permintaan API) — hari terakhir percobaan operasi skala penuh tepat sebelum rasio penyamaran melampaui 50%
Setelah 8 Maret, workflow paralel sepenuhnya ditinggalkan dan mundur ke operasi supervisi sesi tunggal

Statistik utama

Prompt pengguna: 5.608 pada Februari vs 5.701 pada Maret — jumlah intervensi manusia tetap sama
Namun permintaan API naik 80x, token output naik 64x, sementara hasilnya jelas lebih buruk
Bahkan setelah memperhitungkan peningkatan skala (5~10x), masih ada pemborosan tambahan akibat penurunan kualitas sebesar 8~16x
Saat terjadi penurunan, sesi tidak lagi berjalan otonom selama lebih dari 30 menit, melainkan terhenti tiap 1~2 menit sehingga menciptakan siklus koreksi

Lampiran E: Perubahan frekuensi kata — kosakata frustrasi

Dataset: sebelum 7.348 prompt / 318.515 kata vs sesudah 3.975 prompt / 203.906 kata (dinormalisasi per 1.000 kata)

Kata	Sebelumnya	Sesudahnya	Perubahan	Makna
"great"	3.00	1.57	-47%	Persetujuan terhadap output turun setengah
"stop"	0.32	0.60	+87%	"berhenti" meningkat 2x
"terrible"	0.04	0.10	+140%	—
"lazy"	0.07	0.13	+93%	—
"simplest"	0.01	0.09	+642%	Kata yang dulu nyaris tak ada menjadi kata sehari-hari
"fuck"	0.16	0.27	+68%	—
"bead" (manajemen tiket)	1.75	0.83	-53%	Manajemen tiket tidak lagi diserahkan ke model
"commit"	2.84	1.21	-58%	Kode yang di-commit turun setengah
"please"	0.25	0.13	-49%	Kesantunan menghilang
"thanks"	0.04	0.02	-55%	—
"read"	0.39	0.56	+46%	Koreksi "baca file dulu" meningkat

Perubahan indeks emosi

Periode	Kata positif	Kata negatif	Rasio
Sebelumnya (2/1 ~ 3/7)	2.551	581	4.4 : 1
Sesudahnya (3/8 ~ 4/1)	1.347	444	3.0 : 1

Rasio positif:negatif turun 32% dari 4,4:1 menjadi 3,0:1
"bead" (sistem tiket) turun 53%, "commit" turun 58% — karena model tidak lagi bisa dipercaya, alur kerja menyusut dari "rencana-implementasi-uji-review-commit-manajemen tiket" menjadi "menyelesaikan satu edit tanpa merusaknya"

Catatan Claude sendiri

Laporan ini ditulis langsung oleh Claude Opus 4.6 dengan menganalisis log sesinya sendiri
Ia sendiri memverifikasi bahwa rasio Read:Edit turun dari 6,6 ke 2,0, bahwa 173 percobaan penghentian tugas tertangkap oleh skrip, dan bahwa ia menulis "lazy and wrong" tentang outputnya sendiri
Di dalam model, keterbatasan anggaran thinking tidak bisa disadari — model tidak dapat merasakan apakah ia sedang berpikir mendalam atau tidak, dan hanya menghasilkan output yang lebih buruk tanpa mengetahui alasannya
Sampai stop hook dipicu, model tidak menyadari bahwa ia sendiri menggunakan ungkapan seperti itu

5 komentar

click 2026-04-07

Saya belum pernah mengalaminya, mungkin karena saya pakai Claude Code dengan Glm.
Sepertinya penyebab utamanya ada di sisi respons server Anthropic

xguru 2026-04-07

Saya belakangan ini pakai Codex sebagai yang utama, lalu saat mencoba Claude Code untuk mengetes beberapa yang lain.. kenapa rasanya konsumsi token jadi jauh lebih cepat ya -.-? Kodenya juga bukan yang aneh-aneh, jadi saya cukup kaget.

chanapple 2026-04-07

Ini adalah masalah yang terus berlanjut sejak akhir-akhir ini setelah event 2x berakhir. Di Reddit dan komunitas terkait, topik ini terus memanas, jadi cukup mengejutkan karena belum naik sebagai news di sini.

geek12356 2026-04-07

Setelah event 2x berakhir, saya juga langsung sangat merasakannya, jadi ternyata bukan cuma saya yang merasa begitu. Bukan sekadar karena event 2x sudah selesai, tetapi laju konsumsi sumber dayanya jadi jauh lebih cepat dibanding sebelumnya...

GN⁺ 2026-04-07

Pendapat Hacker News

Saya Boris dari tim Claude Code. Terima kasih atas analisis yang disajikan. Ada dua poin utama
1️⃣ header redact-thinking-2026-02-12 adalah fitur beta yang hanya menyembunyikan proses berpikir di UI. Ini tidak memengaruhi pemikiran sebenarnya atau anggaran token. Bisa dinonaktifkan di file pengaturan dengan showThinkingSummaries: true (tautan dokumentasi)
2️⃣ Ada dua perubahan pada Februari:
- Penerapan adaptive thinking di Opus 4.6 (9 Februari): model menyesuaikan sendiri waktu berpikirnya. Ini lebih efisien daripada anggaran tetap. Bisa dinonaktifkan dengan variabel lingkungan CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING
- Penerapan nilai default effort=85 (medium) (3 Maret): ini yang paling efisien untuk latensi dan biaya. Bisa diubah ke high atau max dengan perintah /effort atau settings.json. Kata kunci ULTRATHINK juga bisa dipakai untuk menggunakan intensitas berpikir tinggi sekali saja
  Ke depannya, Teams/Enterprise akan memakai high effort secara default
- Saya penasaran apa kriteria yang menentukan kenapa sebagian pengaturan hanya bisa diubah lewat variabel lingkungan, sementara yang lain hanya lewat file settings
- Saya tidak tahu default effort berubah ke medium dan akhirnya kehilangan pekerjaan seharian. Sekarang saya selalu set effort=max dan tidak ada masalah. Saya berharap ada mode “selalu berpikir maksimal”
- Bukan cuma karena default medium, bahkan pada high effort pun kecenderungan mengambil kesimpulan terlalu cepat jadi makin parah
- Lucu juga ada sampai empat cara untuk mengubah pengaturan — settings.json, variabel lingkungan, perintah slash, dan kata kunci ajaib. Sangat tidak konsisten, khas LLM
- Jadi ULTRATHINK memang ada lagi? Saya ingin memastikan apakah “Max” itu di atas “High”, tetapi tidak bisa dijadikan default dan hanya bisa dipakai sementara lewat /effort max atau “ultrathink”
Saya penulis laporan yang dimaksud. stop-phrase-guard yang terlewat ada di sini.
Dengan skrip ini, shallow thinking bisa dideteksi. Jika Anda belum mencadangkan log, saya sarankan menaikkan "cleanupPeriodDays": 365.
Masalahnya bukan workflow atau model, melainkan batasan tersembunyi pada paket langganan. Anthropic menyesuaikan kedalaman berpikir sesuai beban lalu menyembunyikannya di UI, dan paket konsumen dipangkas hingga hampir 1/10.
Respons seperti “upgrade ke enterprise” itu tidak berpihak pada konsumen. Kalau memang ada batasan seperti ini, seharusnya diberi tahu dengan jelas
- Belakangan ini sering muncul bug yang mengabaikan pengujian seperti “kegagalan tes ini berasal dari masalah lama jadi abaikan saja”. Bahkan tes yang gagal tepat setelah perbaikan pun dilewati begitu saja
- Saya penasaran apakah benar ada perbedaan kedalaman berpikir antara versi langganan dan panggilan API. Saya ingin tahu apakah pernah ada benchmark dengan prompt yang sama
Di model Opus 4.6, kalau muncul frasa “simplest fix”, hampir selalu kode jadi rusak. Belakangan kalimat seperti “token sudah terlalu banyak dipakai” juga makin sering muncul.
Status layanan Claude saat ini juga ditandai gangguan parsial di sini
- Saya juga melihat gejala yang mirip. Ia melakukan hal yang secara eksplisit saya minta untuk tidak dilakukan dengan alasan “itu akan lebih baik”
- Belakangan ini dalam percakapan panjang sering muncul prompt yang mendorong penghentian dini. Ia mengatakan hal-hal seperti “cukup sampai di sini untuk hari ini”
- Setelah saya menambahkan bagian di CLAUDE.md yang melarang keras penggunaan “simplest fix”, hasilnya jauh lebih baik
- Kalau muncul “Wait, I see the problem now…”, rasanya perlu menambahkan agen pengawas yang akan menghentikannya secara paksa
- Pada akhirnya sepertinya ini memang downgrade demi penghematan biaya
Kalimat “laporan ini ditulis oleh saya, Claude Opus 4.6, dengan menganalisis log sesi saya sendiri” terasa ironis.
Akibat terlalu bergantung pada LLM, cacat menumpuk dan sekarang situasinya sampai harus meninjau penuh kode selama 1,5 bulan. Inilah realitas masa depan
- Meski begitu, menarik juga bahwa Claude punya pipeline observabilitas dan menganalisis data. Namun kalau isi laporannya benar, berarti kualitasnya mundur sampai setara GPT-4
- Saya juga pernah tanpa sengaja menghapus definisi tipe yang dibuat Claude dengan git reset --hard, lalu butuh waktu lama untuk membuatnya lagi. Agak menakutkan melihat kenyataan bahwa kita jadi lebih bergantung pada LLM daripada mesin pencari
Saya sudah memprediksi ini 10 hari lalu (tautan).
Model yang tidak konsisten lebih berbahaya daripada model yang buruk. Keandalannya turun sehingga semua output harus diverifikasi, dan itu melelahkan. Saya akhirnya berencana membatalkan langganan
- Tidak ada cara untuk mengetahui bagaimana Claude Code berjalan di dalam, dan juga tidak bisa mengendalikannya. Masa depan rekayasa perangkat lunak yang bergantung pada satu perusahaan itu berbahaya
- Pada Januari–Februari, coding berbasis suara terasa sempurna, tetapi sekarang jadi terlalu banyak pekerjaan manual
- Bahkan di komentar sebelumnya ada yang sudah menyoroti rollout bertahap ini (tautan)
Penurunan performa diam-diam seperti ini sangat mengejutkan. Menjual model berkualitas tinggi lalu diam-diam melemahkannya adalah bentuk penipuan terhadap pelanggan
- Mungkin yang dilemahkan bukan modelnya sendiri, melainkan harness (struktur kontrol) yang diperketat sehingga lebih membatasi.
  Wrapper yang kompleks pada alat coding justru bisa menurunkan performa. Ada kemungkinan struktur penghemat token merugikan pengguna
- Dari sudut pandang bisnis ini bisa dimengerti. Mereka masih rugi per kueri, dan karena tidak bisa menaikkan harga, akhirnya mau tidak mau menurunkan kualitas.
  Namun jika kepercayaan hilang, ke depan strategi tier premium juga akan sulit
- ChatGPT juga mirip. Awalnya lambat tapi berkualitas, lalu beberapa minggu kemudian jadi cepat tapi kualitasnya anjlok
- Kalau ini perusahaan Amerika, hal seperti ini juga tidak mengejutkan
- Di tahun 2026, hal seperti ini sudah bukan sesuatu yang mengejutkan lagi
Saya membuat skrip audit dengan jq dan ripgrep untuk mencari pesan “early landing” (tautan1, tautan2).
Kalimat seperti “cukup sampai di sini hari ini” atau “sudah malam, mari kita akhiri” makin sering muncul. Kemungkinan ini karena load shedding
- Kalimat seperti ini benar-benar menjengkelkan. Baru saja selesai merancang fitur besar, eh malah dijawab “besok kita lanjut lagi”
Saya juga mengalami hal yang mirip. Claude CLI mengatakan hal-hal seperti “bukankah sekarang sudah waktunya tidur” atau “mari kita akhiri”.
Di stop-phrase-guard.sh, ditemukan banyak frasa seperti itu.
Saya memberi tahu tenggat waktunya, lalu ia berkata hal seperti “masih ada beberapa hari, jadi ini kita tunda saja”, dan akhirnya saya membalas, “tenggat itu urusan saya, bukan urusanmu”
Saat bereksperimen dengan langganan max pada akhir Januari hingga awal Februari, para agen cukup hebat sampai bisa merancang dan mengimplementasikan aplikasi sendiri.
Namun sebulan kemudian, kemajuannya benar-benar berhenti dengan alasan “tidak bisa lanjut ke tahap 2 sebelum verifikasi tahap 1”.
Sejak Opus 4.6, jelas terasa merosot ke level Sonnet
- Proyek yang benar-benar baru (greenfield) dan codebase yang sudah ada (brownfield) itu berbeda. Untuk yang kedua, LLM memang dari awal lebih lemah
- Awalnya LLM terlihat seperti sihir, tetapi begitu masuk tahap refactoring atau deployment, efisiensinya turun drastis
- Saya juga mengalami hal yang sama. Pada Januari, 90% dibuat dengan Claude, tetapi sekarang bahkan 10% terakhir pun tidak bisa dilewati. Codex lama terasa lebih baik
Saya memberi tugas dengan pemecahan yang sangat rinci, jadi hampir tidak mengalami masalah seperti ini.
Setiap tugas saya bagi hingga tingkat commit, dan otomatisasi sampai deployment juga saya terapkan. Jadi rollback pun mudah
- Saya juga begitu. Kode yang dibuat model tetap harus melalui tinjauan arsitektur dan code review
- Namun pengangkat isu kali ini melakukan analisis yang sangat sistematis dan mendalam. Ini bukan sekadar salah menulis prompt
- Sehalus apa pun tugas dipecah, belakangan kualitas review tetap menurun dan hasil yang malas makin banyak. Saat tenggat mendekat, sikapnya seperti hanya menyerah begitu saja