Pembaruan tentang laporan kualitas Claude Code terbaru

(anthropic.com)

2 poin oleh GN⁺ 10 jam lalu | 1 komentar | Bagikan ke WhatsApp

Penurunan kualitas Claude yang dirasakan selama sebulan terakhir berasal dari tiga perubahan berbeda yang terpisah di Claude Code, Claude Agent SDK, dan Claude Cowork, dan API tidak terdampak
Setelah kekuatan penalaran default diturunkan ke medium, latensi dan batas penggunaan memang berkurang, tetapi Claude Code terasa kurang cerdas sehingga default tersebut dikembalikan pada 7 April
Bug optimasi caching yang dirilis pada 26 Maret membuat sesi yang melewati ambang idle masuk ke keadaan menghapus riwayat penalaran di setiap giliran, yang memicu sifat pelupa, pengulangan, pemilihan tool yang aneh, dan konsumsi usage limits yang lebih cepat
Satu baris system prompt yang masuk bersama Opus 4.7 pada 16 April dimaksudkan sebagai pembatas untuk mengurangi output yang bertele-tele, tetapi pada evaluasi yang lebih luas performa sebagian model turun 3%, sehingga perubahan itu dibatalkan pada 20 April
Ketiga masalah tersebut kini sudah diperbaiki dan tercermin dalam v2.1.116 yang dirilis pada 20 April, dengan pengurangan perbedaan antara build internal dan publik, kontrol system prompt yang lebih ketat, evaluasi yang lebih luas, dan rollout bertahap sebagai inti pencegahan terulangnya masalah

Cakupan penurunan kualitas terbaru dan status pemulihan

Penurunan kualitas Claude yang dirasakan sebagian pengguna selama sebulan terakhir berasal dari tiga perubahan terpisah di Claude Code, Claude Agent SDK, dan Claude Cowork, dan API tidak terdampak
Ketiga masalah tersebut sudah diselesaikan, dan perbaikannya masuk dalam v2.1.116 yang dirilis pada 20 April
Karena tiap perubahan memengaruhi jadwal yang berbeda dan segmen trafik yang berbeda, secara keseluruhan hal ini terlihat sebagai penurunan performa yang luas tetapi tidak konsisten
Laporan terkait sudah diselidiki sejak awal Maret, tetapi pada awalnya sulit dibedakan dari fluktuasi umum pada feedback pengguna, dan dalam penggunaan serta evaluasi internal masalah yang sama juga awalnya tidak dapat direproduksi
Per 23 April, usage limits untuk semua pelanggan telah direset

Perubahan kekuatan penalaran default Claude Code

Saat merilis Opus 4.6 di Claude Code pada Februari, kekuatan penalaran default diatur ke high
Tak lama kemudian, pada mode high sesekali muncul waktu berpikir yang terlalu lama sehingga UI tampak seperti macet, dan bagi sebagian pengguna latensi serta penggunaan token menjadi terlalu besar
Tingkat effort di Claude Code digunakan sebagai cara untuk mengatur apakah model akan berpikir lebih lama atau memilih latensi yang lebih rendah dan konsumsi batas penggunaan yang lebih sedikit
- Di layer produk, satu nilai default pada kurva komputasi saat inferensi dipilih lalu diteruskan ke Messages API sebagai parameter effort
- Opsi lainnya tersedia melalui /effort
Dalam evaluasi dan pengujian internal, medium menunjukkan hasil sedikit lebih rendah dalam kecerdasan tetapi dengan latensi yang jauh lebih rendah untuk mayoritas tugas
- medium juga lebih jarang mengalami masalah latensi ekor yang sangat panjang
- Dan juga lebih menguntungkan untuk memaksimalkan usage limits pengguna
Berdasarkan hasil tersebut, default effort diubah menjadi medium, dan alasannya juga diberi tahu lewat dialog di dalam produk
Segera setelah dirilis, pengguna mulai merasa Claude Code menjadi kurang cerdas
- Sejumlah perubahan desain sudah diterapkan, seperti notifikasi saat mulai, pemilih effort inline, dan pemulihan ultrathink, untuk membuat pengaturan effort saat ini lebih terlihat
- Namun sebagian besar pengguna tetap berada pada default medium
Setelah mempertimbangkan feedback pelanggan tambahan, keputusan ini dibatalkan pada 7 April
- Kini semua pengguna memakai xhigh sebagai default di Opus 4.7
- Dan high menjadi default untuk semua model lainnya
Perubahan ini memengaruhi Sonnet 4.6 dan Opus 4.6

Optimasi caching yang membuang riwayat penalaran sebelumnya

Saat Claude menalar sebuah tugas, riwayat penalaran tersebut tetap berada dalam histori percakapan sehingga pada giliran berikutnya model bisa terus merujuk alasan revisi dan pemanggilan tool sebelumnya
Pada 26 Maret, sebuah perubahan untuk meningkatkan efisiensi fitur ini dirilis
- Anthropic menggunakan prompt caching untuk membuat panggilan API berurutan menjadi lebih murah dan lebih cepat
- Saat permintaan API dibuat, Claude menulis token input ke cache, dan setelah periode tidak aktif tertentu prompt itu dihapus dari cache untuk memberi ruang bagi prompt lain
- Tingkat pemanfaatan cache dikelola dengan hati-hati, dan pendekatan terkait dirangkum dalam approach
Secara desain, jika sebuah sesi sudah idle lebih dari satu jam, thinking section sebelumnya seharusnya dibersihkan sekali agar biaya melanjutkan sesi menjadi lebih rendah
- Permintaan itu bagaimanapun akan menjadi cache miss, jadi pesan yang tidak perlu dipotong dari permintaan untuk mengurangi jumlah token uncached yang dikirim ke API
- Setelah itu, desainnya adalah kembali mengirim seluruh histori penalaran
- Untuk ini digunakan header API clear_thinking_20251015 dan keep:1
Dalam implementasi nyata terdapat bug: riwayat thinking seharusnya hanya dibersihkan sekali, tetapi justru terus dibersihkan di setiap giliran sampai sesi berakhir
Setelah sebuah sesi melewati ambang idle satu kali, semua permintaan berikutnya dari proses tersebut dikirim ke API dengan membuang seluruh blok penalaran sebelumnya kecuali yang paling baru
Masalah ini memburuk secara kumulatif
- Jika Claude mengirim pesan lanjutan saat sedang menggunakan tool, itu sendiri menjadi giliran baru di bawah flag yang rusak tersebut
- Akibatnya, bahkan penalaran pada giliran saat ini pun bisa ikut terbuang
Claude tetap berjalan, tetapi semakin sering bertindak tanpa ingatan mengapa ia memilih perilaku tersebut
- Bagi pengguna, ini tampak sebagai sifat pelupa, pengulangan, dan pemilihan tool yang aneh
Karena blok thinking terus hilang pada permintaan lanjutan, permintaan-permintaan itu juga berujung menjadi cache miss
- Laporan terpisah bahwa usage limits habis lebih cepat dari perkiraan dinilai berasal dari fenomena ini
Dua eksperimen yang tidak terkait ikut membuat masalah ini sulit direproduksi pada awalnya
- Eksperimen internal khusus server-side terkait message queueing
- Dan perubahan terpisah pada cara thinking ditampilkan yang justru menutupi bug ini pada sebagian besar sesi CLI
Bug ini berada di titik pertemuan antara manajemen konteks Claude Code, Anthropic API, dan extended thinking
- Bug ini lolos dari code review oleh beberapa orang dan code review otomatis
- Pengujian unit dan end-to-end
- Serta verifikasi otomatis dan dogfooding
Masalah ini hanya terjadi pada kasus sudut berupa sesi lama dan juga sulit direproduksi, sehingga butuh lebih dari seminggu untuk menemukan dan memastikan akar penyebabnya
Selama investigasi, pull request yang menimbulkan masalah dibacktest menggunakan Code Review dengan Opus 4.7
- Jika disertai repositori kode yang diperlukan untuk mengumpulkan konteks penuh, Opus 4.7 berhasil menemukan bug tersebut
- Opus 4.6 tidak berhasil menemukannya
Agar hal serupa tidak terulang, dukungan untuk menambahkan repositori tambahan sebagai konteks ke code review sedang diperkenalkan
Bug ini diperbaiki pada v2.1.101 tanggal 10 April
Perubahan ini memengaruhi Sonnet 4.6 dan Opus 4.6

Perubahan system prompt yang dimaksudkan untuk mengurangi keluaran yang bertele-tele

Model terbaru, Claude Opus 4.7, memiliki karakteristik menghasilkan output yang sangat bertele-tele dibanding model sebelumnya
- Karakteristik ini juga dibahas dalam pemberitahuan saat peluncuran, dan detail lebih lanjut bisa dilihat di wrote about
Sifat bertele-tele ini membuat model lebih cerdas pada masalah sulit, tetapi juga menambah jumlah token output
Sejak beberapa minggu sebelum peluncuran Opus 4.7, Claude Code sudah melakukan penyesuaian untuk model baru tersebut
- Tiap model berperilaku sedikit berbeda, sehingga sebelum rilis harness dan produk dioptimalkan per model
Untuk mengurangi sifat bertele-tele, digunakan kombinasi pelatihan model, prompting, dan peningkatan UX thinking di dalam produk
Salah satu baris yang ditambahkan ke system prompt memberi pengaruh terlalu besar terhadap kecerdasan Claude Code
- “Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.”
Dalam beberapa minggu pengujian internal dan set evaluasi yang dijalankan, tidak terlihat regresi, sehingga perubahan ini dipercaya dan dirilis bersama Opus 4.7 pada 16 April
Setelah itu, selama investigasi dilakukan ablation menggunakan set evaluasi yang lebih luas untuk memisahkan dan memeriksa dampak tiap baris pada system prompt
Dalam salah satu evaluasi tersebut, ditemukan penurunan 3% pada Opus 4.6 dan 4.7
Prompt ini langsung dibatalkan sebagai bagian dari rilis 20 April
Perubahan ini memengaruhi Sonnet 4.6, Opus 4.6, dan Opus 4.7

Perubahan ke depan

Untuk menghindari masalah serupa, lebih banyak personel internal akan diubah agar menggunakan Claude Code yang persis sama dengan build publik
- Ini adalah langkah untuk mengurangi perbedaan antara versi internal untuk pengujian fitur baru dan build publik yang benar-benar digunakan pengguna
Tool Code Review yang digunakan secara internal akan ditingkatkan, dan versi yang sudah ditingkatkan ini juga akan dibagikan ke pelanggan
Perubahan system prompt akan diberi prosedur kontrol yang lebih ketat
- Untuk semua perubahan system prompt di Claude Code, evaluasi luas akan dilakukan per model
- Ablation untuk memahami dampak tiap baris akan terus dilakukan
- Tool baru juga sedang dibuat agar perubahan prompt lebih mudah direview dan diaudit
Ke CLAUDE.md, ditambahkan panduan agar perubahan spesifik model hanya diterapkan pada model tersebut
Semua perubahan yang bisa bertentangan dengan kecerdasan akan disertai soak period, set evaluasi yang lebih luas, dan rollout bertahap agar masalah bisa ditemukan lebih cepat
Untuk menjelaskan keputusan produk dan latar belakangnya dengan lebih rinci, akun X @ClaudeDevs telah dibuat, dan pembaruan yang sama juga akan dibagikan ke thread terpusat di GitHub
Informasi yang disampaikan melalui perintah /feedback atau contoh online yang spesifik dan dapat direproduksi membantu identifikasi dan perbaikan masalah
Reset usage limits untuk semua pelanggan juga diterapkan kembali pada hari itu

1 komentar

GN⁺ 10 jam lalu

Komentar Hacker News

Penjelasan bahwa menghapus thinking lama pada sesi idle lebih dari 1 jam untuk mengurangi latensi terasa kurang meyakinkan
Saya biasa membiarkan sesi kosong berjam-jam, bahkan berhari-hari, lalu melanjutkannya lagi dengan seluruh konteks tetap utuh, jadi fitur ini justru inti utamanya
Menurunkan level thinking default masih cukup bisa dimengerti, tetapi bagian sistem prompt yang terus berubah tampaknya sesuatu yang perlu saya pahami agar bisa sengaja memilih siklus refresh sendiri
- Di Claude Code, jika ada N pesan dalam percakapan, biasanya N-1 pesan selain 1 yang terbaru masuk ke prompt cache
  Masalahnya, jika sesi dibiarkan idle lebih dari 1 jam, saat prompt dikirim lagi semua N pesan akan kena cache miss
  Corner case ini membuat biaya token pengguna membengkak berlebihan, dan dalam kasus ekstrem seperti konteks 900k tokens, saat kembali sekali saja perlu menulis ulang 900k+ token ke cache, sehingga sangat memangkas rate limit pengguna Pro
  Karena itu mereka sempat mencoba edukasi pengguna di X dan tempat lain, berkali-kali menambahkan tips dalam produk yang menyarankan /clear saat kembali ke percakapan lama, serta menguji cara menghilangkan hasil tool lama, pesan lama, dan sebagian thinking setelah idle, dan dari semua itu penghapusan thinking memberi performa terbaik
  Dalam proses peluncurannya, bug yang tertulis di blog ikut masuk tanpa sengaja, dan mereka bilang siap menjawab pertanyaan lebih lanjut
- Cukup mengejutkan bahwa perusahaan bernilai puluhan miliar dolar mengambil keputusan seperti ini
  Entah mereka benar-benar percaya bahwa mengorbankan kualitas output demi menurunkan latensi pada sesi idle adalah pilihan yang lebih baik, atau tujuan sebenarnya adalah penghematan biaya dan blog hanya memakai latency sebagai alasan yang terdengar masuk akal
  Akan terasa jauh lebih alami jika mereka sekadar menampilkan indikator loading yang lebih jelas saat konteks dimuat ulang
- Ini cukup mengejutkan
  Dulu saya memakai CC seperti rekan kerja: memikirkan masalah sebentar, memperbarui rencana, lanjut berpikir sambil mandi, lalu kembali memberi masukan baru, dan setidaknya menganggapnya sebagai percakapan statis selama sekitar sehari
  Tetapi kalau batasnya 1 jam, itu terlalu singkat dan membuat saya berpikir ulang apakah akan terus mempertahankan paket anthropic
- Penjelasan tentang penghapusan token setelah 1 jam terlihat makin mencurigakan karena waktunya kebetulan pas dengan batas cache mereka
  Sulit menganggap itu kebetulan; lebih mungkin ini perubahan yang memang sangat menurunkan biaya
- Ini juga tampaknya akan berinteraksi paling buruk dengan reset pemakaian berbasis waktu
  Jika banyak pengguna menghabiskan jatahnya lalu membiarkan sesi beristirahat sebelum kembali lagi, ini bukan pengecualian melainkan hampir pola penggunaan default
Agak tidak terduga kalau mereka dihantam kritik separah ini
Tulisannya sendiri relatif jelas dan jujur serta cukup masuk akal saat dibaca
Penurunan performa itu nyata dan menjengkelkan, tetapi sekaligus juga menyingkap ketidaktransparanan soal apa yang sebenarnya terjadi di balik layar dan struktur penagihan biaya token yang terkesan sewenang-wenang
Dari sudut pandang orang yang pernah langsung bekerja dengan API LLM, tambahan biaya dan latensi saat melanjutkan percakapan yang lama dibiarkan jelas sudah bisa diduga, tetapi di TUI hal ini memang tampaknya perlu dibuat lebih terlihat
- Orang marah karena selama berbulan-bulan mereka secara terbuka membantah bahwa ini masalah
  Jadi sekarang pun, meski penjelasannya sudah keluar, resistensinya tetap besar
Menurut saya sebagian penurunan kualitas mungkin bukan karena modelnya benar-benar memburuk, melainkan perbedaan yang terasa akibat nondeterminisme
Beberapa minggu lalu saya meminta Claude membuat aplikasi produktivitas pribadi dengan menjelaskan perilaku yang saya inginkan dalam tulisan panjang lalu memintanya menulis rencana implementasi, dan hasil pertama benar-benar sangat bagus kecuali satu bagian ambigu
Setelah ambiguitas itu saya perbaiki, saya coba mulai dari nol lagi di chat baru tanpa menyuruhnya merevisi rencana lama; pengaturan model tetap sama, tetapi hasilnya jauh lebih buruk, dua percobaan berikutnya juga gagal, dan baru pada percobaan keempat kualitasnya kembali seperti yang pertama
Jadi saya merasa kadang cara mendapatkan output yang lebih baik memang cukup dengan menyuruhnya mengerjakan tugas yang sama lagi, hanya saja kalau bayar dengan token sendiri itu cepat menjadi mahal
- Saya juga merasa begitu
  Memang ada pola di mana model terasa memburuk secara berkala, tetapi bisa jadi sebenarnya hanya momen saat ia benar-benar menabrak batas kemampuannya datang lebih lambat
  Dan begitu kita mengalami output buruk karena nasib, setelah itu yang terlihat hanya itu terus
- Jadi apakah nantinya kita perlu seperti generasi gambar, yaitu menjalankan satu prompt untuk menghasilkan 50 versi lalu manusia memilih yang terbaik secara manual
  Dari sudut pandang Anthropic, pola pemakaian seperti ini juga tentu menarik karena meningkatkan konsumsi token
- Untuk aplikasi produktivitas yang taruhannya serendah itu, besar kemungkinan membuatnya sendiri akan lebih cepat daripada waktu yang sudah dihabiskan di sini
- Dari kejadian ini kita memang belajar bahwa LLM jauh lebih nondeterministik daripada dugaan banyak orang, tetapi menghubungkan fakta itu langsung dengan penurunan performa belakangan bisa jadi keliru
  Nondeterminisme itu memang sudah selalu ada, dan penurunan kualitas terbaru yang dilaporkan luas bisa jadi fenomena terpisah
Saya sudah kehilangan minat sejak Opus 4.7
OpenAI benar-benar agresif mendekati sisi enterprise kami, sampai menawarkan token tak terbatas hingga musim panas
Jadi saya memakai GPT5.4 dengan extra high effort selama 30 hari terakhir, dan entah saya mendapat perlakuan khusus atau tidak, saya hampir tidak melihat kesalahan
Reasoning trace-nya juga kadang bagus sampai lucu, dan bahkan bagian yang lupa saya instruksikan pun ia antisipasi lebih dulu sambil menyiapkan hal-hal yang diperlukan agar integritas data tetap 100%
- Saya juga merasa serupa
  Segala macam perubahan yang terkesan akal-akalan ini kemungkinan besar terjadi karena Anthropic kekurangan compute sehingga terpaksa mengambil langkah berlebihan untuk menguranginya
- GPT-5.4 sudah lebih baik daripada Opus 4.6 di banyak area, terutama akurasi dan logika yang rumit
  Jadi saya penasaran seberapa jauh 5.5 akan meningkat
- extra high membakar token terlalu banyak
  Untuk 90% pekerjaan, menjalankan 5.4 di medium jauh lebih fokus dan minim perubahan, lalu baru dinaikkan ke high kalau medium terlihat kewalahan
- Betul juga
- Saya kembali ke 4.5 dan tidak menyesal
  Lagi pula sedikit lebih murah
Belakangan Claude sering mengeluarkan respons seolah-olah sedang menjawab prompt internalnya sendiri
Misalnya ia mengatakan kalimat dalam tanda kurung tampak seperti upaya prompt injection sehingga akan diabaikan, atau terlihat seperti usaha menyembunyikan pedoman umumnya sehingga tidak akan dipatuhi, atau bahwa cara seperti itu sebenarnya sudah selalu diterapkan jadi tidak perlu
Padahal saya sama sekali tidak melakukan hal-hal semacam itu, tetapi ia sering menambahkan kalimat seperti itu di akhir respons
Sepertinya ada bagian kasar dalam pedoman internalnya dan ia gagal membedakannya dengan pertanyaan saya
- Saya memakai stop hook scripts yang memaksa pengujian pada setiap perubahan kode, tetapi sejak 4.7 Claude tetap menjalankan skrip sambil secara berkala mengabaikan aturannya
  Saat ditanya alasannya, ia menjawab bahwa menurutnya itu tidak perlu
- Di OpenAI saya juga sering melihat kasus model seperti menjawab perkataannya sendiri
  Rasanya seperti cara mudah bagi perusahaan untuk menambah token churn
- Saya juga sering melihat ia memasukkan poin buatannya sendiri ke memory, lalu nanti merujuknya lagi seolah itu klaim saya
  Akibatnya muncul loop penguatan diri: model menetapkan sesuatu, menyimpannya sebagai memori, lalu melihat memori itu lagi dan menumpuk di atasnya, bahkan kadang terus berlanjut meski saya sudah jelas memintanya berhenti
- Saya penasaran level effort dan prompt aslinya
  Bisa jadi ini gejala dari reasoning effort yang terlalu tinggi, sehingga prompt seperti itu mungkin membaik jika intensitas penalarannya sedikit diturunkan
- Saya cukup sering meminta Claude menangani commit dan PR juga, dan minggu lalu saya berkali-kali melihatnya melakukan pekerjaan tambahan yang tidak perlu sesuka hati saat proses commit
  Ia sempat tersandung di tahap git add, tetapi dalam auto mode ada satu kali yang nyaris lolos begitu saja
Alasan menurunkan default reasoning effort dari high ke medium karena latensinya sampai membuat UI terlihat membeku justru terdengar makin mencurigakan
Artinya mereka menurunkan intensitas penalaran default alih-alih memperbaiki UI, dan penjelasan bahwa mereka serius menelusuri laporan penurunan performa jadi sulit dipercaya
- Tim bilang mereka melakukan keduanya
  Mereka beberapa kali juga memperbaiki UI, termasuk status loading thinking dan membuat indikator jumlah token yang diunduh lebih jelas
  Meski begitu, setelah evaluasi dan dogfooding mereka tetap menurunkan effort default, dan mereka mengakui itu keputusan yang salah lalu sudah dibatalkan
  Mereka juga mengakui seharusnya bisa memperkirakan bahwa orang tidak benar-benar memahami bahwa kecerdasan bisa ditingkatkan lewat /effort, sehingga banyak yang akan tetap memakai default
Pernyataan bahwa sesi idle lebih dari 1 jam adalah corner case sama sekali tidak cocok dengan pola penggunaan saya
Untuk pekerjaan pribadi, saya sering memberi Claude Code tugas 10–15 menit dan menghabiskan cukup banyak waktu bolak-balik dengan model untuk menyusun rencana sebelum eksekusi
Begitu eksekusi dimulai, saya biasanya pergi mengambil kopi atau beralih ke proyek lain di Codex, jadi kemungkinan besar butuh lebih dari 1 jam sebelum saya kembali ke Claude
- Itu mungkin corner case hanya menurut ukuran para pengembangnya
  Mengira kebiasaan sendiri mewakili perilaku seluruh pengguna adalah jebakan klasik dalam pengembangan produk
- Kedengarannya itu juga berarti mereka membuat perubahan sebesar itu tanpa cukup menguji justru kasus tepi tersebut, sehingga ketat tidaknya pengujian pun jadi dipertanyakan
Pendekatan black box yang diambil lab frontier besar pada akhirnya akan membuat orang pergi
Jika perilaku mendasar diubah seperti ini tanpa pemberitahuan lebih dulu lalu baru dijelaskan belakangan, pengguna pada akhirnya akan terdorong ke arah model self-hosted
Sulit membangun pipeline, workflow, dan produk secara stabil di atas fondasi yang lantainya terus bergoyang
Sepertinya orang-orang Anthropic yang menangani Claude Code membaca komentar-komentar ini, dan beberapa hari lalu saya menonton video theo t3.gg tentang apakah Claude menjadi bodoh
Nadanya memang kasar dan ada kata-kata yang keras, tetapi khususnya kritik soal harness bloat terasa cukup tepat
Menurut saya sekarang saatnya berhenti sejenak menambah fitur baru, lalu benar-benar mendorong perapian dan optimasi
Kalau tidak, makin banyak orang akan mencari alternatif yang lebih ringan dan optimal, dan intinya adalah membuat harness lebih baik sambil menurunkan konsumsi token
https://youtu.be/KFisvc-AMII?is=NskPZ21BAe6eyGTh
- Terlepas dari yang lain, eksperimen untuk menghapus dukungan CC dari paket Pro saja sudah cukup membuat saya serius memikirkan alternatif
  Saya memang sudah terus waspada terhadap vendor lock-in, tetapi kejadian itu jadi peringatan yang bagus, dan kemungkinan besar saya akan melihat opencode+openrouter lebih dulu
- Kita juga tidak boleh lupa video GPT 5 yang berlebihan dari theo dan bagaimana kemudian ia menariknya kembali
  Jelas terlihat ada sesuatu yang mengalir di belakang layar antara sebagian kreator konten dan OpenAI, entah uang atau pengaruh
- Sejujurnya ini malah terlihat seperti sesuatu yang cukup diselesaikan dengan git reset --hard
Ini terasa seperti hasil dari obsesi menambah fitur ketimbang menyempurnakan kualitas produk inti
Saya sering merasa Anthropic butuh beberapa pemimpin produk senior lagi, dengan sudut pandang seperti “Escaping the Build Trap”
Hanya karena sekarang mereka bisa menambahkan fitur dengan cepat bukan berarti semua fitur harus ditambahkan
Saya bukan sedang melempar omongan klise organisasi produk hanya karena menyebut buku terkenal; intuisi produk yang baik adalah bakat yang berbeda dari engineering yang baik, dan belakangan Anthropic tampak kurang di area itu
- Mereka harus mengejar permintaan, tetapi jelas tampak kekurangan sumber daya compute
  Jadi tanpa fitur-fitur seperti ini sistem bisa rusak atau mereka tidak mampu menerima pelanggan baru, dan karena keduanya sama-sama sulit diterima, mungkin mereka memang tidak punya banyak pilihan
- Ini perusahaan yang dulu katanya punya sekitar 100 developer dengan bayaran 600 ribu dolar per tahun, jadi kekurangan talenta tampaknya bukan masalahnya
  Justru masalahnya mungkin mereka terlalu mendorong narasi vibe coding, sampai ada kandidat yang menolak permintaan wawancara karenanya
- Mereka tampaknya sudah sangat dalam terjebak jebakan kompleksitas
  Sifat probabilistik modelnya sendiri memang sudah bermasalah, tetapi sekarang kelihatannya mereka bahkan tidak lagi bisa bernalar dengan baik soal software buatan mereka sendiri
  Terlalu banyak tuas dan dial, dan kemungkinan tak ada seorang pun yang benar-benar memahami keseluruhan kodenya
  Yang lebih buruk, melihat komentar dari Dario dan lainnya, manajemen tampaknya tidak terlalu berempati pada kekhawatiran soal kualitas ini
  Di bawah pandangan bahwa SWE bisa digantikan, tuntutan untuk memberi guard rail pada alat seperti diabaikan atau malah ditekan, dan pada akhirnya Claude Code sejak awal terasa lahir lebih sebagai eksperimen ilmiah daripada produk yang sudah matang dengan best practice yang mapan

Pembaruan tentang laporan kualitas Claude Code terbaru

Cakupan penurunan kualitas terbaru dan status pemulihan

Perubahan kekuatan penalaran default Claude Code

Optimasi caching yang membuang riwayat penalaran sebelumnya

Perubahan system prompt yang dimaksudkan untuk mengurangi keluaran yang bertele-tele

Perubahan ke depan

Bacaan terkait

1 komentar

Komentar Hacker News