Alasan membatalkan Claude: masalah token, penurunan kualitas, dan dukungan yang buruk

(nickyreinert.de)

6 poin oleh GN⁺ 14 jam lalu | 8 komentar | Bagikan ke WhatsApp

Pada beberapa minggu awal, kepuasan tinggi karena jatah token terasa cepat dan adil, serta kualitas hasilnya bagus, tetapi sekitar 3 minggu lalu pengalaman itu berubah drastis
Setelah istirahat 10 jam lalu kembali, hanya mengirim dua pertanyaan singkat ke Claude Haiku membuat penggunaan melonjak hingga 100%, dan kanal dukungan pada praktiknya tertutup setelah jawaban otomatis yang gagal membahas inti pertanyaan
Belakangan ini, dari kondisi sebelumnya bisa menjalankan beberapa proyek sekaligus, kini bahkan satu proyek saja dapat menghabiskan batas token dalam dua jam, dan saat refactoring hampir separuh jendela 5 jam habis hanya untuk membetulkan jalan pintas murahan
Setelah waktu tertentu, cache percakapan menghilang sehingga biaya membaca ulang codebase terus berulang, lalu perubahan titik acuan mingguan dan peringatan batas bulanan tanpa penjelasan membuat sistem batas terlihat tidak konsisten
Meski peningkatan produktivitas dan potensi produknya sangat diakui, akumulasi dukungan yang buruk, penurunan kualitas, dan kebingungan soal batas penggunaan pada akhirnya membuat akun Anthropic dibatalkan

Kepuasan awal dan perubahan setelahnya

Pada beberapa minggu awal berlangganan Claude Code, kecepatannya tinggi, jatah token terasa adil, dan kualitas hasilnya juga baik
- Ada juga pengumuman bahwa jatah token ditingkatkan pada jam-jam non-sibuk
- Ditambah sikap yang menentang sebagian aturan pemerintah, muncul juga dorongan untuk mendukung produknya
Namun sekitar 3 minggu lalu, kepuasan awal itu mulai cepat memudar
- Di bagian-bagian berikutnya, masalah dukungan, kualitas, dan batas penggunaan terus berlanjut

Masalah kualitas dukungan

Setelah beristirahat sekitar 10 jam dan mengira token sudah terisi kembali, pekerjaan dimulai lagi pada pagi hari, tetapi sesaat setelah mengirim dua pertanyaan singkat ke Claude Haiku yang bahkan tidak terkait dengan repositori, penggunaan token langsung melonjak ke 100%
- Pertanyaannya sederhana dan skalanya kecil
- Penyegaran token yang diharapkan tidak sesuai dengan lonjakan penggunaan yang terjadi
Pertanyaan diajukan ke bot dukungan AI, tetapi yang dikembalikan hanya panduan dasar dan masalah sebenarnya pun tidak dipahami dengan benar
- Setelah itu diminta dukungan dari manusia
- Jawaban yang datang beberapa hari kemudian juga terlihat meleset dari masalah yang sebenarnya
Jawaban yang diterima dimulai dengan kalimat bahwa “sistem mendeteksi pertanyaan tentang batas penggunaan paket Pro atau Max”, padahal kondisinya saat itu memang sudah menggunakan Pro plan dan inti pertanyaannya juga tidak disentuh dengan tepat
- Isi selanjutnya pun panjang berisi penjelasan bergaya dokumentasi tentang batas harian dan mingguan
- Tidak terlihat alur yang benar-benar menyelesaikan atau menangani langsung masalah yang ditanyakan
Di akhir email tertulis bahwa balasan tambahan mungkin tidak dipantau dan diminta untuk mengunjungi halaman bantuan, sehingga kanal pertanyaan pada praktiknya tertutup
- Artinya, setelah jawaban otomatis yang tidak mencerminkan masalah nyata, jalur dukungan pun ikut tertutup
- Kekecewaan terhadap kualitas dukungan pun mulai membesar secara serius

Penurunan kualitas

Dalam beberapa hari dan minggu setelah itu, kualitas hasil tidak lagi memuaskan dibanding pengalaman awal, dan waktu kerja yang tersedia juga berkurang drastis
- Dulu bisa menjalankan hingga tiga proyek sekaligus, tetapi kini bahkan pada satu proyek saja batas token habis dalam dua jam
- Jumlah yang bisa dipakai dan produktivitas yang dirasakan sama-sama memburuk
Disebutkan juga bahwa penilaian kualitas bisa bersifat subjektif dan performa agen sangat dipengaruhi pengguna
- Pada saat yang sama juga diungkap bahwa GitHub Copilot, OpenAI Codex, OMLX, Continue, dan Qwen3.5-9B turut digunakan, sehingga terlihat ada pengalaman penggunaan pembanding
- Tidak mengklaim keahlian absolut, tetapi tetap terbaca sebagai penurunan yang dirasakan setelah memakai berbagai alat
Dalam contoh ketika Claude Opus diminta melakukan refactoring proyek, log penalaran model menunjukkan arah untuk menambahkan initializer umum di ui-events.js agar penyisipan tampilan nilai dilakukan otomatis, alih-alih mengubah semua slider langsung di JSX
- Pendekatan itu berupa jalan memutar yang otomatis menyisipkan tampilan nilai bila tidak ada pada tiap range input
- Log seperti ini terasa perlu diperiksa bukan sesekali, melainkan cukup sering
Pendekatan tersebut dinilai bukan praktik yang baik, melainkan jalan pintas murahan, dan setelah ditegur langsung Opus pun mengakui itu pendekatan malas lalu beralih menambahkan label langsung di JSX dan menghubungkannya secara eksplisit
- Hanya untuk membetulkan arah awal yang salah itu saja, sekitar 50% dari jatah token jendela 5 jam habis
- Penurunan kualitas hasil jadi melampaui sekadar kesan, dan berubah menjadi pemborosan biaya nyata

Kebingungan cache dan tampilan batas

Masalah cache percakapan juga baru muncul, dan terkait hal ini disertakan postmortem Anthropic serta diskusi Hacker News
- Fakta bahwa masalah ini dibahas secara terbuka dipandang positif
- Namun dari sisi pengalaman pengguna, bebannya tetap ada
Setelah waktu tertentu berlalu dan pekerjaan dilanjutkan lagi, cache percakapan hilang sehingga model mulai membaca codebase lagi dari awal
- Dari sisi biaya ini mungkin masuk akal secara bisnis, tetapi dari sudut pandang pengguna, token untuk loading awal sudah dibayar sekali lalu setelah jeda paksa harus membayar lagi biaya loading yang sama
- Terutama bila sempat berhenti karena batas jendela token 5 jam, saat kembali biaya yang sama harus dibayar berulang
Pernah juga jendela mingguan tiba-tiba berubah dari berbasis hari ini menjadi berbasis hari Senin, dan bersamaan dengan perubahan itu penggunaan sempat di-reset ke 0
- Reset itu sendiri disambut baik, tetapi tidak diketahui mengapa perubahan seperti ini terjadi
- Hal ini memberi kesan bahwa sistem batas tidak terlihat konsisten
Saat terus memantau penggunaan token selama mengerjakan proyek, tiba-tiba muncul peringatan bahwa batas penggunaan bulanan perlu dikhawatirkan, padahal bukan pengguna organisasi
- Pada saat itu batas per jam maupun mingguan juga belum terlampaui
- Dasar munculnya peringatan itu pun tidak dijelaskan di layar
Sekitar dua jam kemudian peringatan itu hilang dan pekerjaan bisa dilanjutkan lagi
- Bahkan di dokumentasi pun tidak ada batas penggunaan bulanan
- Di halaman pengaturan juga tertulis bahwa yang ditampilkan hanya sesi saat ini dan batas mingguan, sehingga keberadaan batas bulanan itu tetap tidak jelas sampai akhir

Dampak produktivitas dan pembatalan akhir

Rasa suka terhadap produk itu sendiri tetap besar, dan secara teoretis semuanya dinilai bisa berjalan sangat baik serta memiliki banyak peluang
- Sudah dibuat juga harness internal berbasis Claude, dan Claude Caude yang menangani issue GitHub di latar belakang juga sangat diapresiasi
- Penulisan Nerd Enzyklopädie juga terus dilanjutkan dengan Claude Cowork
Produktivitas meningkat bukan sekadar kelipatan satu digit, melainkan satu tingkat orde besaran, sehingga ide di kepala bisa diwujudkan jauh lebih cepat dan mudah dibanding beberapa tahun lalu
- Potensi produk dan manfaat nyatanya sendiri terlihat jelas
- Penilaian bahwa susunan fiturnya dikerjakan dengan cermat juga ikut disebutkan
Pada saat yang sama, dipahami juga adanya kesulitan teknis dan organisasional dalam mengoperasikan produk seperti ini, dan penjualan inferensi memiliki struktur biaya marginal sehingga tiap tambahan waktu dan pelanggan baru memerlukan sumber daya komputasi pada tingkat yang sama
- Ini juga memperlihatkan bahwa skala ekonomi sulit diperoleh
- Kesulitan menjalankan layanan itu sendiri tidak disangkal
Pada akhirnya, disimpulkan bahwa Anthropic tampaknya tidak mampu menangani terlalu banyak pelanggan baru sekaligus, dan dengan ungkapan bahwa keputusan ini untuk sedikit mengurangi beban mereka, akun pun dibatalkan
- Kesenjangan antara rasa suka pada produk dan masalah operasional yang benar-benar dirasakan saat penggunaan berujung pada keputusan pembatalan
- Kesimpulannya dirangkum sebagai akumulasi dukungan yang buruk, penurunan kualitas, dan kebingungan soal batas

8 komentar

iolothebard 4 jam lalu

“Pada beberapa minggu awal, batas token terasa cepat dan adil”??
Adil itu ditentukan oleh siapa?

emptybynature 1 jam lalu

Kalau Claude dan ChatGPT bersaing, konsumen tentu diuntungkan haha. Semoga Gemini juga segera ikut meramaikan, dan model-model Tiongkok juga berkembang pesat, jadi semoga semuanya saling bersaing habis-habisan.

savvykang 8 jam lalu

Melihat layanan seharga 220 dolar per bulan bahkan tidak bisa mencapai ketersediaan 99,5%, saya jadi bertanya-tanya apakah pengguna ini dianggap bodoh. Claude.ai bahkan tidak mencapai 99%.

geralt 8 jam lalu

Sebagai gantinya Anda memakai layanan apa? Codex? Saya masih terus memakainya karena tidak melihat ada alternatif...

vndk2234 2 jam lalu

Memang benar tidak ada alternatif, tetapi ini pertama kalinya seumur hidup saya memakai layanan yang bahkan tidak bisa mempertahankan uptime 99%..

savvykang 2 jam lalu

Kalau ada alternatif, saya juga ingin tahu.

picopress 9 jam lalu

Batas penggunaan bulanan
Batas penggunaan tahunan
wkwkwk...

GN⁺ 14 jam lalu

Komentar Hacker News

Bahkan setelah menulis dokumen spesifikasi yang detail lengkap dengan Markdown dan contoh kode dalam beberapa file lalu memberikannya ke Claude Sonnet, ada kalanya ia tetap melewatkan requirement, membuat kode duplikat, atau bahkan menambahkan pemrosesan data yang tidak perlu
Juga terlihat kecenderungan untuk sekadar menghias agar tes lolos, sehingga pada akhirnya saya malah membaca kode dalam jumlah besar alih-alih menulisnya
Dari awal pun, kalau benar-benar dikerjakan sendiri, membaca kode dan membentuk mental model jauh lebih sulit daripada coding, dan dengan Gen AI beban itu malah makin besar
Jadi pada harga Anthropic saat ini, menurut saya hasil akhirnya rugi bersih
Saya bukan membuat vibe coding, melainkan software yang benar-benar diandalkan pengguna, jadi saya berencana segera membatalkan langganan
- Jangan biarkan AI menulis kode sepenuhnya sebagai pengganti Anda; lebih baik gunakan seperti asisten code review
  Lebih cocok dipakai dalam siklus test·lint sehari-hari untuk meninjau, mempercepat evaluasi library pihak ketiga, meneliti topik baru, menyusun draft RFC·dokumen desain, atau menjadi lawan bicara saat menghadapi masalah sulit
  Saya memang tidak suka perusahaan AI secara umum dan tetap merasa tidak nyaman karena semuanya dibangun di atas pelanggaran hak cipta, tetapi model terbaru memang sangat cerdas dalam beberapa hal
  Tidak perlu menerima hype vibecoding yang berlebihan; sebagai alat produktivitas saja pun nilainya sudah cukup besar
  Tidak memakainya sama sekali juga boleh dan tidak ada kewajiban membayar perusahaan tertentu, tetapi menurut saya tidak perlu membuang seluruh teknologi ini hanya karena vibe coding
- Lebih baik berhenti melempar semuanya sekaligus dan memecah pekerjaan lalu micromanage
  Jangan serahkan seluruh spesifikasi sistem; desain tetap dikerjakan sendiri, dan bila perlu AI hanya membantu desain sementara implementasi diminta satu per satu agar akurasinya lebih tinggi
  Jika tiap tahap ditinjau, diperbaiki, lalu baru lanjut ke tahap berikutnya, hasilnya tetap lebih cepat daripada menulis semuanya sendiri sekaligus jauh lebih mudah dikendalikan
- Menulis spesifikasi detail lalu menyerahkannya utuh ke AI bukan cara yang optimal
  Itu lebih mirip vibecoding dengan satu tahap dokumentasi tambahan, dan bila ingin mengurangi pekerjaan merapikan, lebih baik pakai model terbaik pada saat itu daripada Sonnet
  Tetap saja, model mana pun tidak akan menangani semuanya dengan sempurna, jadi jangan memakainya dengan pola serba atau tidak sama sekali
  Lebih realistis tetap membuat penilaian sendiri sambil menempelkan AI hanya pada bagian yang memang membantu untuk mempercepat pekerjaan
  Para engineer yang tidak junior umumnya berakhir pada pola itu, dan klaim berlebihan soal pembuatan aplikasi otomatis di LinkedIn atau SNS sebaiknya diabaikan
- Masalah yang dialami banyak orang tampaknya datang dari ekspektasi yang tidak realistis
  Dengan cara pakai yang mirip, saya bisa membuat kode lebih cepat dan dengan kualitas lebih baik, dan beban pada pergelangan tangan juga jauh berkurang
  Perbedaannya tampaknya ada pada fakta bahwa saya hanya menyerahkan bagian yang memang bisa ditangani AI, sambil menjaga cakupannya tetap sempit dan bertahap
  Perubahan kecil yang jelas mudah direview, tetapi jika setiap hari menerima dump kode 10 ribu baris, menilainya jadi sulit
  Bisa jadi Anda mendorong terlalu banyak, terlalu cepat, dan terlalu dini
  Kalau keseimbangannya tepat, nilainya akan terlihat; mungkin tidak secepat ledakan produktivitas seperti yang dibayangkan, tetapi tetap besar kemungkinan lebih cepat daripada bekerja sendiri
- Mungkin saya memakainya berbeda dari orang lain, tetapi kalau saya menuliskan apa yang diinginkan dan caranya, Opus 4.7 akan menyusun rencana lalu saya review dengan teliti
  Verifikasi dan pengecekan memang sering diperlukan, dan rencananya juga kerap harus direvisi beberapa kali, tetapi untuk implementasi saya tetap memakai Opus
  Saat ini model tersebut tampaknya menggunakan cache, sehingga kadang muncul peringatan agar tidak mengimplementasikan dengan Sonnet
  Perlu waktu untuk membaca dan memahami, dan saya juga sering melakukan koreksi manual, tetapi umumnya semuanya masih tertangani dalam langganan Pro
Saya memakai Claude Opus dengan cukup efektif, dan pada langganan tingkat menengah saya tidak terlalu sering mentok limit
Cara kerja saya lebih mirip copilot daripada autopilot, jadi saya hanya memberi prompt untuk tugas-tugas yang cakupannya terbatas dan hampir semuanya saya review
Untuk penggunaan seperti ini, saya merasa model-model papan atas sudah sampai pada tingkat cukup bagus
Saya berharap muncul model open source berbasis kode yang lisensinya benar sehingga coding berbantuan LLM menjadi komoditas
- Saya juga cukup puas karena memakainya dengan gaya copilot, tetapi terasa kuat sekali bahwa para vendor ingin mendorong kita ke mode autopilot
  Mereka tampak ingin membuat kita memakai lebih banyak token agar bisa menagih lebih banyak, sambil pada saat yang sama terlihat bahwa penggunaan nyata ternyata lebih besar dari perkiraan sehingga struktur harga saat ini sulit dipertahankan
  Kalau akhirnya solusi mereka adalah menyuruh pengguna naik ke paket yang lebih mahal, maka dua hal itu sebenarnya tidak sepenuhnya bertentangan
- Rasanya komoditisasi coding berbantuan LLM bukannya sudah terjadi?
  Biayanya sekitar 100 dolar per bulan, dan di negara maju pun tidak sedikit rumah yang tagihan listriknya lebih mahal dari itu
  Definisi coding berbantuan LLM menurut saya adalah memahami sepenuhnya setiap perubahan dan setiap baris; kalau tidak, itu vibe coding
  Kalau prinsip itu benar-benar dijalankan dengan serius, menurut saya sulit menghabiskan kuota tier $100
- Saya juga copilot, bukan autopilot
  Di antara berbagai model, ini yang menurut saya paling baik, dan saya lebih sering memakainya sesekali sebagai pengganti mesin pencari daripada menyuruhnya mengerjakan pekerjaan nyata
  Saya tidak pernah merasa LLM efisien untuk benar-benar menggantikan pekerjaan, dan saya merindukan masa ketika dokumentasi teknis masih layak dipakai
  Pada akhirnya, Claude tampak lebih seperti kruk untuk menutup celah developer experience
- Saya memakai Max 5x hanya dengan Claude Opus di mode xhigh, tidak memakai agent maupun MCP, dan hanya menggunakan Claude Code
  Sangat sulit menghabiskan seluruh jatah penggunaan, dan meskipun saya menyerahkan banyak pekerjaan sungguhan, rata-rata mingguan tetap berakhir di sekitar 30%
  Namun saat masih di Pro, saya terlalu sering mentok limit sampai terasa lucu, dan satu request saja kadang bisa melewati 100% sesi lalu berujung biaya tambahan
  Secara pengalaman, Max 5x terasa jauh lebih besar dari sekadar 5 kali lipat, tetapi Anthropic sangat samar soal hal seperti surge rate sehingga saya tidak bisa yakin
  Belakangan ini saya cukup skeptis melihat banyaknya posting HN bertipe Opus sudah tamat, pindah ke Codex
  Mungkin sebagian hanya pelampiasan frustrasi, tetapi beberapa juga terasa seperti astroturfing
- Saya juga mirip
  Meski sering dipakai untuk pekerjaan nyata, saya belum pernah kena limit
  Membiarkan LLM berjalan berjam-jam pada akhirnya terasa seperti resep untuk membuang waktu saya sendiri demi melacak apa yang sebenarnya dikerjakan dan kenapa
Yang mengkhawatirkan adalah orang-orang menjadi bergantung pada GenAI berlangganan yang tertutup dan tidak transparan
Mereka membangun sesuatu di atasnya seolah itu fondasi yang kokoh, padahal suatu hari pemiliknya bisa saja tiba-tiba menarik fondasi itu
- Meski begitu, produk-produk ini punya substitutabilitas yang tinggi
  Belakangan rate limit cukup mengganggu sehingga saya lebih suka Codex daripada CC, tetapi cara kerja saya sendiri hampir tidak perlu diubah
- Setidaknya sebagian investor memang mengincar posisi monopoli di sini
  Mereka ingin membakar uang sebesar mungkin untuk membuat jarak yang mustahil dikejar pesaing, lalu menetapkan harga sesuka hati
  Namun persaingan saat ini masih ketat, dan untuk alat coding memang Anthropic yang terbaik, hanya saja keunggulannya lebih kecil daripada dulu
  Terus terang, di level Opus 4.5 saja sebenarnya sudah mencapai kualitas yang cukup layak dipakai, dan sekarang sudah ada beberapa model di kelas itu
  Gemini Pro 3.1 juga mirip, dan Codex saat ini menurut saya lebih baik daripada Opus 4.5 dan lebih dekat ke 4.7
  Saya sendiri sering berganti model dan agent dalam proyek yang sama, dan biaya perpindahannya praktis nol
  Tinggal menjalankan gemini, copilot, atau hermes alih-alih claude, jadi ketergantungannya pada model tertentu tidak dalam
  Para vendor tentu akan mencoba menambahkan fitur yang menciptakan lock-in, tetapi model papan atas sudah begitu pintar sehingga sering kali cukup dengan menyuruh mereka melakukan hal yang dibutuhkan
  Saat ini satu-satunya moat yang konsisten mungkin hanya kemampuan membuat model terbaik, dan itu pun dangkal, sehingga kalau Claude Code hilang besok pun tidak akan fatal
  Model open yang bisa di-host sendiri juga sudah semakin dekat
- Untungnya, AI lokal makin hari makin realistis
- Karena itu saya melihat model open source dan model berdaulat yang bisa diakses semua orang dan selalu aktif sebagai hal yang krusial
  Persaingan OpenAI dan Anthropic memang menarik, dan ditambah arus open source sepertinya kita akan segera sampai ke titik itu
- Sangat mudah membayangkan skenario ketika pemiliknya melakukan rug pull langsung, atau Broadcom mengakuisisinya lalu mulai memeras habis-habisan
Claude dengan Sonnet medium effort pernah menghabiskan 100% limit satu sesi plus biaya tambahan, lalu berpikir selama 53 menit hanya untuk mengeluarkan
API Error: Claude's response exceeded the 32000 output token maximum...
- Dan candaan bahwa pada hari ketujuh pun hasilnya tetap API Error: Claude's response exceeded the 32000 output token maximum benar-benar terasa pas
- Saya rasa saya tidak akan membiarkannya berpikir lebih dari 5 menit
- Kalau situasi begini terjadi, saya jadi penasaran apakah para agentic/vibe coder memberi tahu bos mereka, "Saya tidak bisa kerja sampai besok"
- Kalau pesan error itu ditempel kembali ke Claude apa adanya, sering kali ia akan lanjut dari sana
  Saya sudah beberapa kali melihatnya dalam beberapa bulan terakhir; awalnya saya kira ini masalah AWS Bedrock, tetapi tampaknya bukan itu saja
- Saya penasaran ini paket Max 5x atau 20x
Saya dan beberapa rekan selama dua bulan terakhir mengalami penurunan kemampuan kognitif yang signifikan pada Claude
4.5 masih lumayan, 4.6 benar-benar bagus, dan dalam benchmark pribadi saya, 4.5 hanya nyaris bisa melacak merge loop pointer 2-arah, sementara 4.6 bisa 3-arah, dan context 1M bisa menangani sampai k-way
Kemampuan pelacakan ini membuatnya berguna untuk memahami dan memodifikasi kode produksi yang nyata
Namun sejak dua bulan lalu, 4.6 mulai sering lupa dan membuat keputusan bodoh, dan setelah saling membandingkan ternyata bukan hanya saya yang mengalaminya
4.7 pun tidak jauh lebih baik, dan beberapa minggu terakhir terasa seperti terus bertarung melawan penurunan level of effort otomatis
Saat terasa ada yang bodoh, saya cek pengaturannya dan ternyata diam-diam sudah diturunkan, jadi gesekannya besar
Kita sudah membuktikan bahwa model sebagus versi awal 4.6 itu mungkin ada; masalahnya adalah dalam proses membawa ke pasar massal, Anthropic melakukan throttle dan downgrade sehingga kegunaan nyatanya turun
Menurut saya, begitu DeepSeek segera mencapai tingkat lebih dari cukup bagus setara 4.6+, orang-orang akan mulai keluar dari pola Claude yang meminta lebih banyak uang untuk hasil yang lebih sedikit
Yang dibutuhkan bukan sesuatu yang lebih hebat, melainkan kemampuan memakai apa yang sebenarnya sudah mungkin itu secara stabil, di bawah kendali kita, dan berbasis provisioned alih-alih metered
- Ini memang masalah yang nyata, dan Anthropic juga mengakuinya baru-baru ini dalam https://www.anthropic.com/engineering/april-23-postmortem
  Memang menyebalkan kalau perusahaan membuat kesalahan seperti ini, tetapi mereka sempat melonggarkan pembatasan untuk beberapa waktu sehingga secara praktis memberi kompensasi, dan yang terpenting responsnya cukup transparan
  Saya tidak yakin perusahaan AI besar lain akan setransparan ini, jadi walau saya kesal pada Claude, saya tetap menghormati cara mereka menanganinya
- Kalau 4.7 tidak disetel ke xhigh atau max effort, menurut saya itu nyaris buang-buang waktu
Langganan max20 saya hampir menganggur sejak April, dan Codex 5.4 lalu sekarang 5.5 terasa benar-benar berbeda bahkan saat memakai fast mode
Opus gagal dengan meyakinkan, lupa setengah detail penting, atau diam-diam menempelkan tambalan utang teknis atas nama pragmatis lalu bersikeras bahwa ia berhasil
Padahal sesudah perubahan sistemnya hancur, dan ketika kesalahannya ditunjukkan kadang ia malah membuat kekacauan yang lebih besar
Opus bagus untuk membuat ruang greenfield sekali tembak, tetapi untuk iterasi berikutnya atau pekerjaan integrasi yang kompleks, kualitasnya sangat buruk sampai merugikan
Sebaliknya, GPT 5.4+ meluangkan waktu untuk lebih dulu memikirkan edge case, dan hasilnya memang benar, sehingga mengurangi putaran debug lanjutan sebelum akhirnya memberikan hasil yang tepat
Ia juga tidak terjebak berlama-lama dalam loop berpikir seperti "ini sepertinya bukan malware", "sebentar" bahkan untuk memperbaiki skrip satu baris
- Mental model saya terhadap LLM adalah tidak mengharapkannya bisa berjalan sambil mengunyah permen karet
  Merapikan kode adalah pekerjaan yang berbeda dari menambahkan fitur baru, dan keluarga GLM, walaupun tampak lebih pintar di permukaan, pada akhirnya tetap membutuhkan siklus build/prune ketika kode aslinya direview
- Wajar kalau ada yang bercanda minta max20 yang tidak dipakai itu diberikan ke saya
- Alur paling produktif buat saya adalah berlangganan keduanya; Claude diberi peran menghantam masuk fitur, lalu Codex diminta me-review dengan
  "Ini penuh race condition, kan?"
  Sekarang saya hanya memakai Codex karena Claude sulit dipercaya dan terlalu sering meninggalkan data race atau kondisi negatif yang terlewat
Akhir-akhir ini saya memakai Aider, dan karena kebijakan pelatihan baru saya mungkin juga akan membatalkan langganan Github multi AI bundle
Memakai Aider bersama model open baru, lalu menyepakati requirement lewat Open Spec sebelum menyerahkannya, cukup membantu alurnya
Layanan AI punya insentif yang lemah untuk mengurangi penggunaan token
Mereka menghasilkan lebih banyak uang jika membuat kita memakai lebih banyak token, jadi tampaknya mereka akan terus menguji seberapa jauh bisa mendorong sebelum pengguna benar-benar marah
Semua perusahaan AI akan terus berpindah posisi antara jumlah token dan harga seiring biaya mereka naik
Dan kita tampak seperti katak dalam air hangat yang hampir mendidih, tetapi masih diyakinkan bahwa itu cuma air mandi
- Dulu di AWS juga ada ucapan, "kenapa mereka harus menghemat uang Anda," tetapi pada praktiknya makin murah harganya, makin banyak pengguna yang datang sehingga mereka justru menghasilkan lebih banyak
  Perusahaan AI memiliki insentif yang sama
  Kalau lebih murah, pemakaian akan meningkat, dan selama harga tetap di atas biaya pokok, pada akhirnya pendapatan bisa naik
  Tentu saja ada alasan kuat juga bagi mereka untuk menurunkan biaya sendiri
- Sampai taraf tertentu itu benar, tetapi ketika kendala kapasitas benar-benar membatasi dan Anthropic juga bukan monopoli sehingga mendapat tekanan kompetitif, insentif ekonominya berubah
- Saya melihat orang akan makin lelah dengan lock-in agent yang tertutup
  Karena itu saya membuat https://github.com/dirac-run/dirac, open source (fork cline) yang ditujukan murni pada efisiensi token
  Saya memperkirakan para vendor lock-in tertutup akan makin membuat pengguna frustrasi seiring waktu, dan saat ini saya juga sedang mencari kontributor
- Sampai titik tertentu insentif itu memang ada, tetapi akan berubah ketika mereka tak sanggup lagi menampung pengguna dan pelanggan mulai pergi
- Saya juga berpikir begitu
  Terdengar seperti teori konspirasi, tetapi perusahaan seperti Anthropic tetap untung bahkan saat modelnya tidak menyelesaikan pekerjaan
  Saya juga baru membaca soal fenomena over editing, dan rasanya mesin memang tidak pernah benar-benar ingin selesai
  Mirip aplikasi kencan yang tidak ingin memberi pasangan yang bagus
  Kalau berhasil, pengguna malah akan berhenti berlangganan
Kemarin rasanya seperti momen pencerahan
Saya memberi Claude Code yang terhubung ke LLM lokal tugas ekstraksi sederhana, dan ia hanya berdengung selama 10 menit
Dengan data dan prompt yang sama, ketika model itu saya beri langsung lewat UI chat llama_cpp, hasilnya selesai single-shot dalam waktu kurang dari semenit
Jadi mau tak mau saya menyimpulkan bahwa ada sesuatu yang salah pada coding agent itu sendiri atau pada cara berbicara dengan LLM
Sekarang saya sedang mencari coding agent open source yang sangat sederhana; Nanocoder bahkan sulit dipasang di Mac dan saya tidak suka node-modules-nya yang terlalu gemuk, sementara Opencode tampaknya tidak sepenuhnya open source
Untuk sementara saya sendiri yang berperan sebagai coding agent sambil memakai web UI llama_cpp, dan sejauh ini cukup berjalan dengan baik
- https://pi.dev/ tampaknya cukup populer, dan saya penasaran bagian mana dari Opencode yang dianggap bukan open source
  Repositorinya memakai MIT License
- Mungkin terdengar agak nyeleneh, tetapi Anda bisa meminta AI yang sedang dipakai sekarang untuk membangunkan agent yang Anda inginkan sendiri
  Kalau yang diinginkan coding agent yang "amat sangat sederhana", justru itu bisa dibuat sangat pas sesuai kebutuhan
  Saya sendiri benar-benar melakukan itu minggu ini karena kesal dengan perilaku aneh Anthropic, dan dalam beberapa hari sudah berhasil menjalankan sesuatu yang lumayan
  Dalam kasus saya, di BeOS atau Mac lawas tidak ada Claude Code, jadi lebih mudah bagi saya untuk bootstrap sendiri lalu menyambung-nyambungkannya
  Dengan melalui proses ini, kita juga belajar banyak tentang bagaimana model sebenarnya bekerja dan seberapa banyak tambalan konyol yang berjalan di dalam Claude Code
  Tentu saja kita juga jadi agak memahami tingkat kesulitan yang memang harus diselesaikan agent atau harness
  Saya juga mengalami masalah Claude Code yang lebih lambat daripada llama_cpp, dan dugaan saya trafik API diprioritaskan dibanding trafik langganan
  API memang terasa jauh lebih cepat, tetapi biayanya juga jauh lebih mahal
- Kalau belum terpikir, saya ingin bilang: buat saja coding agent yang Anda inginkan sendiri
  Strukturnya ternyata jauh lebih sederhana dari yang dibayangkan
- Pada titik ini rasanya seharusnya sudah ada satu alat yang berada di antara TUI dan IDE
- CC juga bisa dijalankan dengan model lokal, dan itu tidak sesulit yang dibayangkan
  Saya benar-benar pernah melakukannya dengan memberi shim tipis pada vLLM agar hanya sintaks endpoint-nya yang berubah
Kadang model Claude yang sama pada suatu waktu membuat kesalahan logika, di waktu lain tidak
Kinerja Claude tampak sangat bergantung pada waktu, dan ada grafik yang menunjukkan ini
https://marginlab.ai/trackers/claude-code/
Selain itu, walau jarang dibahas terbuka, saya juga merasa hasil model yang sama bisa cukup berbeda tergantung quantization
Versi 4-bit dan 8-bit punya kebutuhan komputasi yang berbeda dan kualitas output yang juga berbeda
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Saya tahu model frontier tidak harus selalu berjalan identik, tetapi di jam sibuk saya jadi bertanya-tanya apakah ada semacam fidelity dial di suatu tempat yang menyesuaikan performa demi menekan penggunaan memori atau sumber daya
- Saya tidak yakin grafik itu benar-benar menunjukkan korelasi terhadap waktu
  Garis 60% masih berada dalam interval kepercayaan 95%, jadi mungkin saja itu cuma noise pengukuran, bukan?