10 poin oleh GN⁺ 2026-04-25 | 10 komentar | Bagikan ke WhatsApp
  • Pada beberapa minggu awal, saya cukup puas berkat kecepatan tinggi, jatah token yang terasa adil, dan kualitas hasil yang bagus, tetapi sekitar 3 minggu lalu pengalaman itu berubah drastis
  • Setelah istirahat 10 jam lalu kembali, saya hanya mengirim dua pertanyaan singkat ke Claude Haiku, tetapi pemakaian langsung melonjak hingga 100%, dan kanal dukungan pada praktiknya tertutup setelah balasan otomatis yang tidak menyentuh inti pertanyaan
  • Belakangan ini, dari sebelumnya bisa menjalankan beberapa proyek sekaligus, kini bahkan satu proyek saja bisa menghabiskan batas token dalam dua jam, dan saat refactoring hampir setengah dari jendela 5 jam habis hanya untuk membetulkan jalan pintas murahan
  • Setelah waktu tertentu, cache percakapan menghilang sehingga biaya untuk membaca ulang codebase terus berulang, ditambah perubahan titik acuan mingguan dan peringatan batas bulanan tanpa penjelasan membuat sistem batas pemakaian terasa tidak konsisten
  • Saya tetap sangat mengakui peningkatan produktivitas dan potensi produknya, tetapi akumulasi dukungan yang buruk, penurunan kualitas, dan kebingungan soal batas pemakaian akhirnya membuat saya menutup akun Anthropic

Kepuasan awal dan perubahan setelahnya

  • Pada beberapa minggu pertama berlangganan Claude Code, kecepatannya tinggi, jatah token terasa adil, dan kualitas hasilnya juga bagus
    • Ada juga pengumuman bahwa jatah token ditingkatkan di jam tidak sibuk
    • Ditambah sikap yang menentang sebagian aturan pemerintah, saya juga sempat merasa ingin mendukung produknya
  • Namun sekitar 3 minggu lalu, kepuasan awal itu mulai memudar dengan cepat
    • Di bagian-bagian berikutnya, masalah respons dukungan, kualitas, dan batas pemakaian terus berlanjut

Masalah kualitas dukungan

  • Setelah istirahat sekitar 10 jam dan mengira token sudah terisi kembali, saya mulai bekerja di pagi hari, tetapi segera setelah mengirim dua pertanyaan singkat ke Claude Haiku yang bahkan tidak terkait dengan repositori, penggunaan token langsung melonjak hingga 100%
    • Pertanyaannya sederhana dan skalanya kecil
    • Perkiraan saya soal refresh token tidak sesuai dengan kenaikan pemakaian yang sebenarnya
  • Saya bertanya ke bot dukungan AI, tetapi yang diberikan hanya panduan dasar dan bahkan masalah yang sebenarnya pun tidak dipahami dengan benar
    • Setelah itu saya meminta dukungan manusia
    • Beberapa hari kemudian, balasan yang datang juga tampak seperti format jawaban yang meleset dari masalah sebenarnya
  • Balasan yang diterima dimulai dengan kalimat bahwa “sistem mendeteksi pertanyaan tentang batas penggunaan paket Pro atau Max”, padahal saat itu saya memang sudah memakai Pro plan, dan inti pertanyaan saya pun tidak disentuh dengan benar
    • Isi setelahnya juga berupa penjelasan panjang ala dokumentasi tentang batas harian dan mingguan
    • Tidak terlihat alur yang benar-benar menyelesaikan atau menangani langsung masalah yang saya tanyakan
  • Di bagian akhir email ada kalimat bahwa balasan tambahan mungkin tidak akan dipantau dan saya diminta mengunjungi halaman bantuan, sehingga kanal pertanyaan itu pada praktiknya tertutup
    • Setelah balasan otomatis yang tidak mencerminkan masalah nyata, jalur dukungannya pun ikut tertutup
    • Kekecewaan saya terhadap kualitas dukungan pun makin membesar

Penurunan kualitas

  • Dalam beberapa hari dan minggu berikutnya, kualitas hasil tidak lagi memuaskan dibanding pengalaman awal, dan waktu kerja yang benar-benar bisa dipakai juga turun drastis
    • Dulu saya bisa menjalankan hingga tiga proyek sekaligus, tetapi sekarang bahkan satu proyek saja bisa menghabiskan batas token dalam dua jam
    • Jatah yang bisa dipakai dan produktivitas yang terasa keduanya sama-sama memburuk
  • Saya juga menekankan bahwa penilaian kualitas bisa bersifat subjektif dan performa agen sangat dipengaruhi pengguna
    • Pada saat yang sama, saya menyebut bahwa saya juga memakai GitHub Copilot, OpenAI Codex, OMLX, Continue, dan Qwen3.5-9B, sehingga terlihat bahwa ini lahir dari pengalaman membandingkan beberapa alat
    • Saya tidak mengklaim punya otoritas mutlak, tetapi penurunan ini terasa jelas setelah mencoba berbagai tool
  • Dalam kasus ketika saya meminta Claude Opus melakukan refactoring proyek, log pemikirannya menunjukkan arah untuk menambahkan initializer umum ke ui-events.js agar penyisipan tampilan nilai dilakukan otomatis, alih-alih mengubah semua slider langsung di JSX
    • Pendekatan itu berupa solusi memutar yang otomatis menyisipkan tampilan nilai jika tiap range input belum memilikinya
    • Dari log seperti ini terasa bahwa isinya perlu sering diperiksa, bukan hanya sesekali
  • Pendekatan ini saya nilai bukan praktik yang baik, melainkan jalan pintas murahan, dan setelah saya tunjukkan langsung, Opus juga mengakui itu pendekatan yang malas lalu beralih ke cara menambahkan label langsung di JSX dan menghubungkannya secara eksplisit
    • Hanya untuk membetulkan arah awal yang salah itu saja, sekitar 50% dari jatah token 5 jam sudah habis
    • Penurunan kualitas hasil tidak berhenti sebagai kesan semata, tetapi berubah menjadi pemborosan biaya nyata

Kebingungan soal cache dan tampilan batas

  • Masalah cache percakapan juga baru muncul, dan terkait hal itu ada tautan ke postmortem Anthropic serta diskusi Hacker News
    • Fakta bahwa masalah ini dibahas secara terbuka saya anggap sebagai hal yang positif
    • Namun beban dari sisi pengalaman pengguna tetap ada
  • Setelah jeda waktu tertentu lalu kembali bekerja, cache percakapan hilang sehingga model mulai membaca ulang codebase dari awal
    • Dari sisi biaya ini mungkin masuk akal secara bisnis, tetapi dari sudut pandang pengguna artinya token untuk initial loading sudah pernah dibayar sekali, lalu setelah jeda paksa harus membayar biaya loading yang sama lagi
    • Terutama ketika saya berhenti karena batas jendela token 5 jam, lalu kembali dan harus menanggung biaya yang sama berulang kali
  • Ada juga kejadian ketika jendela mingguan tiba-tiba berubah dari acuan hari ini menjadi acuan hari Senin, dan bersama perubahan itu penggunaan juga sempat di-reset ke 0
    • Reset itu sendiri tentu disambut baik, tetapi saya tidak tahu mengapa perubahan seperti itu terjadi
    • Ini memberi kesan bahwa sistem batas pemakaian tidak tampak konsisten
  • Saat terus memantau pemakaian token di tengah pekerjaan proyek, tiba-tiba muncul peringatan bahwa saya harus mengkhawatirkan batas penggunaan bulanan, padahal saya bukan pengguna organisasi
    • Pada saat itu saya juga belum melewati batas per jam maupun mingguan
    • Dasar dari peringatan itu juga tidak dijelaskan di layar
  • Sekitar dua jam kemudian, peringatan itu menghilang dan saya bisa lanjut bekerja lagi
    • Di dokumentasi juga tidak ada batas penggunaan bulanan
    • Di halaman pengaturan pun tertulis bahwa yang ditampilkan hanya sesi saat ini dan batas mingguan, sehingga hakikat batas bulanan itu tetap tidak jelas sampai akhir

Dampak produktivitas dan pembatalan akhir

  • Saya sendiri masih sangat menyukai produknya, dan secara teori semuanya bisa bekerja sangat baik serta peluangnya juga besar
  • Produktivitas saya meningkat bukan sekadar beberapa kali lipat, tetapi sampai satu orde besaran, dan ide-ide di kepala kini bisa diwujudkan jauh lebih cepat dan mudah dibanding beberapa tahun lalu
    • Potensi produk dan kegunaan nyatanya sendiri terlihat jelas
    • Susunan fiturnya juga dinilai dirancang dengan cermat
  • Pada saat yang sama, saya juga memahami kesulitan teknis dan organisasional dalam mengoperasikan produk seperti ini, dan penjualan inferensi punya struktur biaya marginal, sehingga tiap tambahan waktu dan tiap pelanggan baru membutuhkan tingkat sumber daya komputasi yang sama
    • Struktur seperti ini juga membuat skala ekonomi sulit didapat
    • Saya tidak menyangkal sulitnya pengoperasian layanan itu sendiri
  • Pada akhirnya, saya merasa Anthropic tampaknya tidak mampu menangani terlalu banyak pelanggan baru sekaligus, dan untuk mengurangi bebannya saya pun menutup akun saya
    • Kesenjangan antara rasa suka pada produk dan masalah operasional yang benar-benar terasa saat penggunaan berujung pada keputusan pembatalan
    • Ini adalah hasil akumulasi dari dukungan yang buruk, kualitas yang menurun, dan kebingungan soal batas pemakaian

10 komentar

 
iolothebard 2026-04-25

“Pada beberapa minggu awal, batas token terasa cepat dan adil”??
Adil itu ditentukan oleh siapa?

 
savvykang 2026-04-25

Melihat layanan seharga 220 dolar per bulan bahkan tidak bisa mencapai ketersediaan 99,5%, saya jadi bertanya-tanya apakah pengguna ini dianggap bodoh. Claude.ai bahkan tidak mencapai 99%.

 
geralt 2026-04-25

Sebagai gantinya Anda memakai layanan apa? Codex? Saya masih terus memakainya karena tidak melihat ada alternatif...

 
vndk2234 2026-04-25

Memang benar tidak ada alternatif, tetapi ini pertama kalinya seumur hidup saya memakai layanan yang bahkan tidak bisa mempertahankan uptime 99%..

 
lamanus 2026-04-26

GitHub sepertinya bukan cuma harus melawan angka 99, tapi bahkan 95 pun sulit.

 
savvykang 2026-04-26

Karena masalah sinkronisasi data proyek di Claude ai, tidak mudah untuk pindah, dan untuk sementara saya berencana memakai Claude Code, Codex, dan Gemini CLI secara bersamaan.

 
savvykang 2026-04-25

Kalau ada alternatif, saya juga ingin tahu.

 
picopress 2026-04-25

Batas penggunaan bulanan
Batas penggunaan tahunan
wkwkwk...

 
emptybynature 2026-04-25

Kalau Claude dan ChatGPT bersaing, konsumen tentu diuntungkan haha. Semoga Gemini juga segera ikut meramaikan, dan model-model Tiongkok juga berkembang pesat, jadi semoga semuanya saling bersaing habis-habisan.

 
GN⁺ 2026-04-25
Komentar Hacker News
  • Bahkan setelah menulis dokumen spesifikasi yang detail lengkap dengan Markdown dan contoh kode dalam beberapa file lalu memberikannya ke Claude Sonnet, ada kalanya ia tetap melewatkan requirement, membuat kode duplikat, atau bahkan menambahkan pemrosesan data yang tidak perlu
    Juga terlihat kecenderungan untuk sekadar menghias agar tes lolos, sehingga pada akhirnya saya malah membaca kode dalam jumlah besar alih-alih menulisnya
    Dari awal pun, kalau benar-benar dikerjakan sendiri, membaca kode dan membentuk mental model jauh lebih sulit daripada coding, dan dengan Gen AI beban itu malah makin besar
    Jadi pada harga Anthropic saat ini, menurut saya hasil akhirnya rugi bersih
    Saya bukan membuat vibe coding, melainkan software yang benar-benar diandalkan pengguna, jadi saya berencana segera membatalkan langganan

    • Jangan biarkan AI menulis kode sepenuhnya sebagai pengganti Anda; lebih baik gunakan seperti asisten code review
      Lebih cocok dipakai dalam siklus test·lint sehari-hari untuk meninjau, mempercepat evaluasi library pihak ketiga, meneliti topik baru, menyusun draft RFC·dokumen desain, atau menjadi lawan bicara saat menghadapi masalah sulit
      Saya memang tidak suka perusahaan AI secara umum dan tetap merasa tidak nyaman karena semuanya dibangun di atas pelanggaran hak cipta, tetapi model terbaru memang sangat cerdas dalam beberapa hal
      Tidak perlu menerima hype vibecoding yang berlebihan; sebagai alat produktivitas saja pun nilainya sudah cukup besar
      Tidak memakainya sama sekali juga boleh dan tidak ada kewajiban membayar perusahaan tertentu, tetapi menurut saya tidak perlu membuang seluruh teknologi ini hanya karena vibe coding
    • Lebih baik berhenti melempar semuanya sekaligus dan memecah pekerjaan lalu micromanage
      Jangan serahkan seluruh spesifikasi sistem; desain tetap dikerjakan sendiri, dan bila perlu AI hanya membantu desain sementara implementasi diminta satu per satu agar akurasinya lebih tinggi
      Jika tiap tahap ditinjau, diperbaiki, lalu baru lanjut ke tahap berikutnya, hasilnya tetap lebih cepat daripada menulis semuanya sendiri sekaligus jauh lebih mudah dikendalikan
    • Menulis spesifikasi detail lalu menyerahkannya utuh ke AI bukan cara yang optimal
      Itu lebih mirip vibecoding dengan satu tahap dokumentasi tambahan, dan bila ingin mengurangi pekerjaan merapikan, lebih baik pakai model terbaik pada saat itu daripada Sonnet
      Tetap saja, model mana pun tidak akan menangani semuanya dengan sempurna, jadi jangan memakainya dengan pola serba atau tidak sama sekali
      Lebih realistis tetap membuat penilaian sendiri sambil menempelkan AI hanya pada bagian yang memang membantu untuk mempercepat pekerjaan
      Para engineer yang tidak junior umumnya berakhir pada pola itu, dan klaim berlebihan soal pembuatan aplikasi otomatis di LinkedIn atau SNS sebaiknya diabaikan
    • Masalah yang dialami banyak orang tampaknya datang dari ekspektasi yang tidak realistis
      Dengan cara pakai yang mirip, saya bisa membuat kode lebih cepat dan dengan kualitas lebih baik, dan beban pada pergelangan tangan juga jauh berkurang
      Perbedaannya tampaknya ada pada fakta bahwa saya hanya menyerahkan bagian yang memang bisa ditangani AI, sambil menjaga cakupannya tetap sempit dan bertahap
      Perubahan kecil yang jelas mudah direview, tetapi jika setiap hari menerima dump kode 10 ribu baris, menilainya jadi sulit
      Bisa jadi Anda mendorong terlalu banyak, terlalu cepat, dan terlalu dini
      Kalau keseimbangannya tepat, nilainya akan terlihat; mungkin tidak secepat ledakan produktivitas seperti yang dibayangkan, tetapi tetap besar kemungkinan lebih cepat daripada bekerja sendiri
    • Mungkin saya memakainya berbeda dari orang lain, tetapi kalau saya menuliskan apa yang diinginkan dan caranya, Opus 4.7 akan menyusun rencana lalu saya review dengan teliti
      Verifikasi dan pengecekan memang sering diperlukan, dan rencananya juga kerap harus direvisi beberapa kali, tetapi untuk implementasi saya tetap memakai Opus
      Saat ini model tersebut tampaknya menggunakan cache, sehingga kadang muncul peringatan agar tidak mengimplementasikan dengan Sonnet
      Perlu waktu untuk membaca dan memahami, dan saya juga sering melakukan koreksi manual, tetapi umumnya semuanya masih tertangani dalam langganan Pro
  • Saya memakai Claude Opus dengan cukup efektif, dan pada langganan tingkat menengah saya tidak terlalu sering mentok limit
    Cara kerja saya lebih mirip copilot daripada autopilot, jadi saya hanya memberi prompt untuk tugas-tugas yang cakupannya terbatas dan hampir semuanya saya review
    Untuk penggunaan seperti ini, saya merasa model-model papan atas sudah sampai pada tingkat cukup bagus
    Saya berharap muncul model open source berbasis kode yang lisensinya benar sehingga coding berbantuan LLM menjadi komoditas

    • Saya juga cukup puas karena memakainya dengan gaya copilot, tetapi terasa kuat sekali bahwa para vendor ingin mendorong kita ke mode autopilot
      Mereka tampak ingin membuat kita memakai lebih banyak token agar bisa menagih lebih banyak, sambil pada saat yang sama terlihat bahwa penggunaan nyata ternyata lebih besar dari perkiraan sehingga struktur harga saat ini sulit dipertahankan
      Kalau akhirnya solusi mereka adalah menyuruh pengguna naik ke paket yang lebih mahal, maka dua hal itu sebenarnya tidak sepenuhnya bertentangan
    • Rasanya komoditisasi coding berbantuan LLM bukannya sudah terjadi?
      Biayanya sekitar 100 dolar per bulan, dan di negara maju pun tidak sedikit rumah yang tagihan listriknya lebih mahal dari itu
      Definisi coding berbantuan LLM menurut saya adalah memahami sepenuhnya setiap perubahan dan setiap baris; kalau tidak, itu vibe coding
      Kalau prinsip itu benar-benar dijalankan dengan serius, menurut saya sulit menghabiskan kuota tier $100
    • Saya juga copilot, bukan autopilot
      Di antara berbagai model, ini yang menurut saya paling baik, dan saya lebih sering memakainya sesekali sebagai pengganti mesin pencari daripada menyuruhnya mengerjakan pekerjaan nyata
      Saya tidak pernah merasa LLM efisien untuk benar-benar menggantikan pekerjaan, dan saya merindukan masa ketika dokumentasi teknis masih layak dipakai
      Pada akhirnya, Claude tampak lebih seperti kruk untuk menutup celah developer experience
    • Saya memakai Max 5x hanya dengan Claude Opus di mode xhigh, tidak memakai agent maupun MCP, dan hanya menggunakan Claude Code
      Sangat sulit menghabiskan seluruh jatah penggunaan, dan meskipun saya menyerahkan banyak pekerjaan sungguhan, rata-rata mingguan tetap berakhir di sekitar 30%
      Namun saat masih di Pro, saya terlalu sering mentok limit sampai terasa lucu, dan satu request saja kadang bisa melewati 100% sesi lalu berujung biaya tambahan
      Secara pengalaman, Max 5x terasa jauh lebih besar dari sekadar 5 kali lipat, tetapi Anthropic sangat samar soal hal seperti surge rate sehingga saya tidak bisa yakin
      Belakangan ini saya cukup skeptis melihat banyaknya posting HN bertipe Opus sudah tamat, pindah ke Codex
      Mungkin sebagian hanya pelampiasan frustrasi, tetapi beberapa juga terasa seperti astroturfing
    • Saya juga mirip
      Meski sering dipakai untuk pekerjaan nyata, saya belum pernah kena limit
      Membiarkan LLM berjalan berjam-jam pada akhirnya terasa seperti resep untuk membuang waktu saya sendiri demi melacak apa yang sebenarnya dikerjakan dan kenapa
  • Yang mengkhawatirkan adalah orang-orang menjadi bergantung pada GenAI berlangganan yang tertutup dan tidak transparan
    Mereka membangun sesuatu di atasnya seolah itu fondasi yang kokoh, padahal suatu hari pemiliknya bisa saja tiba-tiba menarik fondasi itu

    • Meski begitu, produk-produk ini punya substitutabilitas yang tinggi
      Belakangan rate limit cukup mengganggu sehingga saya lebih suka Codex daripada CC, tetapi cara kerja saya sendiri hampir tidak perlu diubah
    • Setidaknya sebagian investor memang mengincar posisi monopoli di sini
      Mereka ingin membakar uang sebesar mungkin untuk membuat jarak yang mustahil dikejar pesaing, lalu menetapkan harga sesuka hati
      Namun persaingan saat ini masih ketat, dan untuk alat coding memang Anthropic yang terbaik, hanya saja keunggulannya lebih kecil daripada dulu
      Terus terang, di level Opus 4.5 saja sebenarnya sudah mencapai kualitas yang cukup layak dipakai, dan sekarang sudah ada beberapa model di kelas itu
      Gemini Pro 3.1 juga mirip, dan Codex saat ini menurut saya lebih baik daripada Opus 4.5 dan lebih dekat ke 4.7
      Saya sendiri sering berganti model dan agent dalam proyek yang sama, dan biaya perpindahannya praktis nol
      Tinggal menjalankan gemini, copilot, atau hermes alih-alih claude, jadi ketergantungannya pada model tertentu tidak dalam
      Para vendor tentu akan mencoba menambahkan fitur yang menciptakan lock-in, tetapi model papan atas sudah begitu pintar sehingga sering kali cukup dengan menyuruh mereka melakukan hal yang dibutuhkan
      Saat ini satu-satunya moat yang konsisten mungkin hanya kemampuan membuat model terbaik, dan itu pun dangkal, sehingga kalau Claude Code hilang besok pun tidak akan fatal
      Model open yang bisa di-host sendiri juga sudah semakin dekat
    • Untungnya, AI lokal makin hari makin realistis
    • Karena itu saya melihat model open source dan model berdaulat yang bisa diakses semua orang dan selalu aktif sebagai hal yang krusial
      Persaingan OpenAI dan Anthropic memang menarik, dan ditambah arus open source sepertinya kita akan segera sampai ke titik itu
    • Sangat mudah membayangkan skenario ketika pemiliknya melakukan rug pull langsung, atau Broadcom mengakuisisinya lalu mulai memeras habis-habisan
  • Claude dengan Sonnet medium effort pernah menghabiskan 100% limit satu sesi plus biaya tambahan, lalu berpikir selama 53 menit hanya untuk mengeluarkan
    API Error: Claude's response exceeded the 32000 output token maximum...

    • Dan candaan bahwa pada hari ketujuh pun hasilnya tetap API Error: Claude's response exceeded the 32000 output token maximum benar-benar terasa pas
    • Saya rasa saya tidak akan membiarkannya berpikir lebih dari 5 menit
    • Kalau situasi begini terjadi, saya jadi penasaran apakah para agentic/vibe coder memberi tahu bos mereka, "Saya tidak bisa kerja sampai besok"
    • Kalau pesan error itu ditempel kembali ke Claude apa adanya, sering kali ia akan lanjut dari sana
      Saya sudah beberapa kali melihatnya dalam beberapa bulan terakhir; awalnya saya kira ini masalah AWS Bedrock, tetapi tampaknya bukan itu saja
    • Saya penasaran ini paket Max 5x atau 20x
  • Saya dan beberapa rekan selama dua bulan terakhir mengalami penurunan kemampuan kognitif yang signifikan pada Claude
    4.5 masih lumayan, 4.6 benar-benar bagus, dan dalam benchmark pribadi saya, 4.5 hanya nyaris bisa melacak merge loop pointer 2-arah, sementara 4.6 bisa 3-arah, dan context 1M bisa menangani sampai k-way
    Kemampuan pelacakan ini membuatnya berguna untuk memahami dan memodifikasi kode produksi yang nyata
    Namun sejak dua bulan lalu, 4.6 mulai sering lupa dan membuat keputusan bodoh, dan setelah saling membandingkan ternyata bukan hanya saya yang mengalaminya
    4.7 pun tidak jauh lebih baik, dan beberapa minggu terakhir terasa seperti terus bertarung melawan penurunan level of effort otomatis
    Saat terasa ada yang bodoh, saya cek pengaturannya dan ternyata diam-diam sudah diturunkan, jadi gesekannya besar
    Kita sudah membuktikan bahwa model sebagus versi awal 4.6 itu mungkin ada; masalahnya adalah dalam proses membawa ke pasar massal, Anthropic melakukan throttle dan downgrade sehingga kegunaan nyatanya turun
    Menurut saya, begitu DeepSeek segera mencapai tingkat lebih dari cukup bagus setara 4.6+, orang-orang akan mulai keluar dari pola Claude yang meminta lebih banyak uang untuk hasil yang lebih sedikit
    Yang dibutuhkan bukan sesuatu yang lebih hebat, melainkan kemampuan memakai apa yang sebenarnya sudah mungkin itu secara stabil, di bawah kendali kita, dan berbasis provisioned alih-alih metered

    • Ini memang masalah yang nyata, dan Anthropic juga mengakuinya baru-baru ini dalam https://www.anthropic.com/engineering/april-23-postmortem
      Memang menyebalkan kalau perusahaan membuat kesalahan seperti ini, tetapi mereka sempat melonggarkan pembatasan untuk beberapa waktu sehingga secara praktis memberi kompensasi, dan yang terpenting responsnya cukup transparan
      Saya tidak yakin perusahaan AI besar lain akan setransparan ini, jadi walau saya kesal pada Claude, saya tetap menghormati cara mereka menanganinya
    • Kalau 4.7 tidak disetel ke xhigh atau max effort, menurut saya itu nyaris buang-buang waktu
  • Langganan max20 saya hampir menganggur sejak April, dan Codex 5.4 lalu sekarang 5.5 terasa benar-benar berbeda bahkan saat memakai fast mode
    Opus gagal dengan meyakinkan, lupa setengah detail penting, atau diam-diam menempelkan tambalan utang teknis atas nama pragmatis lalu bersikeras bahwa ia berhasil
    Padahal sesudah perubahan sistemnya hancur, dan ketika kesalahannya ditunjukkan kadang ia malah membuat kekacauan yang lebih besar
    Opus bagus untuk membuat ruang greenfield sekali tembak, tetapi untuk iterasi berikutnya atau pekerjaan integrasi yang kompleks, kualitasnya sangat buruk sampai merugikan
    Sebaliknya, GPT 5.4+ meluangkan waktu untuk lebih dulu memikirkan edge case, dan hasilnya memang benar, sehingga mengurangi putaran debug lanjutan sebelum akhirnya memberikan hasil yang tepat
    Ia juga tidak terjebak berlama-lama dalam loop berpikir seperti "ini sepertinya bukan malware", "sebentar" bahkan untuk memperbaiki skrip satu baris

    • Mental model saya terhadap LLM adalah tidak mengharapkannya bisa berjalan sambil mengunyah permen karet
      Merapikan kode adalah pekerjaan yang berbeda dari menambahkan fitur baru, dan keluarga GLM, walaupun tampak lebih pintar di permukaan, pada akhirnya tetap membutuhkan siklus build/prune ketika kode aslinya direview
    • Wajar kalau ada yang bercanda minta max20 yang tidak dipakai itu diberikan ke saya
    • Alur paling produktif buat saya adalah berlangganan keduanya; Claude diberi peran menghantam masuk fitur, lalu Codex diminta me-review dengan
      "Ini penuh race condition, kan?"
      Sekarang saya hanya memakai Codex karena Claude sulit dipercaya dan terlalu sering meninggalkan data race atau kondisi negatif yang terlewat
  • Akhir-akhir ini saya memakai Aider, dan karena kebijakan pelatihan baru saya mungkin juga akan membatalkan langganan Github multi AI bundle
    Memakai Aider bersama model open baru, lalu menyepakati requirement lewat Open Spec sebelum menyerahkannya, cukup membantu alurnya

  • Layanan AI punya insentif yang lemah untuk mengurangi penggunaan token
    Mereka menghasilkan lebih banyak uang jika membuat kita memakai lebih banyak token, jadi tampaknya mereka akan terus menguji seberapa jauh bisa mendorong sebelum pengguna benar-benar marah
    Semua perusahaan AI akan terus berpindah posisi antara jumlah token dan harga seiring biaya mereka naik
    Dan kita tampak seperti katak dalam air hangat yang hampir mendidih, tetapi masih diyakinkan bahwa itu cuma air mandi

    • Dulu di AWS juga ada ucapan, "kenapa mereka harus menghemat uang Anda," tetapi pada praktiknya makin murah harganya, makin banyak pengguna yang datang sehingga mereka justru menghasilkan lebih banyak
      Perusahaan AI memiliki insentif yang sama
      Kalau lebih murah, pemakaian akan meningkat, dan selama harga tetap di atas biaya pokok, pada akhirnya pendapatan bisa naik
      Tentu saja ada alasan kuat juga bagi mereka untuk menurunkan biaya sendiri
    • Sampai taraf tertentu itu benar, tetapi ketika kendala kapasitas benar-benar membatasi dan Anthropic juga bukan monopoli sehingga mendapat tekanan kompetitif, insentif ekonominya berubah
    • Saya melihat orang akan makin lelah dengan lock-in agent yang tertutup
      Karena itu saya membuat https://github.com/dirac-run/dirac, open source (fork cline) yang ditujukan murni pada efisiensi token
      Saya memperkirakan para vendor lock-in tertutup akan makin membuat pengguna frustrasi seiring waktu, dan saat ini saya juga sedang mencari kontributor
    • Sampai titik tertentu insentif itu memang ada, tetapi akan berubah ketika mereka tak sanggup lagi menampung pengguna dan pelanggan mulai pergi
    • Saya juga berpikir begitu
      Terdengar seperti teori konspirasi, tetapi perusahaan seperti Anthropic tetap untung bahkan saat modelnya tidak menyelesaikan pekerjaan
      Saya juga baru membaca soal fenomena over editing, dan rasanya mesin memang tidak pernah benar-benar ingin selesai
      Mirip aplikasi kencan yang tidak ingin memberi pasangan yang bagus
      Kalau berhasil, pengguna malah akan berhenti berlangganan
  • Kemarin rasanya seperti momen pencerahan
    Saya memberi Claude Code yang terhubung ke LLM lokal tugas ekstraksi sederhana, dan ia hanya berdengung selama 10 menit
    Dengan data dan prompt yang sama, ketika model itu saya beri langsung lewat UI chat llama_cpp, hasilnya selesai single-shot dalam waktu kurang dari semenit
    Jadi mau tak mau saya menyimpulkan bahwa ada sesuatu yang salah pada coding agent itu sendiri atau pada cara berbicara dengan LLM
    Sekarang saya sedang mencari coding agent open source yang sangat sederhana; Nanocoder bahkan sulit dipasang di Mac dan saya tidak suka node-modules-nya yang terlalu gemuk, sementara Opencode tampaknya tidak sepenuhnya open source
    Untuk sementara saya sendiri yang berperan sebagai coding agent sambil memakai web UI llama_cpp, dan sejauh ini cukup berjalan dengan baik

    • https://pi.dev/ tampaknya cukup populer, dan saya penasaran bagian mana dari Opencode yang dianggap bukan open source
      Repositorinya memakai MIT License
    • Mungkin terdengar agak nyeleneh, tetapi Anda bisa meminta AI yang sedang dipakai sekarang untuk membangunkan agent yang Anda inginkan sendiri
      Kalau yang diinginkan coding agent yang "amat sangat sederhana", justru itu bisa dibuat sangat pas sesuai kebutuhan
      Saya sendiri benar-benar melakukan itu minggu ini karena kesal dengan perilaku aneh Anthropic, dan dalam beberapa hari sudah berhasil menjalankan sesuatu yang lumayan
      Dalam kasus saya, di BeOS atau Mac lawas tidak ada Claude Code, jadi lebih mudah bagi saya untuk bootstrap sendiri lalu menyambung-nyambungkannya
      Dengan melalui proses ini, kita juga belajar banyak tentang bagaimana model sebenarnya bekerja dan seberapa banyak tambalan konyol yang berjalan di dalam Claude Code
      Tentu saja kita juga jadi agak memahami tingkat kesulitan yang memang harus diselesaikan agent atau harness
      Saya juga mengalami masalah Claude Code yang lebih lambat daripada llama_cpp, dan dugaan saya trafik API diprioritaskan dibanding trafik langganan
      API memang terasa jauh lebih cepat, tetapi biayanya juga jauh lebih mahal
    • Kalau belum terpikir, saya ingin bilang: buat saja coding agent yang Anda inginkan sendiri
      Strukturnya ternyata jauh lebih sederhana dari yang dibayangkan
    • Pada titik ini rasanya seharusnya sudah ada satu alat yang berada di antara TUI dan IDE
    • CC juga bisa dijalankan dengan model lokal, dan itu tidak sesulit yang dibayangkan
      Saya benar-benar pernah melakukannya dengan memberi shim tipis pada vLLM agar hanya sintaks endpoint-nya yang berubah
  • Kadang model Claude yang sama pada suatu waktu membuat kesalahan logika, di waktu lain tidak
    Kinerja Claude tampak sangat bergantung pada waktu, dan ada grafik yang menunjukkan ini
    https://marginlab.ai/trackers/claude-code/
    Selain itu, walau jarang dibahas terbuka, saya juga merasa hasil model yang sama bisa cukup berbeda tergantung quantization
    Versi 4-bit dan 8-bit punya kebutuhan komputasi yang berbeda dan kualitas output yang juga berbeda
    https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
    Saya tahu model frontier tidak harus selalu berjalan identik, tetapi di jam sibuk saya jadi bertanya-tanya apakah ada semacam fidelity dial di suatu tempat yang menyesuaikan performa demi menekan penggunaan memori atau sumber daya

    • Saya tidak yakin grafik itu benar-benar menunjukkan korelasi terhadap waktu
      Garis 60% masih berada dalam interval kepercayaan 95%, jadi mungkin saja itu cuma noise pengukuran, bukan?