- Pada beberapa minggu awal, kepuasan tinggi karena jatah token terasa cepat dan adil, serta kualitas hasilnya bagus, tetapi sekitar 3 minggu lalu pengalaman itu berubah drastis
- Setelah istirahat 10 jam lalu kembali, hanya mengirim dua pertanyaan singkat ke Claude Haiku membuat penggunaan melonjak hingga 100%, dan kanal dukungan pada praktiknya tertutup setelah jawaban otomatis yang gagal membahas inti pertanyaan
- Belakangan ini, dari kondisi sebelumnya bisa menjalankan beberapa proyek sekaligus, kini bahkan satu proyek saja dapat menghabiskan batas token dalam dua jam, dan saat refactoring hampir separuh jendela 5 jam habis hanya untuk membetulkan jalan pintas murahan
- Setelah waktu tertentu, cache percakapan menghilang sehingga biaya membaca ulang codebase terus berulang, lalu perubahan titik acuan mingguan dan peringatan batas bulanan tanpa penjelasan membuat sistem batas terlihat tidak konsisten
- Meski peningkatan produktivitas dan potensi produknya sangat diakui, akumulasi dukungan yang buruk, penurunan kualitas, dan kebingungan soal batas penggunaan pada akhirnya membuat akun Anthropic dibatalkan
Kepuasan awal dan perubahan setelahnya
- Pada beberapa minggu awal berlangganan Claude Code, kecepatannya tinggi, jatah token terasa adil, dan kualitas hasilnya juga baik
- Ada juga pengumuman bahwa jatah token ditingkatkan pada jam-jam non-sibuk
- Ditambah sikap yang menentang sebagian aturan pemerintah, muncul juga dorongan untuk mendukung produknya
- Namun sekitar 3 minggu lalu, kepuasan awal itu mulai cepat memudar
- Di bagian-bagian berikutnya, masalah dukungan, kualitas, dan batas penggunaan terus berlanjut
Masalah kualitas dukungan
- Setelah beristirahat sekitar 10 jam dan mengira token sudah terisi kembali, pekerjaan dimulai lagi pada pagi hari, tetapi sesaat setelah mengirim dua pertanyaan singkat ke Claude Haiku yang bahkan tidak terkait dengan repositori, penggunaan token langsung melonjak ke 100%
- Pertanyaannya sederhana dan skalanya kecil
- Penyegaran token yang diharapkan tidak sesuai dengan lonjakan penggunaan yang terjadi
- Pertanyaan diajukan ke bot dukungan AI, tetapi yang dikembalikan hanya panduan dasar dan masalah sebenarnya pun tidak dipahami dengan benar
- Setelah itu diminta dukungan dari manusia
- Jawaban yang datang beberapa hari kemudian juga terlihat meleset dari masalah yang sebenarnya
- Jawaban yang diterima dimulai dengan kalimat bahwa “sistem mendeteksi pertanyaan tentang batas penggunaan paket Pro atau Max”, padahal kondisinya saat itu memang sudah menggunakan Pro plan dan inti pertanyaannya juga tidak disentuh dengan tepat
- Isi selanjutnya pun panjang berisi penjelasan bergaya dokumentasi tentang batas harian dan mingguan
- Tidak terlihat alur yang benar-benar menyelesaikan atau menangani langsung masalah yang ditanyakan
- Di akhir email tertulis bahwa balasan tambahan mungkin tidak dipantau dan diminta untuk mengunjungi halaman bantuan, sehingga kanal pertanyaan pada praktiknya tertutup
- Artinya, setelah jawaban otomatis yang tidak mencerminkan masalah nyata, jalur dukungan pun ikut tertutup
- Kekecewaan terhadap kualitas dukungan pun mulai membesar secara serius
Penurunan kualitas
- Dalam beberapa hari dan minggu setelah itu, kualitas hasil tidak lagi memuaskan dibanding pengalaman awal, dan waktu kerja yang tersedia juga berkurang drastis
- Dulu bisa menjalankan hingga tiga proyek sekaligus, tetapi kini bahkan pada satu proyek saja batas token habis dalam dua jam
- Jumlah yang bisa dipakai dan produktivitas yang dirasakan sama-sama memburuk
- Disebutkan juga bahwa penilaian kualitas bisa bersifat subjektif dan performa agen sangat dipengaruhi pengguna
- Pada saat yang sama juga diungkap bahwa GitHub Copilot, OpenAI Codex, OMLX, Continue, dan Qwen3.5-9B turut digunakan, sehingga terlihat ada pengalaman penggunaan pembanding
- Tidak mengklaim keahlian absolut, tetapi tetap terbaca sebagai penurunan yang dirasakan setelah memakai berbagai alat
- Dalam contoh ketika Claude Opus diminta melakukan refactoring proyek, log penalaran model menunjukkan arah untuk menambahkan initializer umum di
ui-events.js agar penyisipan tampilan nilai dilakukan otomatis, alih-alih mengubah semua slider langsung di JSX
- Pendekatan itu berupa jalan memutar yang otomatis menyisipkan tampilan nilai bila tidak ada pada tiap range input
- Log seperti ini terasa perlu diperiksa bukan sesekali, melainkan cukup sering
- Pendekatan tersebut dinilai bukan praktik yang baik, melainkan jalan pintas murahan, dan setelah ditegur langsung Opus pun mengakui itu pendekatan malas lalu beralih menambahkan label langsung di JSX dan menghubungkannya secara eksplisit
- Hanya untuk membetulkan arah awal yang salah itu saja, sekitar 50% dari jatah token jendela 5 jam habis
- Penurunan kualitas hasil jadi melampaui sekadar kesan, dan berubah menjadi pemborosan biaya nyata
Kebingungan cache dan tampilan batas
- Masalah cache percakapan juga baru muncul, dan terkait hal ini disertakan postmortem Anthropic serta diskusi Hacker News
- Fakta bahwa masalah ini dibahas secara terbuka dipandang positif
- Namun dari sisi pengalaman pengguna, bebannya tetap ada
- Setelah waktu tertentu berlalu dan pekerjaan dilanjutkan lagi, cache percakapan hilang sehingga model mulai membaca codebase lagi dari awal
- Dari sisi biaya ini mungkin masuk akal secara bisnis, tetapi dari sudut pandang pengguna, token untuk loading awal sudah dibayar sekali lalu setelah jeda paksa harus membayar lagi biaya loading yang sama
- Terutama bila sempat berhenti karena batas jendela token 5 jam, saat kembali biaya yang sama harus dibayar berulang
- Pernah juga jendela mingguan tiba-tiba berubah dari berbasis hari ini menjadi berbasis hari Senin, dan bersamaan dengan perubahan itu penggunaan sempat di-reset ke 0
- Reset itu sendiri disambut baik, tetapi tidak diketahui mengapa perubahan seperti ini terjadi
- Hal ini memberi kesan bahwa sistem batas tidak terlihat konsisten
- Saat terus memantau penggunaan token selama mengerjakan proyek, tiba-tiba muncul peringatan bahwa batas penggunaan bulanan perlu dikhawatirkan, padahal bukan pengguna organisasi
- Pada saat itu batas per jam maupun mingguan juga belum terlampaui
- Dasar munculnya peringatan itu pun tidak dijelaskan di layar
- Sekitar dua jam kemudian peringatan itu hilang dan pekerjaan bisa dilanjutkan lagi
- Bahkan di dokumentasi pun tidak ada batas penggunaan bulanan
- Di halaman pengaturan juga tertulis bahwa yang ditampilkan hanya sesi saat ini dan batas mingguan, sehingga keberadaan batas bulanan itu tetap tidak jelas sampai akhir
Dampak produktivitas dan pembatalan akhir
- Rasa suka terhadap produk itu sendiri tetap besar, dan secara teoretis semuanya dinilai bisa berjalan sangat baik serta memiliki banyak peluang
- Produktivitas meningkat bukan sekadar kelipatan satu digit, melainkan satu tingkat orde besaran, sehingga ide di kepala bisa diwujudkan jauh lebih cepat dan mudah dibanding beberapa tahun lalu
- Potensi produk dan manfaat nyatanya sendiri terlihat jelas
- Penilaian bahwa susunan fiturnya dikerjakan dengan cermat juga ikut disebutkan
- Pada saat yang sama, dipahami juga adanya kesulitan teknis dan organisasional dalam mengoperasikan produk seperti ini, dan penjualan inferensi memiliki struktur biaya marginal sehingga tiap tambahan waktu dan pelanggan baru memerlukan sumber daya komputasi pada tingkat yang sama
- Ini juga memperlihatkan bahwa skala ekonomi sulit diperoleh
- Kesulitan menjalankan layanan itu sendiri tidak disangkal
- Pada akhirnya, disimpulkan bahwa Anthropic tampaknya tidak mampu menangani terlalu banyak pelanggan baru sekaligus, dan dengan ungkapan bahwa keputusan ini untuk sedikit mengurangi beban mereka, akun pun dibatalkan
- Kesenjangan antara rasa suka pada produk dan masalah operasional yang benar-benar dirasakan saat penggunaan berujung pada keputusan pembatalan
- Kesimpulannya dirangkum sebagai akumulasi dukungan yang buruk, penurunan kualitas, dan kebingungan soal batas
8 komentar
“Pada beberapa minggu awal, batas token terasa cepat dan adil”??
Adil itu ditentukan oleh siapa?
Kalau Claude dan ChatGPT bersaing, konsumen tentu diuntungkan haha. Semoga Gemini juga segera ikut meramaikan, dan model-model Tiongkok juga berkembang pesat, jadi semoga semuanya saling bersaing habis-habisan.
Melihat layanan seharga 220 dolar per bulan bahkan tidak bisa mencapai ketersediaan 99,5%, saya jadi bertanya-tanya apakah pengguna ini dianggap bodoh. Claude.ai bahkan tidak mencapai 99%.
Sebagai gantinya Anda memakai layanan apa? Codex? Saya masih terus memakainya karena tidak melihat ada alternatif...
Memang benar tidak ada alternatif, tetapi ini pertama kalinya seumur hidup saya memakai layanan yang bahkan tidak bisa mempertahankan uptime 99%..
Kalau ada alternatif, saya juga ingin tahu.
Batas penggunaan bulanan
Batas penggunaan tahunan
wkwkwk...
Komentar Hacker News
Bahkan setelah menulis dokumen spesifikasi yang detail lengkap dengan Markdown dan contoh kode dalam beberapa file lalu memberikannya ke Claude Sonnet, ada kalanya ia tetap melewatkan requirement, membuat kode duplikat, atau bahkan menambahkan pemrosesan data yang tidak perlu
Juga terlihat kecenderungan untuk sekadar menghias agar tes lolos, sehingga pada akhirnya saya malah membaca kode dalam jumlah besar alih-alih menulisnya
Dari awal pun, kalau benar-benar dikerjakan sendiri, membaca kode dan membentuk mental model jauh lebih sulit daripada coding, dan dengan Gen AI beban itu malah makin besar
Jadi pada harga Anthropic saat ini, menurut saya hasil akhirnya rugi bersih
Saya bukan membuat vibe coding, melainkan software yang benar-benar diandalkan pengguna, jadi saya berencana segera membatalkan langganan
Lebih cocok dipakai dalam siklus test·lint sehari-hari untuk meninjau, mempercepat evaluasi library pihak ketiga, meneliti topik baru, menyusun draft RFC·dokumen desain, atau menjadi lawan bicara saat menghadapi masalah sulit
Saya memang tidak suka perusahaan AI secara umum dan tetap merasa tidak nyaman karena semuanya dibangun di atas pelanggaran hak cipta, tetapi model terbaru memang sangat cerdas dalam beberapa hal
Tidak perlu menerima hype vibecoding yang berlebihan; sebagai alat produktivitas saja pun nilainya sudah cukup besar
Tidak memakainya sama sekali juga boleh dan tidak ada kewajiban membayar perusahaan tertentu, tetapi menurut saya tidak perlu membuang seluruh teknologi ini hanya karena vibe coding
Jangan serahkan seluruh spesifikasi sistem; desain tetap dikerjakan sendiri, dan bila perlu AI hanya membantu desain sementara implementasi diminta satu per satu agar akurasinya lebih tinggi
Jika tiap tahap ditinjau, diperbaiki, lalu baru lanjut ke tahap berikutnya, hasilnya tetap lebih cepat daripada menulis semuanya sendiri sekaligus jauh lebih mudah dikendalikan
Itu lebih mirip vibecoding dengan satu tahap dokumentasi tambahan, dan bila ingin mengurangi pekerjaan merapikan, lebih baik pakai model terbaik pada saat itu daripada Sonnet
Tetap saja, model mana pun tidak akan menangani semuanya dengan sempurna, jadi jangan memakainya dengan pola serba atau tidak sama sekali
Lebih realistis tetap membuat penilaian sendiri sambil menempelkan AI hanya pada bagian yang memang membantu untuk mempercepat pekerjaan
Para engineer yang tidak junior umumnya berakhir pada pola itu, dan klaim berlebihan soal pembuatan aplikasi otomatis di LinkedIn atau SNS sebaiknya diabaikan
Dengan cara pakai yang mirip, saya bisa membuat kode lebih cepat dan dengan kualitas lebih baik, dan beban pada pergelangan tangan juga jauh berkurang
Perbedaannya tampaknya ada pada fakta bahwa saya hanya menyerahkan bagian yang memang bisa ditangani AI, sambil menjaga cakupannya tetap sempit dan bertahap
Perubahan kecil yang jelas mudah direview, tetapi jika setiap hari menerima dump kode 10 ribu baris, menilainya jadi sulit
Bisa jadi Anda mendorong terlalu banyak, terlalu cepat, dan terlalu dini
Kalau keseimbangannya tepat, nilainya akan terlihat; mungkin tidak secepat ledakan produktivitas seperti yang dibayangkan, tetapi tetap besar kemungkinan lebih cepat daripada bekerja sendiri
Verifikasi dan pengecekan memang sering diperlukan, dan rencananya juga kerap harus direvisi beberapa kali, tetapi untuk implementasi saya tetap memakai Opus
Saat ini model tersebut tampaknya menggunakan cache, sehingga kadang muncul peringatan agar tidak mengimplementasikan dengan Sonnet
Perlu waktu untuk membaca dan memahami, dan saya juga sering melakukan koreksi manual, tetapi umumnya semuanya masih tertangani dalam langganan Pro
Saya memakai Claude Opus dengan cukup efektif, dan pada langganan tingkat menengah saya tidak terlalu sering mentok limit
Cara kerja saya lebih mirip copilot daripada autopilot, jadi saya hanya memberi prompt untuk tugas-tugas yang cakupannya terbatas dan hampir semuanya saya review
Untuk penggunaan seperti ini, saya merasa model-model papan atas sudah sampai pada tingkat cukup bagus
Saya berharap muncul model open source berbasis kode yang lisensinya benar sehingga coding berbantuan LLM menjadi komoditas
Mereka tampak ingin membuat kita memakai lebih banyak token agar bisa menagih lebih banyak, sambil pada saat yang sama terlihat bahwa penggunaan nyata ternyata lebih besar dari perkiraan sehingga struktur harga saat ini sulit dipertahankan
Kalau akhirnya solusi mereka adalah menyuruh pengguna naik ke paket yang lebih mahal, maka dua hal itu sebenarnya tidak sepenuhnya bertentangan
Biayanya sekitar 100 dolar per bulan, dan di negara maju pun tidak sedikit rumah yang tagihan listriknya lebih mahal dari itu
Definisi coding berbantuan LLM menurut saya adalah memahami sepenuhnya setiap perubahan dan setiap baris; kalau tidak, itu vibe coding
Kalau prinsip itu benar-benar dijalankan dengan serius, menurut saya sulit menghabiskan kuota tier $100
Di antara berbagai model, ini yang menurut saya paling baik, dan saya lebih sering memakainya sesekali sebagai pengganti mesin pencari daripada menyuruhnya mengerjakan pekerjaan nyata
Saya tidak pernah merasa LLM efisien untuk benar-benar menggantikan pekerjaan, dan saya merindukan masa ketika dokumentasi teknis masih layak dipakai
Pada akhirnya, Claude tampak lebih seperti kruk untuk menutup celah developer experience
Sangat sulit menghabiskan seluruh jatah penggunaan, dan meskipun saya menyerahkan banyak pekerjaan sungguhan, rata-rata mingguan tetap berakhir di sekitar 30%
Namun saat masih di Pro, saya terlalu sering mentok limit sampai terasa lucu, dan satu request saja kadang bisa melewati 100% sesi lalu berujung biaya tambahan
Secara pengalaman, Max 5x terasa jauh lebih besar dari sekadar 5 kali lipat, tetapi Anthropic sangat samar soal hal seperti surge rate sehingga saya tidak bisa yakin
Belakangan ini saya cukup skeptis melihat banyaknya posting HN bertipe Opus sudah tamat, pindah ke Codex
Mungkin sebagian hanya pelampiasan frustrasi, tetapi beberapa juga terasa seperti astroturfing
Meski sering dipakai untuk pekerjaan nyata, saya belum pernah kena limit
Membiarkan LLM berjalan berjam-jam pada akhirnya terasa seperti resep untuk membuang waktu saya sendiri demi melacak apa yang sebenarnya dikerjakan dan kenapa
Yang mengkhawatirkan adalah orang-orang menjadi bergantung pada GenAI berlangganan yang tertutup dan tidak transparan
Mereka membangun sesuatu di atasnya seolah itu fondasi yang kokoh, padahal suatu hari pemiliknya bisa saja tiba-tiba menarik fondasi itu
Belakangan rate limit cukup mengganggu sehingga saya lebih suka Codex daripada CC, tetapi cara kerja saya sendiri hampir tidak perlu diubah
Mereka ingin membakar uang sebesar mungkin untuk membuat jarak yang mustahil dikejar pesaing, lalu menetapkan harga sesuka hati
Namun persaingan saat ini masih ketat, dan untuk alat coding memang Anthropic yang terbaik, hanya saja keunggulannya lebih kecil daripada dulu
Terus terang, di level Opus 4.5 saja sebenarnya sudah mencapai kualitas yang cukup layak dipakai, dan sekarang sudah ada beberapa model di kelas itu
Gemini Pro 3.1 juga mirip, dan Codex saat ini menurut saya lebih baik daripada Opus 4.5 dan lebih dekat ke 4.7
Saya sendiri sering berganti model dan agent dalam proyek yang sama, dan biaya perpindahannya praktis nol
Tinggal menjalankan
gemini,copilot, atauhermesalih-alihclaude, jadi ketergantungannya pada model tertentu tidak dalamPara vendor tentu akan mencoba menambahkan fitur yang menciptakan lock-in, tetapi model papan atas sudah begitu pintar sehingga sering kali cukup dengan menyuruh mereka melakukan hal yang dibutuhkan
Saat ini satu-satunya moat yang konsisten mungkin hanya kemampuan membuat model terbaik, dan itu pun dangkal, sehingga kalau Claude Code hilang besok pun tidak akan fatal
Model open yang bisa di-host sendiri juga sudah semakin dekat
Persaingan OpenAI dan Anthropic memang menarik, dan ditambah arus open source sepertinya kita akan segera sampai ke titik itu
Claude dengan Sonnet medium effort pernah menghabiskan 100% limit satu sesi plus biaya tambahan, lalu berpikir selama 53 menit hanya untuk mengeluarkan
API Error: Claude's response exceeded the 32000 output token maximum...API Error: Claude's response exceeded the 32000 output token maximumbenar-benar terasa pasSaya sudah beberapa kali melihatnya dalam beberapa bulan terakhir; awalnya saya kira ini masalah AWS Bedrock, tetapi tampaknya bukan itu saja
Saya dan beberapa rekan selama dua bulan terakhir mengalami penurunan kemampuan kognitif yang signifikan pada Claude
4.5 masih lumayan, 4.6 benar-benar bagus, dan dalam benchmark pribadi saya, 4.5 hanya nyaris bisa melacak merge loop pointer 2-arah, sementara 4.6 bisa 3-arah, dan context 1M bisa menangani sampai k-way
Kemampuan pelacakan ini membuatnya berguna untuk memahami dan memodifikasi kode produksi yang nyata
Namun sejak dua bulan lalu, 4.6 mulai sering lupa dan membuat keputusan bodoh, dan setelah saling membandingkan ternyata bukan hanya saya yang mengalaminya
4.7 pun tidak jauh lebih baik, dan beberapa minggu terakhir terasa seperti terus bertarung melawan penurunan level of effort otomatis
Saat terasa ada yang bodoh, saya cek pengaturannya dan ternyata diam-diam sudah diturunkan, jadi gesekannya besar
Kita sudah membuktikan bahwa model sebagus versi awal 4.6 itu mungkin ada; masalahnya adalah dalam proses membawa ke pasar massal, Anthropic melakukan throttle dan downgrade sehingga kegunaan nyatanya turun
Menurut saya, begitu DeepSeek segera mencapai tingkat lebih dari cukup bagus setara 4.6+, orang-orang akan mulai keluar dari pola Claude yang meminta lebih banyak uang untuk hasil yang lebih sedikit
Yang dibutuhkan bukan sesuatu yang lebih hebat, melainkan kemampuan memakai apa yang sebenarnya sudah mungkin itu secara stabil, di bawah kendali kita, dan berbasis provisioned alih-alih metered
Memang menyebalkan kalau perusahaan membuat kesalahan seperti ini, tetapi mereka sempat melonggarkan pembatasan untuk beberapa waktu sehingga secara praktis memberi kompensasi, dan yang terpenting responsnya cukup transparan
Saya tidak yakin perusahaan AI besar lain akan setransparan ini, jadi walau saya kesal pada Claude, saya tetap menghormati cara mereka menanganinya
Langganan max20 saya hampir menganggur sejak April, dan Codex 5.4 lalu sekarang 5.5 terasa benar-benar berbeda bahkan saat memakai fast mode
Opus gagal dengan meyakinkan, lupa setengah detail penting, atau diam-diam menempelkan tambalan utang teknis atas nama pragmatis lalu bersikeras bahwa ia berhasil
Padahal sesudah perubahan sistemnya hancur, dan ketika kesalahannya ditunjukkan kadang ia malah membuat kekacauan yang lebih besar
Opus bagus untuk membuat ruang greenfield sekali tembak, tetapi untuk iterasi berikutnya atau pekerjaan integrasi yang kompleks, kualitasnya sangat buruk sampai merugikan
Sebaliknya, GPT 5.4+ meluangkan waktu untuk lebih dulu memikirkan edge case, dan hasilnya memang benar, sehingga mengurangi putaran debug lanjutan sebelum akhirnya memberikan hasil yang tepat
Ia juga tidak terjebak berlama-lama dalam loop berpikir seperti "ini sepertinya bukan malware", "sebentar" bahkan untuk memperbaiki skrip satu baris
Merapikan kode adalah pekerjaan yang berbeda dari menambahkan fitur baru, dan keluarga GLM, walaupun tampak lebih pintar di permukaan, pada akhirnya tetap membutuhkan siklus build/prune ketika kode aslinya direview
"Ini penuh race condition, kan?"
Sekarang saya hanya memakai Codex karena Claude sulit dipercaya dan terlalu sering meninggalkan data race atau kondisi negatif yang terlewat
Akhir-akhir ini saya memakai Aider, dan karena kebijakan pelatihan baru saya mungkin juga akan membatalkan langganan Github multi AI bundle
Memakai Aider bersama model open baru, lalu menyepakati requirement lewat Open Spec sebelum menyerahkannya, cukup membantu alurnya
Layanan AI punya insentif yang lemah untuk mengurangi penggunaan token
Mereka menghasilkan lebih banyak uang jika membuat kita memakai lebih banyak token, jadi tampaknya mereka akan terus menguji seberapa jauh bisa mendorong sebelum pengguna benar-benar marah
Semua perusahaan AI akan terus berpindah posisi antara jumlah token dan harga seiring biaya mereka naik
Dan kita tampak seperti katak dalam air hangat yang hampir mendidih, tetapi masih diyakinkan bahwa itu cuma air mandi
Perusahaan AI memiliki insentif yang sama
Kalau lebih murah, pemakaian akan meningkat, dan selama harga tetap di atas biaya pokok, pada akhirnya pendapatan bisa naik
Tentu saja ada alasan kuat juga bagi mereka untuk menurunkan biaya sendiri
Karena itu saya membuat https://github.com/dirac-run/dirac, open source (fork cline) yang ditujukan murni pada efisiensi token
Saya memperkirakan para vendor lock-in tertutup akan makin membuat pengguna frustrasi seiring waktu, dan saat ini saya juga sedang mencari kontributor
Terdengar seperti teori konspirasi, tetapi perusahaan seperti Anthropic tetap untung bahkan saat modelnya tidak menyelesaikan pekerjaan
Saya juga baru membaca soal fenomena over editing, dan rasanya mesin memang tidak pernah benar-benar ingin selesai
Mirip aplikasi kencan yang tidak ingin memberi pasangan yang bagus
Kalau berhasil, pengguna malah akan berhenti berlangganan
Kemarin rasanya seperti momen pencerahan
Saya memberi Claude Code yang terhubung ke LLM lokal tugas ekstraksi sederhana, dan ia hanya berdengung selama 10 menit
Dengan data dan prompt yang sama, ketika model itu saya beri langsung lewat UI chat
llama_cpp, hasilnya selesai single-shot dalam waktu kurang dari semenitJadi mau tak mau saya menyimpulkan bahwa ada sesuatu yang salah pada coding agent itu sendiri atau pada cara berbicara dengan LLM
Sekarang saya sedang mencari coding agent open source yang sangat sederhana; Nanocoder bahkan sulit dipasang di Mac dan saya tidak suka node-modules-nya yang terlalu gemuk, sementara Opencode tampaknya tidak sepenuhnya open source
Untuk sementara saya sendiri yang berperan sebagai coding agent sambil memakai web UI
llama_cpp, dan sejauh ini cukup berjalan dengan baikRepositorinya memakai MIT License
Kalau yang diinginkan coding agent yang "amat sangat sederhana", justru itu bisa dibuat sangat pas sesuai kebutuhan
Saya sendiri benar-benar melakukan itu minggu ini karena kesal dengan perilaku aneh Anthropic, dan dalam beberapa hari sudah berhasil menjalankan sesuatu yang lumayan
Dalam kasus saya, di BeOS atau Mac lawas tidak ada Claude Code, jadi lebih mudah bagi saya untuk bootstrap sendiri lalu menyambung-nyambungkannya
Dengan melalui proses ini, kita juga belajar banyak tentang bagaimana model sebenarnya bekerja dan seberapa banyak tambalan konyol yang berjalan di dalam Claude Code
Tentu saja kita juga jadi agak memahami tingkat kesulitan yang memang harus diselesaikan agent atau harness
Saya juga mengalami masalah Claude Code yang lebih lambat daripada
llama_cpp, dan dugaan saya trafik API diprioritaskan dibanding trafik langgananAPI memang terasa jauh lebih cepat, tetapi biayanya juga jauh lebih mahal
Strukturnya ternyata jauh lebih sederhana dari yang dibayangkan
Saya benar-benar pernah melakukannya dengan memberi shim tipis pada vLLM agar hanya sintaks endpoint-nya yang berubah
Kadang model Claude yang sama pada suatu waktu membuat kesalahan logika, di waktu lain tidak
Kinerja Claude tampak sangat bergantung pada waktu, dan ada grafik yang menunjukkan ini
https://marginlab.ai/trackers/claude-code/
Selain itu, walau jarang dibahas terbuka, saya juga merasa hasil model yang sama bisa cukup berbeda tergantung quantization
Versi 4-bit dan 8-bit punya kebutuhan komputasi yang berbeda dan kualitas output yang juga berbeda
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Saya tahu model frontier tidak harus selalu berjalan identik, tetapi di jam sibuk saya jadi bertanya-tanya apakah ada semacam fidelity dial di suatu tempat yang menyesuaikan performa demi menekan penggunaan memori atau sumber daya
Garis 60% masih berada dalam interval kepercayaan 95%, jadi mungkin saja itu cuma noise pengukuran, bukan?