1 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Opsi untuk menekan biaya coding AI pribadi terbagi menjadi tiga: self-hosting, menyewa API model open source, dan mengoptimalkan langganan frontier
  • Self-hosting berarti membeli perangkat dan menjalankan model open source secara lokal, sehingga setelah itu tidak ada biaya per token, tetapi biaya awal besar dan model yang realistis dijalankan di rumah lebih lemah dibanding model dari lab frontier
  • Menyewa model open source lewat biaya API memungkinkan kita tidak mengunci ribuan dolar pada konfigurasi GPU, menghindari pekerjaan untuk memeras performa, dan mudah beralih ke opsi yang lebih murah atau lebih baik bulan depan
  • Langganan frontier dari OpenAI dan Anthropic sekitar $400 per bulan dapat memberi penggunaan API senilai sekitar $2.800 pada harga daftar, tetapi workflow AI-native berskala besar akan cepat menghabiskan token yang disertakan
  • Pendekatan yang paling cocok adalah strategi campuran: memakai langganan frontier untuk penalaran sulit dan penulisan spesifikasi, lalu memakai API open source untuk tugas kecil yang mekanis

Tiga pilihan

  • Ada tiga cara untuk melakukan coding AI di rumah tanpa pengeluaran setingkat perusahaan, dan pilihan yang tepat sangat bergantung pada seberapa besar Anda percaya pada rilis hardware dan model dalam 1 tahun ke depan
  • Self-hosting adalah pendekatan membeli perangkat sendiri dan menjalankan model open source secara lokal, sehingga setelah itu tidak ada biaya per token
    • Biaya awalnya besar, dan model yang benar-benar bisa dijalankan di rumah lebih lemah daripada model yang dirilis lab frontier
    • Pendekatan ini hanya sepadan jika Anda bisa terus memanfaatkan perangkat untuk pekerjaan jangka panjang, di mana model yang lambat dan murah bekerja semalaman
    • Bagi kebanyakan orang, sulit mempertahankan perangkat rumahan pada beban tinggi secara terus-menerus, dan hardware yang dibeli hari ini bisa terlihat seperti pilihan buruk setahun kemudian
  • Menyewa API model open source adalah menyewa model open source yang sama dari penyedia lewat biaya API, dan ini merupakan pilihan yang cocok bagi kebanyakan orang
    • Anda tidak perlu menggelontorkan ribuan dolar untuk satu konfigurasi GPU, dan bisa menghindari pekerjaan untuk memeras performa jangka panjang dari model terbuka
    • Mudah beralih ke opsi yang lebih murah atau lebih baik bulan depan, tanpa perlu menjual kembali perangkat
    • Layanan seperti OpenRouter membuat perpindahan hampir semudah mengganti satu baris
  • Mengoptimalkan langganan frontier berarti memaksimalkan langganan OpenAI dan Anthropic
    • Paket sekitar $400 per bulan bisa memberi penggunaan API senilai sekitar $2.800 pada harga daftar, jadi ada efek diskon besar selama belum menyentuh batas
    • Paket ini diukur berdasarkan penggunaan, dan workflow AI-native berskala besar akan cepat menghabiskan token yang disertakan
    • Cocok untuk pekerjaan yang dipandu langsung oleh manusia, tetapi kurang memadai sebagai mesin untuk agen yang berjalan sepanjang hari

Kombinasi yang paling berhasil

  • Cara yang paling berhasil adalah kombinasi langganan frontier dan API model open source
  • Pertahankan beberapa langganan frontier untuk penalaran sulit dan penulisan spesifikasi, lalu tangani tugas kecil yang mekanis dengan biaya API model open source
  • Dengan memanfaatkan pengembangan berbasis spesifikasi, model mahal dapat membuat rencana dan model murah dapat mengisi rencana tersebut
  • Jika dijalankan dengan baik, pendekatan ini dapat menghasilkan output setara tim berisi 20 engineer selama sebulan dengan biaya sekitar $1.000

1 komentar

 
GN⁺ 3 jam lalu
Komentar Hacker News
  • Rasanya sudah sampai di titik stagnan, dan tidak tahu harus naik ke tahap berikutnya bagaimana. Saat ini aku terus memakai paket Codex $100/bulan dengan 5.5-xhigh, dan itu terasa cukup
    Aku memikirkan langkah berikutnya, memperjelas permintaan sedetail mungkin hingga tepat sebelum implementasi lewat sesi chat, lalu ketika Codex menangani pekerjaan per commit, aku cukup mengeceknya secara sederhana di server pengembangan lokal. Kalau perlu, aku minta revisi, lalu setelah itu kubiarkan commit, dan berdasarkan spesifikasi aku minta rekomendasi langkah selanjutnya. Toh kadang aku juga harus “menyetujui” permintaan di luar sandbox
    Aku masih belum menemukan pekerjaan yang layak dibiarkan berjalan semalaman. Memang bisa saja memberi rencana besar sekaligus, tapi sering kali aku jadi ingin hasil antara dibuat sedikit berbeda, jadi terasa boros
    Berikutnya sepertinya aku perlu mencari semacam VM mesin yang bisa menyalurkan permintaan GUI Codex. Aku tidak ingin memberi akses “berbahaya” ke seluruh Mac milikku
    Aku benar-benar tidak paham apa yang orang-orang lakukan pada proyek sampingan sampai bisa membakar token secepat itu, butuh 2 langganan $200/bulan ditambah biaya token tambahan

    • Itu karena kamu memperlakukan masalah seperti seorang engineer, bukan seperti “influencer” atau “developer 10x”. Kamu melihatnya sebagai masalah yang harus diselesaikan dengan engineering, dan AI hanyalah alat untuk itu. Menurut pengalamanku, hampir tidak ada masalah bagi engineer yang memerlukan pembuatan kode AI tanpa pengawasan selama berjam-jam
      Aku hanya menemukan satu kasus di mana AI yang terus dipaksa bekerja selama berjam-jam sedikit masuk akal. Aku sedang merekayasa balik widget yang berisi lima image firmware, lalu melakukan dump biner dan menyuruh AI mendekompilasi serta merekayasa balik proyek-proyek firmware yang saling terkait itu. Ini kompleks, tetapi ruang lingkupnya sangat terdefinisi dengan baik. Bukan pekerjaan yang sulit, lebih ke pekerjaan yang volumenya besar, dan hasilnya hanyalah tumpukan teks mirip C untuk tujuan informatif, bukan sesuatu yang bisa langsung dikompilasi. Kualitas output sangat terikat pada assembly input, dan keseluruhan hasilnya adalah dokumentasi dalam bentuk kode
      Karena risikonya nol, aku tidak keberatan membiarkan AI menanganinya tanpa pengawasan sesukanya. Tetap saja, kalau AI merapikannya menjadi bentuk proyek C yang masih bisa mengenali assembly-nya, itu jauh lebih mudah kubaca dan kupakai bernalar. Menurutku itu kemenangan mudah
    • Aku cukup sering melihat video orang non-profesional membuat sesuatu dengan AI, dan orang yang membakar 12 jam kerja itu benar-benar bahkan tidak membaca outputnya atau memahami apa yang mereka lakukan
      Baru saja minta dibuatkan program, lalu begitu jadi langsung bertanya ke AI cara menjalankannya. Kalau muncul bug, mereka tanya ke AI apa yang salah, atau membuang semuanya dan mencoba lagi dengan model/harness lain
      Contohnya: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
      Ini sama sekali berbeda dari alur kerja profesional yang kamu jelaskan. Lebih mirip mainan konsumen
    • Aku menurunkan Claude ke paket $20/bulan, dan sekarang hampir hanya kupakai untuk web chat. Untuk coding, aku memakai Claude Code dengan DeepSeek yang disetel ke skema biaya API
      Aku menghabiskan sekitar $4.8 untuk 320,000,000 token. Saat masih memakai paket Claude, ada tekanan bahwa LLM harus selalu mengerjakan sesuatu agar harganya terasa layak. Setelah beralih ke DeepSeek, aku tidak lagi berpikir begitu. Tidak ada rasa bersalah meski tidak memakai langganan, dan aku juga tidak khawatir soal batas. Tinggal bayar lebih saja. Terutama karena tidak ada batasan per jam, bedanya sangat terasa saat eksekusi paralel
    • “Memikirkan apa yang harus dilakukan berikutnya” adalah bottleneck nyata yang ditemukan semua orang yang benar-benar mencoba bekerja. Kalau sistemnya sudah mengikuti kecepatan berpikirmu, berarti kamu sudah melakukannya dengan baik
      Membeli lebih banyak token tidak akan membuat kemampuan berpikirmu “naik level”. Orang-orang yang menjalankan hal yang lebih otomatis kemungkinan besar sedang melaju lebih cepat daripada pemikiran mereka sendiri, dan pada akhirnya itu akan menjadi penghambat mereka
    • Dengan Codex $200/bulan aku membuat game untuk anak-anak demi kesenangan dan rasa ingin tahu. Aku seorang developer, pernah membuat game, tapi belum pernah melakukan game development. Ada juga pekerjaan yang berjalan semalaman, tetapi sebagian besar berupa “mengurus pipeline aset 3D milikku dan menghabiskan waktu untuk menambahkan sesuatu”
      Di RTX 5090 aku menjalankan Trellis2 -> ultrashapes -> Trellis2 -> penyambungan rigging dan pengaturan animasi
      Namun, 99% dari pekerjaan itu adalah waktu Codex menunggu output. Meski berjalan 12 jam, sebagian besar hanya soal menyetel banyak sleep. Aku belum pernah benar-benar menghabiskan semua token. Codex $100/bulan kena batas mingguan dalam sekitar 3 hari karena aku menjalankan 10 agen sekaligus sambil mengode pipeline aset seperti orang gila, jadi aku upgrade. Paket $200/bulan punya kredit 4x lebih banyak, jadi aku belum pernah menabrak batas dan bisa melaju sebebasnya
  • “Awalnya adalah self-hosting. Beli mesin, jalankan model open-source secara lokal, lalu setelah itu tidak perlu membayar biaya per token,” tetapi tagihan listrik jelas tidak gratis
    Menurut saya, pada akhirnya ini berarti membayar premi untuk privasi, dan bagi saya itu sepadan

    • Kebetulan saya memang butuh laptop baru, dan saya membeli M1 Max bekas dari teman dengan harga cukup murah, yang juga cukup cepat untuk mengompilasi ulang hal-hal lain yang saya minati
      Jadi dalam kasus saya tidak ada biaya perangkat keras tambahan, karena ini adalah pembelian pengganti
      Menjalankan model AI di rumah pada perangkat ini adalah sesuatu yang memang saya inginkan, dan bila perlu saya akan memakai OpenRouter
      Saya mengakui perhitungan keekonomian dalam tulisan ini benar. Tapi rasanya sangat menyedihkan jika hasil akhirnya adalah kita merosot menjadi orang yang merawat mesin untuk melakukan pekerjaan yang dulu kita cintai. Dalam jangka panjang, mungkin membedakan nuansa semacam ini memang ada artinya
      Kesalahan yang saya buat dalam hidup—dan sekarang saya sudah cukup tua sehingga praktis sulit diperbaiki—adalah percaya bahwa jika saya terus mendapatkan pemenuhan yang cukup dari pekerjaan, itu bisa menutupi ketiadaan pemenuhan pribadi lainnya. Saya selalu menikmati bahwa saya bisa langsung membantu orang melalui pekerjaan yang saya sukai dan kuasai, dan itu menahan kesedihan karena sulit membangun kehidupan keluarga yang tradisional
      Saya selalu mengira saya akan bisa menemukan kegembiraan itu dengan cara-cara baru, tetapi kecuali keadaan kembali bergeser ke arah upaya manusia, bahkan kesenangan kecil menjelajahi hal-hal seperti ini dengan perlengkapan saya sendiri dan dengan cara saya sendiri pun tidak akan cukup
      Dunia yang kita bangun sendiri terasa muram. Akhir-akhir ini saya takut menjadi semakin tua di dalamnya
    • Saya rasa kartu generasi saat ini setidaknya bisa diharapkan punya umur pakai 5 tahun. Bahkan 3090 masih layak dipakai berkat RAM 24GB-nya, karena selama beberapa tahun faktor pembatas untuk machine learning rumahan memang memori
      Jika membeli 6000, biayanya mungkin sekitar 7–8 ribu dolar, tetapi nilai jual kembalinya kemungkinan cukup bagus. 3090 pun masih berada di atas 50% dari MSRP. Bahkan kalau tidak menjalankan LLM, ini tetap menjadi proposisi nilai yang menarik untuk melatih model visi jaringan saraf konvolusional yang “tradisional”. Dengan 96GB, kita bisa memasukkan ukuran batch yang sangat besar. Alasan terbesar untuk upgrade adalah karena performa per watt hampir dua kali lipat. Misalnya, 4000 Pro Blackwell hanya sekitar setengah konsumsi 3090 untuk performa yang mirip
      Orang cenderung berasumsi bahwa belanja modal begitu saja lenyap, tetapi seperti yang terlihat pada RAM, sebaiknya jangan terlalu yakin bahwa nanti tidak akan bisa dijual kembali jika diperlukan
    • Kalau punya tenaga surya, pada praktiknya ini bisa mendekati gratis sampai batas tertentu. Jadi mungkin pada siang hari komputasi AI privat secara efektif justru jadi lebih murah
    • Mengeluarkan uang lebih banyak untuk biaya perangkat keras juga tetap merupakan biaya tambahan
      Saya sudah menghitungnya, dan selain soal privasi, ini tidak masuk akal. Meski begitu, saya tetap melakukannya. [0]
      0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
    • Ada eksperimen pikiran yang menarik pada pernyataan “listrik tidak gratis”. Jika AI bisa membuat sesuatu dalam sehari, tetapi saya harus menghabiskan sepanjang hari untuk membuatnya sendiri, pihak mana yang sebenarnya memakai lebih banyak listrik?
      Dari sudut pandang murni konsumsi daya, di mana titik impasnya?
  • Saya benar-benar tidak paham bagaimana orang bisa menghabiskan uang sebanyak itu
    Saya memakai paket Cursor $60/bulan dalam mode otomatis, dan bahkan ketika saya membiarkannya merencanakan dan ngoding sepanjang malam 4 hari seminggu, saya belum pernah mendekati batas kuota yang termasuk
    Sebenarnya mereka melakukan apa secara berbeda sampai biayanya bisa sebesar itu?
    Apakah mereka memakai penggunaan on-demand atau model berbayar lain, atau menyalakan mode yang lebih tinggi? Saya tidak mengerti kenapa itu perlu. Untuk tugas yang saya kerjakan, output Auto sangat gila bagusnya, dan saya belum pernah menemui masalah yang belum bisa ditangani dengan cukup baik
    Di kantor saya sedang mewawancarai kandidat untuk bergabung ke tim, dan ada pelamar yang bilang mereka menghabiskan $2K per bulan untuk token di tempat kerja mereka sekarang. Saya benar-benar tidak bisa membayangkan apa yang harus terjadi sampai bisa seperti itu

    • Paket enterprise Claude 30~40 kali lebih mahal daripada paket konsumen
      Di startup kecil, saya dulu menghabiskan $200 per bulan untuk paket Max. Sekarang, dengan penggunaan yang sama, saya menghabiskan beberapa ribu dolar per bulan di Claude enterprise
      Anthropic pada dasarnya mensubsidi penggunaan konsumen, lalu mengenakan margin yang lumayan besar ke perusahaan untuk zero data retention (ZDR)
    • Kalau agen diberi hak akses yang luas dan loop umpan balik yang efektif, saya cukup memberi arahan lalu hanya memeriksa hasil akhirnya
      Misalnya, saya bisa menyuruh agen yang punya akses ke browser, log, metrik, GitHub, dan log CI untuk mengimplementasikan fitur baru
      Kalau ada beberapa laporan bug di Slack, saya jalankan beberapa agen lagi. Kalau PM ingin perubahan UI, saya jalankan satu agen. Banyak pekerjaan developer sebenarnya tidak harus rumit, dan saya cukup meninjau PR akhir lalu meninggalkan komentar seperti ke rekan kerja. Setelah itu agen saya kembali bekerja, merevisi sesuai komentar, dan meminta review baru
      Sementara itu saya bisa mencurahkan perhatian nyata saya ke fitur yang lebih berat, dokumen desain, analisis data, dan semacamnya
      Untuk penggunaan pribadi saya menghabiskan $300 per bulan, dan untuk kerja beberapa ribu dolar. Agen benar-benar bisa mengubah produktivitas dan nilainya sepadan dengan biayanya
      Dari sudut pandang perusahaan, pilihannya adalah membayar beberapa ribu dolar per bulan atau merekrut satu engineer lagi yang total biayanya ratusan ribu dolar per tahun. Setidaknya untuk saya saat ini, ini memberi pengali 2x
    • Bisa jadi mereka cuma mau pamer kemampuan prompt yang gila. Semacam, masa engineer yang punya harga diri kelihatan menghabiskan kurang dari $2K per bulan
      Melihat konteks interaksi dengan orang-orang seperti itu, kemungkinan besar itu jawaban paling sederhana untuk pertanyaan yang cukup membingungkan. Rasanya juga tidak masuk akal kalau sampai mungkin menghabiskan $2K per bulan kecuali memang sengaja membuang-buang kredit
    • Setuju. Tapi cukup banyak dari orang-orang itu juga banyak bicara tentang instruksi/rules/skill/fitur kustom yang mereka setel sendiri. Itu sudah memakan banyak jendela konteks bahkan sebelum mulai
      Saat saya memakai AI, saya hanya memakai alatnya secara murni, dan konteksnya adalah kode persis yang sedang saya kerjakan. Tujuannya untuk melihat apakah itu membantu menyelesaikan masalah tertentu, dan untuk sisa codebase saya cukup paham sehingga bisa menilai apakah jawabannya bagus atau buruk
    • Ada beberapa hal. 1) Kalau prompt tidak cukup presisi untuk mempersempit ruang lingkup, agen akan menyisir seluruh codebase, mengulang-ulang melihat tempat yang sama, lalu kadang macet. 2) Biasanya tidak masalah meski output tidak dicek, tapi kadang ia gagal paham dan menghasilkan sampah, dan kalau Anda tidak membaca kodenya untuk memahami masalahnya, Anda tidak akan bisa keluar hanya dengan prompt. Kalau dibiarkan otomatis, itu akan membakar token
      Hal-hal level rendah pun bisa membuat agen tersandung. Barusan saja ia tidak mau membaca dengan benar error bahwa sebuah fungsi butuh nilai balik bool, lalu mencoba 10 variasi dari hal yang sama sampai saya hentikan. Skill juga bisa menimbulkan masalah. Misalnya, kalau diberi izin, ia sangat suka membaca source code dari library yang saya pakai. Itu lubang kelinci
  • Jika maksudnya “biaya awal tinggi, dan model yang benar-benar bisa dijalankan di rumah lebih lemah daripada yang dirilis lab terdepan, jadi hanya menguntungkan kalau Anda bisa membuat perangkat terus sibuk dengan pekerjaan jangka panjang yang menjalankan model lambat dan murah semalaman. Kebanyakan orang tidak bisa terus membebani mesin rumahan seperti itu, dan hardware yang dibeli hari ini bisa terlihat seperti taruhan buruk setahun kemudian”, maka ini bukan tulisan tentang AI coding di rumah, melainkan tulisan tentang vibe coding di rumah
    Ada banyak bagian dari tulisan ini yang tidak saya setujui. Saya menulis komentar ini di komputer rumahan 64GB RAM tanpa GPU, dan saya banyak melakukan AI coding dengan biaya sangat kecil
    Saya menjalankan Gemma 4 26b (mixture of experts) dan Qwen 3 coder lewat Ollama. Saya juga memakai penyelesaian kode GitHub Copilot, serta tier gratis API Gemini dan Mistral. Saya juga punya akun API Gemini berbayar, tapi sekarang prabayar jadi tidak ada risiko tagihan $1000 karena tidak sengaja. Dengan Gemini Flash Lite 3.1 pun banyak hal bisa dikerjakan
    Tak satu pun dari ini membakar token untuk membuat gumpalan spaghetti code yang mahal, tapi jelas ini tetap termasuk AI coding

    • Saya juga merasakan hal yang sama. Saya memakai Qwen 3.6 35B A3B di mesin dengan RAM 64GB dan 5090 24GB. Untungnya saya sempat membeli Alienware 16 Area51 sekitar 15 detik sebelum orang-orang dengan bodohnya melakukan preorder komputer untuk 3 tahun ke depan dan merusak semuanya
      Dengan ini saya memang tidak bisa melakukan vibe coding gaya “meriam slop”, tapi ini kode pribadi saya dan saya memang tidak ingin hasilnya jadi spaghetti, jadi saya bukan sedang mengejar vibe coding. Yang saya inginkan adalah sesuatu yang bisa langsung mencari posting Stack Overflow dan Reddit di kotak chat, mengurangi penderitaan fisik karena harus benar-benar mengetik kode TypeScript, dan mengurangi kerepotan debugging tanpa akhir untuk masalah Docker yang samar-samar. Saya developer backend, jadi kesabaran saya untuk frontend itu minus, dan walaupun saya suka Docker, saya tidak punya kesabaran untuk masalah menyebalkan dan keanehan tanpa akhir. Model ini sangat bagus untuk itu
    • Jelas ada pekerjaan yang bisa dibiarkan berjalan terus untuk sementara waktu. Saya rasa batas antara vibe coding dan rutinitas coding berbasis keterlibatan manusia akan makin kabur seiring alur kerja makin tervalidasi dan model menjadi lebih pintar serta lebih murah
      Sebagian besar engineer terbaik yang saya kenal sudah jauh lebih banyak beralih ke vibe coding tahun ini. Kemungkinannya sekarang jauh lebih baik
  • Cukup memuaskan hanya dengan memakai API platform DeepSeek secara langsung dan menghubungkan model V4 Flash ke harness seperti Opencode. Sepertinya selama beberapa minggu hanya menghabiskan sekitar $10
    Aku juga sempat melihat model self-hosting, tetapi hardware saat ini terlalu mahal

    • Kalau memakai Opencode Go tetapi hanya menggunakan DeepSeek Flash, sepertinya bisa bertahan lebih lama. Nilainya setara $65 dalam token, tetapi karena pembayarannya bulanan semuanya harus dihabiskan, jadi kalau pemakaian rendah lebih murah memanggil DeepSeek secara langsung
      Bulan pertama $5, setelah itu $10 dan bisa dibatalkan kapan saja. Dengan email baru juga bisa terus mendapat diskon
    • Maksudnya dipakai langsung dari DeepSeek? Setahuku aku belum memverifikasinya, tetapi operator AI lain menawarkan sebagian model DeepSeek dengan harga lebih murah
      Tetap menarik. Dengan harga itu kita dapat apa? Apakah hanya untuk coding, atau misalnya termasuk pembuatan gambar juga?
  • Di rumah, orang-orang sebenarnya ngapain? Aku coding sekitar 5 aplikasi dengan paket Claude $20 per bulan, dan tentu saja kadang kena rate limit, tetapi aku benar-benar tidak tahu harus ngapain untuk bisa membakar token senilai $3k

    • Tergantung kasusnya, tetapi otomasi cepat sekali menghabiskan paket $100~$200 per bulan, dan hanya dari token saja bisa membakar ribuan dolar
      Ada analisis akar masalah untuk isu dukungan pelanggan yang dijalankan tiap jam, otomasi harian seperti analisis log, lalu otomasi mingguan/bulanan untuk pelacakan dan eksekusi KPI
      Saat membuat side project, jauh lebih mudah tetap berada dalam batas paket $20 per bulan karena 1) cakupannya cukup terdefinisi dengan baik dan 2) tidak butuh pengguna atau otomasi. Sekarang aku sering mentok di batas mingguan dan butuh beberapa paket Max
    • Aku juga sama. $20 per bulan sudah cukup, dan kupakai untuk coding setiap hari
      Orang-orang yang membakar token sepertinya memakai konfigurasi seperti banyak sub-agent, 50 skill yang dimuat, 40 alat MCP, dan semacamnya. Hal-hal itu memenuhi konteks di setiap giliran
    • Mirip juga denganku, tetapi aku masih cukup banyak berpikir sendiri dan hanya memakai AI untuk mempercepat pekerjaan membosankan yang tidak ingin kulakukan sendiri, jadi sepertinya aku lebih jarang mentok limit
      Ini sangat bagus terutama untuk proyek pribadi di rumah. Bahkan setelah seharian mengerjakan hal membosankan di kantor, aku jadi jauh lebih ingin mengerjakan side project karena tidak perlu menangani pekerjaan repetitifnya
      Sebagian besar orang yang membakar token senilai ribuan dolar di rumah kemungkinan besar sedang membuat tumpukan slop yang besar
    • Jawaban singkat untuk “harus ngapain supaya bisa membakar token senilai $3k” adalah membuat slop
      Sebagian besar coding bisa dilakukan dengan cepat hanya dengan keyboard, IntelliSense, dan sedikit template pembangkitan kode
      Tetapi orang-orang jadi bergantung pada AI untuk melakukan semuanya, dan sekarang para tech bro mulai memerasnya seperti bandar narkoba
  • Beberapa bulan lalu aku menginvestasikan sekitar $4.000 untuk NVIDIA DGX Spark. Perangkat itu punya RAM terpadu 128GB dan chip NVIDIA GB10
    Berkat RAM, banyak core CPU, dan SSD NVMe 4TB, ini juga komputer ARM64 Linux yang cukup mumpuni bahkan tanpa GPU, dan sejauh ini aku lebih sering memakainya seperti itu. Tapi aku penasaran model mana yang performanya paling bagus untuk coding, terutama yang bisa berjalan baik di hardware ini

    • Aku sedang riset dan menguji untuk tulisan tentang Spark yang sedang kutulis untuk Ars, dan tanpa sengaja sampai pada konfigurasi 2 agen LLM yang memakai Qwen3.6-35B-A3B(nvidia/Qwen3.6-35B-A3B-NVFP4) sebagai planning agent, dan versi FP8 dari Qwen3-Coder-30B-A3B-Instruct (Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8) sebagai coding agent
      Aku tetap memakai vLLM sebagai inference engine, dan merangkai loop 2 agen itu dengan Opencode
      Planner Qwen3.6-35B-A3B berjalan cukup baik di sekitar 50~55 token per detik, dan coder Qwen3-Coder-30B-A3B-Instruct menghasilkan sekitar 30~35 token. Jika kedua agen dijalankan dan dibiarkan standby, penggunaan RAM sekitar 112GB dari 128GB
      Cukup bagus. Aku sedang mengutak-atik sambil mendisassemblasi game MS-DOS era 1980-an, dan ini jenis pekerjaan yang sangat cocok untuk konfigurasi itu. Memang bukan yang tercepat di dunia, tetapi kalau context window planner diset ke 256k token dan coding agent ke 128k, keduanya bisa saling melempar daftar tugas yang cukup panjang tanpa banyak keluhan. Satu-satunya masalah nyata adalah coding agent tetap berhalusinasi seperti habis pakai LSD meski prompt-nya dibuat sangat sempit. Tetapi planning agent tampaknya cukup bagus menangkap halusinasi itu lalu memecah ulang tugasnya dan mengirimkannya kembali ke coder
      Keren. Saat beberapa bulan lagi aku harus mengembalikan perangkat ulasannya, sepertinya aku bakal sedih
      Tambahan lagi, aku juga sempat mencoba Deepseek v4 Flash dengan setup Antirez(https://github.com/antirez/ds4), dan hasilnya sangat bagus serta benar-benar mudah dijalankan. Hanya saja di Spark kecepatannya cukup lambat, sekitar 14 token per detik. Dan kecuali kamu punya dua unit Spark, kemungkinan kamu hanya akan menjalankan satu model ini saja pada satu waktu. Model ini memakan seluruh RAM
    • https://www.canirun.ai/?status=tight mungkin bisa menjawab pertanyaan itu
    • Deepseek v4 flash sangat kuat untuk ukurannya, dan kabarnya berjalan baik juga di hardware itu
    • Kalau kamu masih belum tahu itu tetapi bilang “sudah kupakai seperti itu”, sepertinya tulisannya harus dimulai dengan “beberapa bulan lalu aku membuang $4k untuk mainan
    • DeepSeek V4 Flash adalah model coding yang sangat mumpuni dan berjalan baik di hardware yang kamu jelaskan. Terutama kalau kamu mencari versi yang dioptimalkan untuk penggunaan lokal
  • Bagi saya, investasi hardware tampak seperti jalur yang tepat
    Saya belajar coding hampir 24 tahun lalu, dan sampai sekarang masih terus mempelajari hal-hal baru. Selama ini, saya tidak pernah harus bergantung pada model langganan untuk belajar dan membuat hal baru
    Jika LLM dan agent menjadi alat dasar untuk coding dan membangun software setidaknya dalam beberapa tahun ke depan, menginvestasikan $2000~3000 pada hardware seperti Halo Strix PC terasa seperti pilihan yang wajar

    • Saya sempat berpikir, mungkin ada opsi “gratis” dari hardware bekas
      Saya punya GTX1080ti sekitar keluaran 2018, tidak dipakai, dan nilainya sudah balik modal sejak beberapa tahun lalu, jadi sekarang biaya hardwarenya 0
      Cukup mampu menjalankan Gemma e4b multimodal, qwen 3.5 8b, dan model embedding qwen 4b. Untuk LLM, kecepatannya di atas 40 token per detik
      Saat beban penuh, konsumsi dayanya 350W dari stopkontak, 3W saat hemat daya, dan 80W saat idle. Tarif listriknya £0.035 per kWh, cukup murah untuk standar Inggris. Itu karena beban dialihkan ke baterai rumah
      Biayanya sekitar 1 pence untuk 144k output token, dan secara teori butuh satu jam
      Bahkan dengan hardware gratis dan listrik yang sekitar 10x lebih murah dari tarif normal, hasilnya tetap hanya sedikit lebih murah dibanding memakai model deepseek v4 flash yang jauh lebih kuat
    • Benar juga, tapi tidak sepenuhnya. Hardware punya efek terkunci. Saya memang puas dengan memori bersama 128GB, tapi agak khawatir karena sekarang tampaknya lebih mahal daripada saat saya membelinya
      Jika melihat langkah terbaru Gedung Putih terhadap Anthropic, dan kenyataan bahwa model bagus generasi berikutnya mungkin memerlukan lebih dari 128GB agar bisa berjalan dengan baik, ini bukan sinyal yang bagus untuk masa depan
      Bukan berarti saya meremehkan lokal. Saya juga pengguna seperti itu dan tetap memakai langganan, tapi kita harus melihat titik komprominya dengan jernih
    • Dengan $3k, Anda tidak akan mendapatkan performa setingkat model terdepan. Jika itu dibagi untuk membeli seluruh PC, bukan hanya GPU, maka Anda paling banter cuma dapat performa yang lumayan
    • Bukan 3 ribu dolar, tapi perlu pikirkan 10 ribu dolar
    • Saya juga berpikir mirip. Saya memakai kartu VRAM 16GB murah yang saya beli sekitar setahun lalu, dan saya paham bahwa token per detik yang jauh lebih tinggi daripada yang bisa saya lakukan di rumah bisa dibeli dengan uang
      Tapi itu terasa seperti mengukur produktivitas dari jumlah baris kode. Untuk pekerjaan yang saya lakukan, saya belum merasakan manfaat dari langganan mana pun
      Tentu saya tidak bisa membuat ulang seluruh aplikasi CRUD yang membosankan hanya dengan satu prompt, tapi ya mau bagaimana lagi
  • Saya mulai memakai pendekatan brain -> worker untuk coding
    Brain adalah model mahal dan pintar dari langganan Claude. Kalau bisa saya pakai Fable 5, sekarang saya pakai Opus
    Worker adalah model lokal (qwen3.6:46B), dideploy di GPU 36GB dengan Opencode + Ollama
    Brain bertugas untuk analisis/desain dan membuat tugas. Tugasnya harus sederhana dan jelas agar bisa ditangani worker. Worker mengerjakan coding, lalu Brain memverifikasi dan membuat tugas perbaikan bila perlu. Saat ini rasio perbaikan terhadap tugas kira-kira 1:20
    Jika tidak punya GPU di rumah, qwen3.6 juga cukup murah di cloud
    Ini lebih mirip konfigurasi eksperimental yang dibuat karena rasa penasaran, tapi bekerja lebih baik dari perkiraan. Saat ini konfigurasi ini memungkinkan saya menjalankan 3 agent coding terus-menerus selama 4 hari. Saya menjelaskan bagaimana saya sampai pada konfigurasi ini di sini: https://news.ycombinator.com/item?id=48520757

  • Apakah sekarang sudah bisa menjalankan sesuatu yang setara Opus 4.6 secara lokal? Saya terus mendengar jawaban yang berbeda-beda
    Kalau itu bisa dilakukan dengan $10k, saya akan berhenti langganan. Masalahnya, saya tidak ingin menghabiskan uang hanya untuk mengeceknya sendiri

    • Jika menginginkan level model terdepan, pilihan yang masuk akal secara ekonomi adalah OpenRouter atau langganan langsung ke model terdepan yang Anda inginkan
      Secara realistis, demi melindungi margin data center, tidak ada yang menyediakan konfigurasi agar konsumen bisa menjalankan VRAM sebesar itu dalam satu setup. Apple dulu sempat memungkinkan, tapi sudah dihentikan, dan perangkat itu sekarang diperdagangkan di eBay dengan harga di atas $20k per unit
      Dengan kartu seri 3090/4090/5090/6000, Anda tetap bisa menjalankan model yang sangat kuat. Tapi kalau yang diinginkan adalah “setingkat model terdepan”, untuk barang baru Anda perlu investasi minimal sekitar $22k. Dengan barang bekas, biaya awal untuk membangun server sendiri bisa jauh lebih rendah, tapi konsumsi listriknya kemungkinan 4~6x lebih tinggi
    • Dengan $10k, Anda bahkan tidak akan mendekati Opus atau Sonnet
      Untuk saat ini, itu bukan sesuatu yang realistis bagi orang biasa
    • Sayangnya, sesuatu yang setara Opus 4.6 masih belum bisa dijalankan secara lokal. Yang paling mendekati yang bisa didapat kira-kira level Sonnet 3.7
    • Saya menghabiskan $8k, dan mendapatkan sesuatu yang mendekati Sonnet yang 2~3x lebih lambat. Konfigurasinya menjalankan deep seek v4 flash di 2 unit Spark
    • Di beberapa benchmark, Kimi K2.6 muncul dalam margin error terhadap Opus 4.6, dan bisa dijalankan dengan 8 RTX6000
      Saat ini, mustahil merakit mesin seperti itu dari nol dengan biaya di bawah $100K. Tapi sekarang juga sulit memberi harga pada otonomi