Coding AI di Rumah Tanpa Menghabiskan Uang Seperti Perusahaan
(stephen.bochinski.dev)- Opsi untuk menekan biaya coding AI pribadi terbagi menjadi tiga: self-hosting, menyewa API model open source, dan mengoptimalkan langganan frontier
- Self-hosting berarti membeli perangkat dan menjalankan model open source secara lokal, sehingga setelah itu tidak ada biaya per token, tetapi biaya awal besar dan model yang realistis dijalankan di rumah lebih lemah dibanding model dari lab frontier
- Menyewa model open source lewat biaya API memungkinkan kita tidak mengunci ribuan dolar pada konfigurasi GPU, menghindari pekerjaan untuk memeras performa, dan mudah beralih ke opsi yang lebih murah atau lebih baik bulan depan
- Langganan frontier dari OpenAI dan Anthropic sekitar $400 per bulan dapat memberi penggunaan API senilai sekitar $2.800 pada harga daftar, tetapi workflow AI-native berskala besar akan cepat menghabiskan token yang disertakan
- Pendekatan yang paling cocok adalah strategi campuran: memakai langganan frontier untuk penalaran sulit dan penulisan spesifikasi, lalu memakai API open source untuk tugas kecil yang mekanis
Tiga pilihan
- Ada tiga cara untuk melakukan coding AI di rumah tanpa pengeluaran setingkat perusahaan, dan pilihan yang tepat sangat bergantung pada seberapa besar Anda percaya pada rilis hardware dan model dalam 1 tahun ke depan
- Self-hosting adalah pendekatan membeli perangkat sendiri dan menjalankan model open source secara lokal, sehingga setelah itu tidak ada biaya per token
- Biaya awalnya besar, dan model yang benar-benar bisa dijalankan di rumah lebih lemah daripada model yang dirilis lab frontier
- Pendekatan ini hanya sepadan jika Anda bisa terus memanfaatkan perangkat untuk pekerjaan jangka panjang, di mana model yang lambat dan murah bekerja semalaman
- Bagi kebanyakan orang, sulit mempertahankan perangkat rumahan pada beban tinggi secara terus-menerus, dan hardware yang dibeli hari ini bisa terlihat seperti pilihan buruk setahun kemudian
- Menyewa API model open source adalah menyewa model open source yang sama dari penyedia lewat biaya API, dan ini merupakan pilihan yang cocok bagi kebanyakan orang
- Anda tidak perlu menggelontorkan ribuan dolar untuk satu konfigurasi GPU, dan bisa menghindari pekerjaan untuk memeras performa jangka panjang dari model terbuka
- Mudah beralih ke opsi yang lebih murah atau lebih baik bulan depan, tanpa perlu menjual kembali perangkat
- Layanan seperti OpenRouter membuat perpindahan hampir semudah mengganti satu baris
- Mengoptimalkan langganan frontier berarti memaksimalkan langganan OpenAI dan Anthropic
- Paket sekitar $400 per bulan bisa memberi penggunaan API senilai sekitar $2.800 pada harga daftar, jadi ada efek diskon besar selama belum menyentuh batas
- Paket ini diukur berdasarkan penggunaan, dan workflow AI-native berskala besar akan cepat menghabiskan token yang disertakan
- Cocok untuk pekerjaan yang dipandu langsung oleh manusia, tetapi kurang memadai sebagai mesin untuk agen yang berjalan sepanjang hari
Kombinasi yang paling berhasil
- Cara yang paling berhasil adalah kombinasi langganan frontier dan API model open source
- Pertahankan beberapa langganan frontier untuk penalaran sulit dan penulisan spesifikasi, lalu tangani tugas kecil yang mekanis dengan biaya API model open source
- Dengan memanfaatkan pengembangan berbasis spesifikasi, model mahal dapat membuat rencana dan model murah dapat mengisi rencana tersebut
- Jika dijalankan dengan baik, pendekatan ini dapat menghasilkan output setara tim berisi 20 engineer selama sebulan dengan biaya sekitar $1.000
1 komentar
Komentar Hacker News
Rasanya sudah sampai di titik stagnan, dan tidak tahu harus naik ke tahap berikutnya bagaimana. Saat ini aku terus memakai paket Codex $100/bulan dengan 5.5-xhigh, dan itu terasa cukup
Aku memikirkan langkah berikutnya, memperjelas permintaan sedetail mungkin hingga tepat sebelum implementasi lewat sesi chat, lalu ketika Codex menangani pekerjaan per commit, aku cukup mengeceknya secara sederhana di server pengembangan lokal. Kalau perlu, aku minta revisi, lalu setelah itu kubiarkan commit, dan berdasarkan spesifikasi aku minta rekomendasi langkah selanjutnya. Toh kadang aku juga harus “menyetujui” permintaan di luar sandbox
Aku masih belum menemukan pekerjaan yang layak dibiarkan berjalan semalaman. Memang bisa saja memberi rencana besar sekaligus, tapi sering kali aku jadi ingin hasil antara dibuat sedikit berbeda, jadi terasa boros
Berikutnya sepertinya aku perlu mencari semacam VM mesin yang bisa menyalurkan permintaan GUI Codex. Aku tidak ingin memberi akses “berbahaya” ke seluruh Mac milikku
Aku benar-benar tidak paham apa yang orang-orang lakukan pada proyek sampingan sampai bisa membakar token secepat itu, butuh 2 langganan $200/bulan ditambah biaya token tambahan
Aku hanya menemukan satu kasus di mana AI yang terus dipaksa bekerja selama berjam-jam sedikit masuk akal. Aku sedang merekayasa balik widget yang berisi lima image firmware, lalu melakukan dump biner dan menyuruh AI mendekompilasi serta merekayasa balik proyek-proyek firmware yang saling terkait itu. Ini kompleks, tetapi ruang lingkupnya sangat terdefinisi dengan baik. Bukan pekerjaan yang sulit, lebih ke pekerjaan yang volumenya besar, dan hasilnya hanyalah tumpukan teks mirip C untuk tujuan informatif, bukan sesuatu yang bisa langsung dikompilasi. Kualitas output sangat terikat pada assembly input, dan keseluruhan hasilnya adalah dokumentasi dalam bentuk kode
Karena risikonya nol, aku tidak keberatan membiarkan AI menanganinya tanpa pengawasan sesukanya. Tetap saja, kalau AI merapikannya menjadi bentuk proyek C yang masih bisa mengenali assembly-nya, itu jauh lebih mudah kubaca dan kupakai bernalar. Menurutku itu kemenangan mudah
Baru saja minta dibuatkan program, lalu begitu jadi langsung bertanya ke AI cara menjalankannya. Kalau muncul bug, mereka tanya ke AI apa yang salah, atau membuang semuanya dan mencoba lagi dengan model/harness lain
Contohnya: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
Ini sama sekali berbeda dari alur kerja profesional yang kamu jelaskan. Lebih mirip mainan konsumen
Aku menghabiskan sekitar $4.8 untuk 320,000,000 token. Saat masih memakai paket Claude, ada tekanan bahwa LLM harus selalu mengerjakan sesuatu agar harganya terasa layak. Setelah beralih ke DeepSeek, aku tidak lagi berpikir begitu. Tidak ada rasa bersalah meski tidak memakai langganan, dan aku juga tidak khawatir soal batas. Tinggal bayar lebih saja. Terutama karena tidak ada batasan per jam, bedanya sangat terasa saat eksekusi paralel
Membeli lebih banyak token tidak akan membuat kemampuan berpikirmu “naik level”. Orang-orang yang menjalankan hal yang lebih otomatis kemungkinan besar sedang melaju lebih cepat daripada pemikiran mereka sendiri, dan pada akhirnya itu akan menjadi penghambat mereka
Di RTX 5090 aku menjalankan Trellis2 -> ultrashapes -> Trellis2 -> penyambungan rigging dan pengaturan animasi
Namun, 99% dari pekerjaan itu adalah waktu Codex menunggu output. Meski berjalan 12 jam, sebagian besar hanya soal menyetel banyak sleep. Aku belum pernah benar-benar menghabiskan semua token. Codex $100/bulan kena batas mingguan dalam sekitar 3 hari karena aku menjalankan 10 agen sekaligus sambil mengode pipeline aset seperti orang gila, jadi aku upgrade. Paket $200/bulan punya kredit 4x lebih banyak, jadi aku belum pernah menabrak batas dan bisa melaju sebebasnya
“Awalnya adalah self-hosting. Beli mesin, jalankan model open-source secara lokal, lalu setelah itu tidak perlu membayar biaya per token,” tetapi tagihan listrik jelas tidak gratis
Menurut saya, pada akhirnya ini berarti membayar premi untuk privasi, dan bagi saya itu sepadan
Jadi dalam kasus saya tidak ada biaya perangkat keras tambahan, karena ini adalah pembelian pengganti
Menjalankan model AI di rumah pada perangkat ini adalah sesuatu yang memang saya inginkan, dan bila perlu saya akan memakai OpenRouter
Saya mengakui perhitungan keekonomian dalam tulisan ini benar. Tapi rasanya sangat menyedihkan jika hasil akhirnya adalah kita merosot menjadi orang yang merawat mesin untuk melakukan pekerjaan yang dulu kita cintai. Dalam jangka panjang, mungkin membedakan nuansa semacam ini memang ada artinya
Kesalahan yang saya buat dalam hidup—dan sekarang saya sudah cukup tua sehingga praktis sulit diperbaiki—adalah percaya bahwa jika saya terus mendapatkan pemenuhan yang cukup dari pekerjaan, itu bisa menutupi ketiadaan pemenuhan pribadi lainnya. Saya selalu menikmati bahwa saya bisa langsung membantu orang melalui pekerjaan yang saya sukai dan kuasai, dan itu menahan kesedihan karena sulit membangun kehidupan keluarga yang tradisional
Saya selalu mengira saya akan bisa menemukan kegembiraan itu dengan cara-cara baru, tetapi kecuali keadaan kembali bergeser ke arah upaya manusia, bahkan kesenangan kecil menjelajahi hal-hal seperti ini dengan perlengkapan saya sendiri dan dengan cara saya sendiri pun tidak akan cukup
Dunia yang kita bangun sendiri terasa muram. Akhir-akhir ini saya takut menjadi semakin tua di dalamnya
Jika membeli 6000, biayanya mungkin sekitar 7–8 ribu dolar, tetapi nilai jual kembalinya kemungkinan cukup bagus. 3090 pun masih berada di atas 50% dari MSRP. Bahkan kalau tidak menjalankan LLM, ini tetap menjadi proposisi nilai yang menarik untuk melatih model visi jaringan saraf konvolusional yang “tradisional”. Dengan 96GB, kita bisa memasukkan ukuran batch yang sangat besar. Alasan terbesar untuk upgrade adalah karena performa per watt hampir dua kali lipat. Misalnya, 4000 Pro Blackwell hanya sekitar setengah konsumsi 3090 untuk performa yang mirip
Orang cenderung berasumsi bahwa belanja modal begitu saja lenyap, tetapi seperti yang terlihat pada RAM, sebaiknya jangan terlalu yakin bahwa nanti tidak akan bisa dijual kembali jika diperlukan
Saya sudah menghitungnya, dan selain soal privasi, ini tidak masuk akal. Meski begitu, saya tetap melakukannya. [0]
0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Dari sudut pandang murni konsumsi daya, di mana titik impasnya?
Saya benar-benar tidak paham bagaimana orang bisa menghabiskan uang sebanyak itu
Saya memakai paket Cursor $60/bulan dalam mode otomatis, dan bahkan ketika saya membiarkannya merencanakan dan ngoding sepanjang malam 4 hari seminggu, saya belum pernah mendekati batas kuota yang termasuk
Sebenarnya mereka melakukan apa secara berbeda sampai biayanya bisa sebesar itu?
Apakah mereka memakai penggunaan on-demand atau model berbayar lain, atau menyalakan mode yang lebih tinggi? Saya tidak mengerti kenapa itu perlu. Untuk tugas yang saya kerjakan, output Auto sangat gila bagusnya, dan saya belum pernah menemui masalah yang belum bisa ditangani dengan cukup baik
Di kantor saya sedang mewawancarai kandidat untuk bergabung ke tim, dan ada pelamar yang bilang mereka menghabiskan $2K per bulan untuk token di tempat kerja mereka sekarang. Saya benar-benar tidak bisa membayangkan apa yang harus terjadi sampai bisa seperti itu
Di startup kecil, saya dulu menghabiskan $200 per bulan untuk paket Max. Sekarang, dengan penggunaan yang sama, saya menghabiskan beberapa ribu dolar per bulan di Claude enterprise
Anthropic pada dasarnya mensubsidi penggunaan konsumen, lalu mengenakan margin yang lumayan besar ke perusahaan untuk zero data retention (ZDR)
Misalnya, saya bisa menyuruh agen yang punya akses ke browser, log, metrik, GitHub, dan log CI untuk mengimplementasikan fitur baru
Kalau ada beberapa laporan bug di Slack, saya jalankan beberapa agen lagi. Kalau PM ingin perubahan UI, saya jalankan satu agen. Banyak pekerjaan developer sebenarnya tidak harus rumit, dan saya cukup meninjau PR akhir lalu meninggalkan komentar seperti ke rekan kerja. Setelah itu agen saya kembali bekerja, merevisi sesuai komentar, dan meminta review baru
Sementara itu saya bisa mencurahkan perhatian nyata saya ke fitur yang lebih berat, dokumen desain, analisis data, dan semacamnya
Untuk penggunaan pribadi saya menghabiskan $300 per bulan, dan untuk kerja beberapa ribu dolar. Agen benar-benar bisa mengubah produktivitas dan nilainya sepadan dengan biayanya
Dari sudut pandang perusahaan, pilihannya adalah membayar beberapa ribu dolar per bulan atau merekrut satu engineer lagi yang total biayanya ratusan ribu dolar per tahun. Setidaknya untuk saya saat ini, ini memberi pengali 2x
Melihat konteks interaksi dengan orang-orang seperti itu, kemungkinan besar itu jawaban paling sederhana untuk pertanyaan yang cukup membingungkan. Rasanya juga tidak masuk akal kalau sampai mungkin menghabiskan $2K per bulan kecuali memang sengaja membuang-buang kredit
Saat saya memakai AI, saya hanya memakai alatnya secara murni, dan konteksnya adalah kode persis yang sedang saya kerjakan. Tujuannya untuk melihat apakah itu membantu menyelesaikan masalah tertentu, dan untuk sisa codebase saya cukup paham sehingga bisa menilai apakah jawabannya bagus atau buruk
Hal-hal level rendah pun bisa membuat agen tersandung. Barusan saja ia tidak mau membaca dengan benar error bahwa sebuah fungsi butuh nilai balik bool, lalu mencoba 10 variasi dari hal yang sama sampai saya hentikan. Skill juga bisa menimbulkan masalah. Misalnya, kalau diberi izin, ia sangat suka membaca source code dari library yang saya pakai. Itu lubang kelinci
Jika maksudnya “biaya awal tinggi, dan model yang benar-benar bisa dijalankan di rumah lebih lemah daripada yang dirilis lab terdepan, jadi hanya menguntungkan kalau Anda bisa membuat perangkat terus sibuk dengan pekerjaan jangka panjang yang menjalankan model lambat dan murah semalaman. Kebanyakan orang tidak bisa terus membebani mesin rumahan seperti itu, dan hardware yang dibeli hari ini bisa terlihat seperti taruhan buruk setahun kemudian”, maka ini bukan tulisan tentang AI coding di rumah, melainkan tulisan tentang vibe coding di rumah
Ada banyak bagian dari tulisan ini yang tidak saya setujui. Saya menulis komentar ini di komputer rumahan 64GB RAM tanpa GPU, dan saya banyak melakukan AI coding dengan biaya sangat kecil
Saya menjalankan Gemma 4 26b (mixture of experts) dan Qwen 3 coder lewat Ollama. Saya juga memakai penyelesaian kode GitHub Copilot, serta tier gratis API Gemini dan Mistral. Saya juga punya akun API Gemini berbayar, tapi sekarang prabayar jadi tidak ada risiko tagihan $1000 karena tidak sengaja. Dengan Gemini Flash Lite 3.1 pun banyak hal bisa dikerjakan
Tak satu pun dari ini membakar token untuk membuat gumpalan spaghetti code yang mahal, tapi jelas ini tetap termasuk AI coding
Dengan ini saya memang tidak bisa melakukan vibe coding gaya “meriam slop”, tapi ini kode pribadi saya dan saya memang tidak ingin hasilnya jadi spaghetti, jadi saya bukan sedang mengejar vibe coding. Yang saya inginkan adalah sesuatu yang bisa langsung mencari posting Stack Overflow dan Reddit di kotak chat, mengurangi penderitaan fisik karena harus benar-benar mengetik kode TypeScript, dan mengurangi kerepotan debugging tanpa akhir untuk masalah Docker yang samar-samar. Saya developer backend, jadi kesabaran saya untuk frontend itu minus, dan walaupun saya suka Docker, saya tidak punya kesabaran untuk masalah menyebalkan dan keanehan tanpa akhir. Model ini sangat bagus untuk itu
Sebagian besar engineer terbaik yang saya kenal sudah jauh lebih banyak beralih ke vibe coding tahun ini. Kemungkinannya sekarang jauh lebih baik
Cukup memuaskan hanya dengan memakai API platform DeepSeek secara langsung dan menghubungkan model V4 Flash ke harness seperti Opencode. Sepertinya selama beberapa minggu hanya menghabiskan sekitar $10
Aku juga sempat melihat model self-hosting, tetapi hardware saat ini terlalu mahal
Bulan pertama $5, setelah itu $10 dan bisa dibatalkan kapan saja. Dengan email baru juga bisa terus mendapat diskon
Tetap menarik. Dengan harga itu kita dapat apa? Apakah hanya untuk coding, atau misalnya termasuk pembuatan gambar juga?
Di rumah, orang-orang sebenarnya ngapain? Aku coding sekitar 5 aplikasi dengan paket Claude $20 per bulan, dan tentu saja kadang kena rate limit, tetapi aku benar-benar tidak tahu harus ngapain untuk bisa membakar token senilai $3k
Ada analisis akar masalah untuk isu dukungan pelanggan yang dijalankan tiap jam, otomasi harian seperti analisis log, lalu otomasi mingguan/bulanan untuk pelacakan dan eksekusi KPI
Saat membuat side project, jauh lebih mudah tetap berada dalam batas paket $20 per bulan karena 1) cakupannya cukup terdefinisi dengan baik dan 2) tidak butuh pengguna atau otomasi. Sekarang aku sering mentok di batas mingguan dan butuh beberapa paket Max
Orang-orang yang membakar token sepertinya memakai konfigurasi seperti banyak sub-agent, 50 skill yang dimuat, 40 alat MCP, dan semacamnya. Hal-hal itu memenuhi konteks di setiap giliran
Ini sangat bagus terutama untuk proyek pribadi di rumah. Bahkan setelah seharian mengerjakan hal membosankan di kantor, aku jadi jauh lebih ingin mengerjakan side project karena tidak perlu menangani pekerjaan repetitifnya
Sebagian besar orang yang membakar token senilai ribuan dolar di rumah kemungkinan besar sedang membuat tumpukan slop yang besar
Sebagian besar coding bisa dilakukan dengan cepat hanya dengan keyboard, IntelliSense, dan sedikit template pembangkitan kode
Tetapi orang-orang jadi bergantung pada AI untuk melakukan semuanya, dan sekarang para tech bro mulai memerasnya seperti bandar narkoba
Beberapa bulan lalu aku menginvestasikan sekitar $4.000 untuk NVIDIA DGX Spark. Perangkat itu punya RAM terpadu 128GB dan chip NVIDIA GB10
Berkat RAM, banyak core CPU, dan SSD NVMe 4TB, ini juga komputer ARM64 Linux yang cukup mumpuni bahkan tanpa GPU, dan sejauh ini aku lebih sering memakainya seperti itu. Tapi aku penasaran model mana yang performanya paling bagus untuk coding, terutama yang bisa berjalan baik di hardware ini
Aku tetap memakai vLLM sebagai inference engine, dan merangkai loop 2 agen itu dengan Opencode
Planner Qwen3.6-35B-A3B berjalan cukup baik di sekitar 50~55 token per detik, dan coder Qwen3-Coder-30B-A3B-Instruct menghasilkan sekitar 30~35 token. Jika kedua agen dijalankan dan dibiarkan standby, penggunaan RAM sekitar 112GB dari 128GB
Cukup bagus. Aku sedang mengutak-atik sambil mendisassemblasi game MS-DOS era 1980-an, dan ini jenis pekerjaan yang sangat cocok untuk konfigurasi itu. Memang bukan yang tercepat di dunia, tetapi kalau context window planner diset ke 256k token dan coding agent ke 128k, keduanya bisa saling melempar daftar tugas yang cukup panjang tanpa banyak keluhan. Satu-satunya masalah nyata adalah coding agent tetap berhalusinasi seperti habis pakai LSD meski prompt-nya dibuat sangat sempit. Tetapi planning agent tampaknya cukup bagus menangkap halusinasi itu lalu memecah ulang tugasnya dan mengirimkannya kembali ke coder
Keren. Saat beberapa bulan lagi aku harus mengembalikan perangkat ulasannya, sepertinya aku bakal sedih
Tambahan lagi, aku juga sempat mencoba Deepseek v4 Flash dengan setup Antirez(https://github.com/antirez/ds4), dan hasilnya sangat bagus serta benar-benar mudah dijalankan. Hanya saja di Spark kecepatannya cukup lambat, sekitar 14 token per detik. Dan kecuali kamu punya dua unit Spark, kemungkinan kamu hanya akan menjalankan satu model ini saja pada satu waktu. Model ini memakan seluruh RAM
Bagi saya, investasi hardware tampak seperti jalur yang tepat
Saya belajar coding hampir 24 tahun lalu, dan sampai sekarang masih terus mempelajari hal-hal baru. Selama ini, saya tidak pernah harus bergantung pada model langganan untuk belajar dan membuat hal baru
Jika LLM dan agent menjadi alat dasar untuk coding dan membangun software setidaknya dalam beberapa tahun ke depan, menginvestasikan $2000~3000 pada hardware seperti Halo Strix PC terasa seperti pilihan yang wajar
Saya punya GTX1080ti sekitar keluaran 2018, tidak dipakai, dan nilainya sudah balik modal sejak beberapa tahun lalu, jadi sekarang biaya hardwarenya 0
Cukup mampu menjalankan Gemma e4b multimodal, qwen 3.5 8b, dan model embedding qwen 4b. Untuk LLM, kecepatannya di atas 40 token per detik
Saat beban penuh, konsumsi dayanya 350W dari stopkontak, 3W saat hemat daya, dan 80W saat idle. Tarif listriknya £0.035 per kWh, cukup murah untuk standar Inggris. Itu karena beban dialihkan ke baterai rumah
Biayanya sekitar 1 pence untuk 144k output token, dan secara teori butuh satu jam
Bahkan dengan hardware gratis dan listrik yang sekitar 10x lebih murah dari tarif normal, hasilnya tetap hanya sedikit lebih murah dibanding memakai model deepseek v4 flash yang jauh lebih kuat
Jika melihat langkah terbaru Gedung Putih terhadap Anthropic, dan kenyataan bahwa model bagus generasi berikutnya mungkin memerlukan lebih dari 128GB agar bisa berjalan dengan baik, ini bukan sinyal yang bagus untuk masa depan
Bukan berarti saya meremehkan lokal. Saya juga pengguna seperti itu dan tetap memakai langganan, tapi kita harus melihat titik komprominya dengan jernih
Tapi itu terasa seperti mengukur produktivitas dari jumlah baris kode. Untuk pekerjaan yang saya lakukan, saya belum merasakan manfaat dari langganan mana pun
Tentu saya tidak bisa membuat ulang seluruh aplikasi CRUD yang membosankan hanya dengan satu prompt, tapi ya mau bagaimana lagi
Saya mulai memakai pendekatan brain -> worker untuk coding
Brain adalah model mahal dan pintar dari langganan Claude. Kalau bisa saya pakai Fable 5, sekarang saya pakai Opus
Worker adalah model lokal (qwen3.6:46B), dideploy di GPU 36GB dengan Opencode + Ollama
Brain bertugas untuk analisis/desain dan membuat tugas. Tugasnya harus sederhana dan jelas agar bisa ditangani worker. Worker mengerjakan coding, lalu Brain memverifikasi dan membuat tugas perbaikan bila perlu. Saat ini rasio perbaikan terhadap tugas kira-kira 1:20
Jika tidak punya GPU di rumah, qwen3.6 juga cukup murah di cloud
Ini lebih mirip konfigurasi eksperimental yang dibuat karena rasa penasaran, tapi bekerja lebih baik dari perkiraan. Saat ini konfigurasi ini memungkinkan saya menjalankan 3 agent coding terus-menerus selama 4 hari. Saya menjelaskan bagaimana saya sampai pada konfigurasi ini di sini: https://news.ycombinator.com/item?id=48520757
Apakah sekarang sudah bisa menjalankan sesuatu yang setara Opus 4.6 secara lokal? Saya terus mendengar jawaban yang berbeda-beda
Kalau itu bisa dilakukan dengan $10k, saya akan berhenti langganan. Masalahnya, saya tidak ingin menghabiskan uang hanya untuk mengeceknya sendiri
Secara realistis, demi melindungi margin data center, tidak ada yang menyediakan konfigurasi agar konsumen bisa menjalankan VRAM sebesar itu dalam satu setup. Apple dulu sempat memungkinkan, tapi sudah dihentikan, dan perangkat itu sekarang diperdagangkan di eBay dengan harga di atas $20k per unit
Dengan kartu seri 3090/4090/5090/6000, Anda tetap bisa menjalankan model yang sangat kuat. Tapi kalau yang diinginkan adalah “setingkat model terdepan”, untuk barang baru Anda perlu investasi minimal sekitar $22k. Dengan barang bekas, biaya awal untuk membangun server sendiri bisa jauh lebih rendah, tapi konsumsi listriknya kemungkinan 4~6x lebih tinggi
Untuk saat ini, itu bukan sesuatu yang realistis bagi orang biasa
Saat ini, mustahil merakit mesin seperti itu dari nol dengan biaya di bawah $100K. Tapi sekarang juga sulit memberi harga pada otonomi