Jangan Menyewa Cloud, Miliki Sendiri

(blog.comma.ai)

11 poin oleh GN⁺ 2026-02-06 | 3 komentar | Bagikan ke WhatsApp

CommaAI menjalankan seluruh pelatihan model dan pemrosesan data di pusat data miliknya sendiri, dan saat ini mengoperasikan infrastruktur senilai sekitar 5 juta dolar secara langsung
Ketergantungan pada cloud dapat berujung pada kenaikan biaya dan hilangnya kendali, sementara mengoperasikan komputasi sendiri memungkinkan peningkatan kualitas engineering dan penghematan biaya
Pusat data ini terdiri dari sekitar daya 450kW, 600 GPU, penyimpanan SSD 4PB, serta struktur pendinginan dan jaringan yang sederhana
Stack perangkat lunaknya dirancang dengan Ubuntu + Salt, penyimpanan minikeyvalue (mkv), scheduler Slurm, pelatihan terdistribusi PyTorch, dan komputasi terdistribusi miniray
Dengan struktur ini, comma.ai mengotomatiskan sepenuhnya pelatihan model kendaraan otonom dan mencapai penghematan biaya sekitar 5x dibanding cloud

Alasan Mengoperasikan Pusat Data Sendiri

Ketergantungan pada cloud menimbulkan kenaikan biaya dan vendor lock-in
- Perusahaan cloud dirancang agar onboarding mudah, tetapi offboarding sulit
- Dalam penggunaan jangka panjang, mudah terjebak dalam struktur biaya yang tinggi
Mengoperasikan komputasi sendiri mendorong kemandirian teknis dan budaya engineering yang efisien
- Cloud menuntut pengelolaan yang berpusat pada API dan sistem pembayaran, sedangkan pusat data menuntut penyelesaian masalah teknis nyata yang berfokus pada daya, komputasi, dan bandwidth
Dari sisi ML engineering, keterbatasan sumber daya mendorong optimasi kode dan perbaikan mendasar
- Di cloud, masalah sering diselesaikan dengan sekadar menambah anggaran, tetapi pada infrastruktur sendiri peningkatan performa menjadi keharusan
Dari sisi biaya, comma.ai menginvestasikan sekitar 5 juta dolar, dan memperkirakan bahwa pekerjaan yang sama di cloud akan membutuhkan lebih dari 25 juta dolar

Komponen Pusat Data

Daya
- Penggunaan maksimum 450kW, biaya listrik tahun 2025 sebesar 540.112 dolar
- Tarif listrik di San Diego mencapai 40 sen/kWh, sekitar 3x rata-rata global
- Disebutkan pula rencana produksi listrik sendiri di masa depan
Pendinginan
- Menggunakan pendinginan udara luar, lebih efisien daya dibanding sistem CRAC
  - Sirkulasi udara dilakukan dengan masing-masing 2 buah kipas intake dan exhaust 48 inci
  - Loop kontrol PID mengatur suhu dan kelembapan secara otomatis (dipertahankan di bawah 45%)
  - Konsumsi dayanya berada pada kisaran puluhan kW
Server dan penyimpanan
- Terdiri dari 75 unit TinyBox Pro (total 600 GPU), dibuat sendiri
  - Setiap perangkat memiliki 2 CPU + 8 GPU, digunakan untuk pelatihan dan komputasi umum
  - Produksi internal memudahkan pemeliharaan
- Penyimpanan berbasis Dell R630/R730, total 4PB SSD
  - Struktur non-redundant, dengan kecepatan baca 20Gbps per node
- Jaringannya terdiri dari 3 switch Z9264F 100Gbps dan 2 switch Infiniband

Infrastruktur Perangkat Lunak

Konfigurasi dasar
- Semua server menggunakan Ubuntu + boot PXE, dikelola dengan Salt
- Struktur single master mempertahankan uptime 99%
Penyimpanan terdistribusi — minikeyvalue (mkv)
- Data berkendara untuk pelatihan disimpan di penyimpanan non-redundant 3PB
  - Kecepatan baca 1TB/s, sehingga pelatihan langsung tanpa caching dimungkinkan
- Array cache 300TB dan array penyimpanan redundan menyimpan model serta metrik
- Setiap array dikelola oleh server master tunggal
Manajemen pekerjaan — Slurm
- Menjadwalkan pekerjaan pelatihan PyTorch dan pekerjaan terdistribusi miniray
Pelatihan terdistribusi — PyTorch + FSDP
- Mengoperasikan dua partisi pelatihan yang terhubung melalui jaringan Infiniband
- Framework pelatihan internal mengotomatiskan training loop
- Menyediakan layanan pelacakan eksperimen model
  - Mencakup dashboard, metrik kustom, dan manajemen bobot model
  - Metrik model terbaru tersedia untuk publik
Komputasi terdistribusi — miniray
- Scheduler tugas open source yang ringan untuk menjalankan kode Python di mesin yang sedang idle
  - Lebih sederhana daripada Dask, dengan server pusat Redis untuk mengelola tugas
  - Worker GPU menjalankan inferensi model melalui Triton Inference Server
- Dapat diskalakan paralel ke ratusan mesin
  - Contoh: rekor Controls Challenge dicapai dengan penggunaan pusat data selama 1 jam
Manajemen kode — monorepo berbasis NFS
- Seluruh codebase berukuran di bawah 3GB dan direplikasi ke semua workstation
- Saat pekerjaan dimulai, kode lokal dan paket disinkronkan, selesai dalam 2 detik
- Menjamin semua pekerjaan terdistribusi berjalan pada kode dan environment yang sama

Pipeline Pelatihan Terintegrasi

Pekerjaan paling kompleks di comma adalah melatih model berkendara dengan pendekatan on-policy
Untuk pelatihan seperti ini, perlu menjalankan simulasi berkendara dengan bobot model terbaru untuk menghasilkan data pelatihan
Seluruh pipeline dapat dijalankan dengan satu perintah berikut
- ./training/train.sh N=4 partition=tbox2 trainer=mlsimdriving dataset=/home/batman/xx/datasets/lists/train_500k_20250717.txt vision_model=8d4e28c7-7078-4caf-ac7d-d0e41255c3d4/500 data.shuffle_size=125k optim.scheduler=COSINE bs=4
Untuk menjalankan pelatihan tersebut, seluruh infrastruktur yang dijelaskan di atas digunakan
Hanya satu perintah sederhana, tetapi berperan mengoordinasikan banyak komponen

Kesimpulan

comma.ai mencapai penghematan biaya dan kemandirian teknis dengan mengoperasikan pusat data sendiri
Dengan pendekatan yang sama, perusahaan maupun individu juga dapat membangun infrastruktur sendiri

3 komentar

kaydash 2026-02-06

Memori mahal, katanya!

harryhan2435 2026-02-12

wwwwwwwwwwwwwwww

GN⁺ 2026-02-06

Komentar Hacker News

Di industri tempat kami berada, kepemilikan vs cloud berada di dua ujung spektrum
① cloud punya beban investasi awal (capex) dan kebutuhan tenaga kerja yang rendah, tetapi biaya operasional (opex) besar dan volatil
② Managed Private Cloud adalah pekerjaan kami, dikelola berbasis open source dan sekitar 50% lebih murah daripada AWS
③ Rented Bare Metal adalah model yang menangani pembiayaan hardware, dan 90% lebih murah daripada AWS
④ membeli langsung lalu colocate adalah yang paling murah jika Anda punya kemampuan teknis dan skala
Perusahaan seperti Hetzner beroperasi dengan ROI 3 tahun sebagai patokan, dan opsi 3~4 cocok untuk perusahaan berskala besar atau yang menjadikan infrastruktur sebagai inti
Untuk startup, opsi 1 realistis; untuk UKM, opsi 2 lebih realistis (lithus.eu)
- Masalahnya, struktur biaya cloud bukan semata karena harga hardware, melainkan karena orang didorong ke arsitektur yang kompleks sehingga inefisiensi membesar
  Layanan ‘managed service’ AWS punya struktur di mana makin efisien pengguna menjalankan server, makin kecil pendapatan AWS
  Jika hanya menaruh 4 server Java dan DB replikasi di atas EC2, hasilnya jauh lebih efisien
  Pada akhirnya, tagihan AWS yang tidak masuk akal muncul saat terlalu banyak layanan disalahgunakan
- (derek@ dari Carolina Cloud) Kami juga lebih suka model (4), tetapi pengguna yang kurang punya kemampuan teknis akan bertahan di model 1~3 dan terjebak dalam struktur biaya tinggi public cloud
  Katanya ‘berbasis pemakaian’, tetapi kenyataannya ada biaya dasar dan minimum usage fee sehingga jauh lebih mahal (carolinacloud.io)
- Hetzner adalah opsi yang menarik
  Harus mengelola sendiri layanan seperti Postgres atau VPN memang terasa berat, tetapi di atas 10~15 ribu dolar per bulan, ia lebih menguntungkan daripada AWS
  Ada risiko, tetapi layak diambil
- Saya menyewa server bare metal seharga 500 dolar per bulan, dan waktu pengelolaannya hanya beberapa jam per tahun
  Mungkin karena kebutuhan saya sederhana, tetapi rasanya jauh lebih baik daripada cloud yang terlalu kompleks
- Saya pindah ke colocasi sejak 2 tahun lalu, dan sekarang mendapat kapasitas lebih besar dengan 30% biaya
  Ada juga manfaat dari turunnya harga RAM/storage dari waktu ke waktu
  Hanya saja, pengelolaan compliance memang perlu sedikit lebih diperhatikan
Dulu orang hanya menyebut ini sebagai data center
Ini adalah konsep yang sudah ada sebelum cloud, dan pada akhirnya hanya pengulangan antara memiliki vs menyewa, sentralisasi vs desentralisasi
Saat perusahaan memilih terlalu ekstrem ke salah satu sisi, mereka akan kembali menghadapi masalah yang sama
- Yang menarik, alasan cloud dulu menarik bagi tim keuangan adalah efek penghematan pajak
  Namun, dengan regulasi terbaru (OBB) yang memungkinkan CapEx dibukukan sebagai biaya, kini ada angin kembali ke on-prem
- Kalau begitu, mengapa alternatif cloud yang kompetitif dari sisi harga tidak muncul?
  AWS dan Azure menguasai pasar sehingga tidak punya insentif untuk menurunkan harga, sementara Google punya risiko penghentian layanan yang besar
- Sebelum cloud, tim infrastruktur internal adalah bottleneck
  Cloud menstandarkan hal ini dan menyederhanakannya lewat sistem billing tunggal
  Selain itu, di luar AS pengadaan server lebih lambat, jadi keunggulan kecepatan cloud jauh lebih besar
- Data center on-prem punya beban operasional yang besar dan menyedot banyak resource engineering
  Karena itu perdebatan ini terus berulang
- Inovasi sejati cloud adalah “membuat biaya per layanan menjadi jelas”
  Alih-alih “saya harus minta tolong ke siapa?”, kini semuanya bisa diakses lewat API
  Konteks terkait dirangkum dengan baik di tulisan ini
Bahkan di daerah seperti San Diego yang mudah dikendalikan suhunya, pendinginan dengan udara luar tetap berisiko
Kelembapan dan polutan bisa merusak server dengan cepat
Sebaliknya, pendekatan seperti enthalpy wheel cooler (kyotocooling) efisien dan butuh daya lebih kecil dibanding efisiensi pendinginannya
Pendinginan udara luar punya risiko besar memperpendek umur perangkat, jadi perlu hati-hati
- Ada juga kasus yang mendapatkan hasil cukup baik dengan filtrasi dan menjaga kelembapan di bawah 45%
- Saya tidak tahu sebelumnya bahwa hal seperti ini perlu diperhatikan
  Jadi saya pakai cloud saja — bisa menghindari risiko ‘yang tidak kita tahu’ seperti ini
Menjalankan on-prem dan cloud secara paralel adalah pendekatan yang realistis
Infrastruktur inti dipercayakan ke cloud yang andal, sementara hal seperti pekerjaan Slurm dijalankan di server sendiri
Colocation juga masih merupakan opsi yang valid, dan HPC untuk riset juga layak dipertimbangkan
Di Norwegia, perusahaan swasta juga bisa memakai HPC riset dengan berbayar
- Saya pernah mengoperasikan server farm di dua lokasi di Italia, dikelola 5 staf dan mempertahankan uptime hampir 100%
  Dengan 800 ribu euro per tahun, kami menghemat biaya cloud sebesar 7~8 juta euro
- Banyak developer salah mengira bahwa mereka tidak bisa melakukan hosting sendiri
  Kenyataannya jauh lebih mudah daripada yang dibayangkan, dan menyenangkan juga menyelesaikan masalah teknisnya
- Jika menyewa ruang di tempat seperti Equinix atau Global Switch, listrik, pendinginan, kabel, dan lain-lain semuanya dikelola untuk Anda
  Bahkan memiliki dua server room sendiri di dua lokasi juga sangat mungkin dilakukan
- Kami masih memakai Azure untuk layanan pengguna
  Untuk layanan web yang tidak butuh GPU, cloud lebih efisien
  GitHub juga masih dipakai sebagai layanan yang dapat diandalkan
- (bercanda) Pernah ada daemon Postgres kusut di pool Slurm sampai Rust mengamuk
  Akhirnya stabil juga, tetapi dari sudut pandang engineer hardware, dunia software memang kacau
Di awal proyek, mulai di AWS dengan 250 dolar per bulan, lalu saat mencapai 30 ribu dolar per bulan pindah ke colocasi
Intinya adalah kemampuan menghitung biaya — engineer yang baik harus bisa mengusulkannya ke manajemen dengan dasar itu
- Bukan sekadar hitung-hitungan sederhana, Anda juga harus mempertimbangkan talenta seperti apa yang ingin ditarik dan bisnis seperti apa yang ingin dibangun
  Jika perusahaannya melatih model ML, infrastruktur sendiri mungkin lebih cocok
- Namun di sebagian besar perusahaan, engineer tidak bisa ikut terlibat dalam pemilihan platform
  Dalam 99.999999% kasus, manajemen sudah memutuskan lebih dulu lalu hanya memberi tahu
Di awal karier saya, cloud adalah pilihan yang jelas, tetapi sekarang on-prem kembali tren
Mungkin 10 tahun lagi arusnya akan berbalik lagi
- Dari pengalaman saya, tim yang mendorong on-prem selalu meremehkan kelelahan pemeliharaan
  Di tempat seperti startup yang butuh pengembangan cepat, itu justru jadi penghambat
  Sebaliknya, di perusahaan yang sudah masuk mode maintenance, on-prem efisien
  Makin bertambah usia, “selesai cepat dan sesuai anggaran” terasa makin penting, dan daya tarik mengelola infrastruktur sendiri pun berkurang
- Arus kali ini bukan sekadar siklus teknologi, melainkan reaksi terhadap ‘masyarakat yang tak bisa memiliki apa pun’
  Ketika musik, rumah, sampai mobil semuanya berubah menjadi model langganan, perusahaan juga bergerak untuk merebut kembali kedaulatan komputasi
- Siklus seperti ini selalu ada
  Mainframe → PC → server room → cloud → edge computing adalah pengulangan sentralisasi ↔ desentralisasi
  Pada akhirnya, ketika teknologi dan prioritas berubah, semuanya kembali lagi
  Begitu ungkapan “network is the computer” muncul lagi, berarti satu putaran sudah terulang
- (bercanda) Berikutnya mungkin tahap space (Skynet)
Alasan kebanyakan perusahaan menghindari on-prem adalah karena manajemen risiko
Perusahaan yang baik memusatkan risiko pada kompetensi inti mereka
Penilaiannya seharusnya bukan sekadar biaya, tetapi biaya yang telah disesuaikan dengan risiko
- Namun belakangan ini saya juga ragu apakah perusahaan-perusahaan benar-benar punya kemampuan untuk menilai risiko itu secara akurat
  Karena daya saing harga pada akhirnya juga merupakan salah satu faktor pembeda
- Intinya adalah fokus pada bisnis utama
  Jika itu tidak membantu menjual produk yang tadinya tidak laku menjadi lebih laku, jangan buang waktu di data center
  Pengecualiannya hanya kasus seperti Google, ketika infrastrukturnya sendiri adalah daya saing produk
- Pada akhirnya, kebanyakan ini adalah pertarungan Opex mengalahkan Capex
Keunggulan sejati on-prem adalah kebebasan, kontrol, dan privasi
Ini bukan sekadar soal uang, melainkan seperti pertanyaan apakah Anda memiliki rumah atau menyewanya
- Namun bahkan di tulisan aslinya pun biaya dibahas sebagai poin terakhir, dan keunggulan selain itu justru inti utamanya
Doktrin ala MBA pada 2010-an adalah “pindahkan semuanya ke cloud”
Memindahkan risiko dan biaya ke pihak ketiga dianggap sebagai jawaban yang benar
Tetapi kenyataannya, data center kami jauh lebih murah, dan laju kenaikan biaya langganan software jauh lebih tinggi daripada hardware
- Tentu saja, AWS punya data center redundan di seluruh dunia sehingga tingkat keandalannya berbeda
  Tetapi jika biaya tenaga kerja dan operasional ikut diperhitungkan, perbandingan biaya sederhana menjadi tidak berarti
  Satu tornado saja bisa menghancurkan perusahaan, jadi pada akhirnya keputusan harus dinilai berdasarkan nilai dibanding risikonya

Jangan Menyewa Cloud, Miliki Sendiri

Alasan Mengoperasikan Pusat Data Sendiri

Komponen Pusat Data

Daya

Pendinginan

Server dan penyimpanan

Infrastruktur Perangkat Lunak

Konfigurasi dasar

Penyimpanan terdistribusi — minikeyvalue (mkv)

Manajemen pekerjaan — Slurm

Pelatihan terdistribusi — PyTorch + FSDP

Komputasi terdistribusi — miniray

Manajemen kode — monorepo berbasis NFS

Pipeline Pelatihan Terintegrasi

Kesimpulan

3 komentar

Komentar Hacker News

Jangan Menyewa Cloud, Miliki Sendiri

Alasan Mengoperasikan Pusat Data Sendiri

Komponen Pusat Data

Daya

Pendinginan

Server dan penyimpanan

Infrastruktur Perangkat Lunak

Konfigurasi dasar

Penyimpanan terdistribusi — minikeyvalue (mkv)

Manajemen pekerjaan — Slurm

Pelatihan terdistribusi — PyTorch + FSDP

Komputasi terdistribusi — miniray

Manajemen kode — monorepo berbasis NFS

Pipeline Pelatihan Terintegrasi

Kesimpulan

Bacaan terkait

3 komentar

Komentar Hacker News