- Setelah membagikan pengalaman bermigrasi dari AWS ke bare metal dan menghemat $230.000 per tahun 2 tahun lalu, ini adalah laporan yang merangkum jawaban lanjutan atas berbagai pertanyaan dari komunitas. Mereka mempublikasikan data operasional nyata selama 2 tahun dan menyatakan telah mencapai penghematan tahunan lebih dari $1,2 juta
- Melalui operasi produksi nyata, nilai penghematan meningkat menjadi lebih dari $1,2 juta per tahun, dan dana tersebut diinvestasikan kembali ke server untuk ringkasan insiden berbasis AI dan perbaikan kode otomatis, yang berujung pada peningkatan kualitas layanan
- Berdasarkan stack MicroK8s + Ceph, mereka mempertahankan ketersediaan 99,993% dan menghilangkan single point of failure dengan konfigurasi dua data center
- Berbagai isu utama seperti biaya operasional nyata, respons insiden, umur hardware, sertifikasi keamanan, dan layanan pengganti cloud dijelaskan dengan angka yang konkret
- Hasilnya, stabilitas dan efisiensi biaya sama-sama meningkat, dan mereka menyimpulkan bahwa untuk sistem dengan beban tetap pada skala tertentu, bare metal lebih rasional
Ringkasan hasil operasional selama 2 tahun
- Selama 24 bulan, mereka menjalankan stack MicroK8s + Ceph di lingkungan production dan mencapai ketersediaan 99,993%
- Untuk mengatasi masalah satu rak tunggal, mereka menambahkan rak kedua di Frankfurt dan membangun koneksi ganda DWDM dengan rak utama di Paris
- Dengan NVMe lokal dan penghilangan interferensi noisy neighbor, latensi pelanggan berkurang 19%
- Biaya yang dihemat diinvestasikan kembali untuk membeli server AI bare metal, memperluas fitur ringkasan alert berbasis LLM dan perbaikan kode otomatis milik OneUptime
Efek penghematan dan perbandingan biaya
- Estimasi penghematan awal adalah $230.000 per tahun, tetapi kini meningkat menjadi lebih dari $1,2 juta
- Ini setara dengan sekitar 76% penghematan dibanding AWS
- Berdasarkan biaya tenaga kerja global, nilainya setara dengan gaji tahunan 2 hingga 5 engineer
- Bahkan jika menerapkan Savings Plans / Reserved Instances, Bare Metal tetap lebih unggul
- Savings Plans tidak berlaku untuk biaya S3, egress, dan Direct Connect
- Biaya control plane EKS $1.260/bulan dan NAT gateway $600/bulan juga tidak bisa dihemat
- Untuk workload steady yang berjalan 24/7, efektivitas reserved instance terbatas
Migrasi dan biaya operasional
- Migrasi awal selesai dengan sekitar 1 minggu kerja engineering
- Sebagian besar adalah pekerjaan yang memang sudah diperlukan sebelumnya, seperti perapihan IaC dan penguatan kebijakan backup
- Biaya operasional saat ini adalah sebagai berikut:
- Dikelola langsung: sekitar 24 jam per kuartal (termasuk patch dan update firmware)
- Remote Hands: hanya perlu intervensi 2 kali selama 24 bulan (terutama masalah disk), dengan waktu respons rata-rata 27 menit
- Otomatisasi: boot PXE (Tinkerbell), manajemen image Talos, otomatisasi konfigurasi Flux/Terraform
- Dibanding masa masih menggunakan AWS, tim operasional justru mengalami peningkatan kecepatan rilis, dan beban “rapat optimasi biaya” juga hilang
Kesiapan menghadapi gangguan dan menjaga ketersediaan
- Dengan menambahkan rak kedua di Frankfurt dan koneksi dual-path DWDM, mereka menghilangkan single point of failure
- Mereka membangun mirroring Ceph berbasis replikasi asinkron dan dual control plane
- Dengan tambahan jalur manajemen berbasis 4G/satelit, akses jarak jauh tetap tersedia saat terjadi gangguan jaringan
- Sedang dalam proses transisi dari MicroK8s ke Talos
- Cluster backup failover di AWS masih dipertahankan, dan simulasi pemulihan bencana per kuartal tetap dilakukan
- Dengan ingress berbasis Anycast+BGP, keterlambatan perpindahan DNS juga membaik menjadi kurang dari 1 menit
- Selama 2 tahun, mereka mempertahankan ketersediaan 99,993% dan juga tidak terdampak gangguan region AWS terbaru
Hardware dan pengelolaan CapEx
- Server dioperasikan dengan acuan depresiasi 5 tahun (2×EPYC 9654, RAM 1TB, konfigurasi NVMe)
- Saat performa mulai jenuh, server dipindahkan ke cluster analitik lalu diganti dengan server baru
- Berkat penghematan yang didapat, kini mereka bisa melakukan refresh 40% setiap 2 tahun, namun tetap menghemat biaya tahunan dibanding AWS
- Mereka juga memiliki perpanjangan garansi Supermicro + 3 server cadangan
- Umur pakai sebenarnya 7–8 tahun, tetapi dihitung konservatif sebagai 5 tahun
Logika pengganti managed service
- Filosofi produk OneUptime adalah harus bisa self-hosted, sehingga stack yang sama perlu dipertahankan
- Mereka menjaga konsistensi open stack seperti Kubernetes, Postgres, Redis, dan ClickHouse
- Evolusi dari Terraform + EKS + RDS → MicroK8s + Argo Rollouts + Ceph
- Menggunakan open source murni tanpa fork internal
- Mereka juga masih tetap menggunakan cloud secara paralel: AWS Glacier (backup), CloudFront (edge caching), dan instance sementara untuk load test
- Cloud cocok untuk elastisitas, sedangkan bare metal cocok untuk beban dasar
Jaringan dan keamanan
- Mereka mengamankan 2 jalur 5Gbps (95th percentile), dengan biaya 8 kali lebih murah dibanding egress AWS
- Pertahanan DDoS ditangani dengan Cloudflare di depan seluruh trafik
- Mereka juga memiliki jaringan manajemen independen berbasis 4G/satelit sehingga akses jarak jauh tetap memungkinkan saat terjadi gangguan
Kepatuhan dan respons audit
- Mereka mempertahankan sertifikasi SOC 2 Type II dan ISO 27001
- Memanfaatkan data sertifikasi Tier III, log akses, dan CCTV dari colocation center
- Log konfigurasi Terraform/Talos digunakan sebagai bukti riwayat perubahan
- Auditor menilai bukti tersebut lebih dapat dipercaya daripada screenshot konsol AWS
Perbandingan alternatif cloud
- Mereka membandingkan Hetzner, OVH, Leaseweb, Equinix Metal, dan AWS Outposts
- Hyperscaler masih memiliki biaya egress yang tinggi
- Host Eropa sulit memenuhi kebutuhan cluster Ceph skala besar dan persyaratan SLA
- Equinix Metal memiliki premi 25–30% dibanding CapEx
- Operasi hardware sendiri lebih unggul dalam hal densitas daya dan kebebasan upgrade
- Hasilnya, berkat konfigurasi rak 15kW dan kemungkinan penggunaan ulang komponen, colocation unggul baik dari sisi biaya maupun performa
Pengukuran beban operasional (TOIL)
- Mingguan: patch kernel/firmware dan pemeriksaan Ceph (1 jam)
- Bulanan: canary upgrade control plane Kubernetes (2 jam)
- Triwulanan: latihan DR, perencanaan kapasitas, pemeriksaan kontrak operator (12 jam)
- Totalnya sekitar 14 jam per bulan, mirip dengan masa AWS, tetapi fokusnya berpindah dari “pelacakan biaya” ke “otomatisasi operasional”
Kasus ketika cloud tetap relevan
- Jika workload memiliki pola spike atau musiman
- Jika sangat bergantung pada managed service seperti Aurora Serverless, Kinesis, dan Step Functions
- Jika tidak memiliki kapasitas untuk mengoperasikan sendiri Kubernetes, Ceph, monitoring, dan respons insiden
- Artinya, untuk bisnis tahap awal atau dengan beban yang sangat fluktuatif, cloud masih unggul
Rencana ke depan
- Mereka berencana merilis modul Terraform dan runbook untuk memprediksi anggaran colo
- Post teknis mendalam tentang pengalaman operasional berbasis Talos juga sedang disiapkan
- Mereka akan terus menanggapi masukan dari HN·Reddit dan melanjutkan berbagi studi kasus berbasis angka nyata
Belum ada komentar.