16 poin oleh GN⁺ 2025-10-30 | Belum ada komentar. | Bagikan ke WhatsApp
  • Setelah membagikan pengalaman bermigrasi dari AWS ke bare metal dan menghemat $230.000 per tahun 2 tahun lalu, ini adalah laporan yang merangkum jawaban lanjutan atas berbagai pertanyaan dari komunitas. Mereka mempublikasikan data operasional nyata selama 2 tahun dan menyatakan telah mencapai penghematan tahunan lebih dari $1,2 juta
  • Melalui operasi produksi nyata, nilai penghematan meningkat menjadi lebih dari $1,2 juta per tahun, dan dana tersebut diinvestasikan kembali ke server untuk ringkasan insiden berbasis AI dan perbaikan kode otomatis, yang berujung pada peningkatan kualitas layanan
  • Berdasarkan stack MicroK8s + Ceph, mereka mempertahankan ketersediaan 99,993% dan menghilangkan single point of failure dengan konfigurasi dua data center
  • Berbagai isu utama seperti biaya operasional nyata, respons insiden, umur hardware, sertifikasi keamanan, dan layanan pengganti cloud dijelaskan dengan angka yang konkret
  • Hasilnya, stabilitas dan efisiensi biaya sama-sama meningkat, dan mereka menyimpulkan bahwa untuk sistem dengan beban tetap pada skala tertentu, bare metal lebih rasional

Ringkasan hasil operasional selama 2 tahun

  • Selama 24 bulan, mereka menjalankan stack MicroK8s + Ceph di lingkungan production dan mencapai ketersediaan 99,993%
    • Untuk mengatasi masalah satu rak tunggal, mereka menambahkan rak kedua di Frankfurt dan membangun koneksi ganda DWDM dengan rak utama di Paris
    • Dengan NVMe lokal dan penghilangan interferensi noisy neighbor, latensi pelanggan berkurang 19%
  • Biaya yang dihemat diinvestasikan kembali untuk membeli server AI bare metal, memperluas fitur ringkasan alert berbasis LLM dan perbaikan kode otomatis milik OneUptime

Efek penghematan dan perbandingan biaya

  • Estimasi penghematan awal adalah $230.000 per tahun, tetapi kini meningkat menjadi lebih dari $1,2 juta
    • Ini setara dengan sekitar 76% penghematan dibanding AWS
    • Berdasarkan biaya tenaga kerja global, nilainya setara dengan gaji tahunan 2 hingga 5 engineer
  • Bahkan jika menerapkan Savings Plans / Reserved Instances, Bare Metal tetap lebih unggul
    • Savings Plans tidak berlaku untuk biaya S3, egress, dan Direct Connect
    • Biaya control plane EKS $1.260/bulan dan NAT gateway $600/bulan juga tidak bisa dihemat
    • Untuk workload steady yang berjalan 24/7, efektivitas reserved instance terbatas

Migrasi dan biaya operasional

  • Migrasi awal selesai dengan sekitar 1 minggu kerja engineering
    • Sebagian besar adalah pekerjaan yang memang sudah diperlukan sebelumnya, seperti perapihan IaC dan penguatan kebijakan backup
  • Biaya operasional saat ini adalah sebagai berikut:
    • Dikelola langsung: sekitar 24 jam per kuartal (termasuk patch dan update firmware)
    • Remote Hands: hanya perlu intervensi 2 kali selama 24 bulan (terutama masalah disk), dengan waktu respons rata-rata 27 menit
    • Otomatisasi: boot PXE (Tinkerbell), manajemen image Talos, otomatisasi konfigurasi Flux/Terraform
  • Dibanding masa masih menggunakan AWS, tim operasional justru mengalami peningkatan kecepatan rilis, dan beban “rapat optimasi biaya” juga hilang

Kesiapan menghadapi gangguan dan menjaga ketersediaan

  • Dengan menambahkan rak kedua di Frankfurt dan koneksi dual-path DWDM, mereka menghilangkan single point of failure
    • Mereka membangun mirroring Ceph berbasis replikasi asinkron dan dual control plane
    • Dengan tambahan jalur manajemen berbasis 4G/satelit, akses jarak jauh tetap tersedia saat terjadi gangguan jaringan
  • Sedang dalam proses transisi dari MicroK8s ke Talos
  • Cluster backup failover di AWS masih dipertahankan, dan simulasi pemulihan bencana per kuartal tetap dilakukan
  • Dengan ingress berbasis Anycast+BGP, keterlambatan perpindahan DNS juga membaik menjadi kurang dari 1 menit
  • Selama 2 tahun, mereka mempertahankan ketersediaan 99,993% dan juga tidak terdampak gangguan region AWS terbaru

Hardware dan pengelolaan CapEx

  • Server dioperasikan dengan acuan depresiasi 5 tahun (2×EPYC 9654, RAM 1TB, konfigurasi NVMe)
    • Saat performa mulai jenuh, server dipindahkan ke cluster analitik lalu diganti dengan server baru
    • Berkat penghematan yang didapat, kini mereka bisa melakukan refresh 40% setiap 2 tahun, namun tetap menghemat biaya tahunan dibanding AWS
  • Mereka juga memiliki perpanjangan garansi Supermicro + 3 server cadangan
    • Umur pakai sebenarnya 7–8 tahun, tetapi dihitung konservatif sebagai 5 tahun

Logika pengganti managed service

  • Filosofi produk OneUptime adalah harus bisa self-hosted, sehingga stack yang sama perlu dipertahankan
    • Mereka menjaga konsistensi open stack seperti Kubernetes, Postgres, Redis, dan ClickHouse
  • Evolusi dari Terraform + EKS + RDS → MicroK8s + Argo Rollouts + Ceph
    • Menggunakan open source murni tanpa fork internal
  • Mereka juga masih tetap menggunakan cloud secara paralel: AWS Glacier (backup), CloudFront (edge caching), dan instance sementara untuk load test
  • Cloud cocok untuk elastisitas, sedangkan bare metal cocok untuk beban dasar

Jaringan dan keamanan

  • Mereka mengamankan 2 jalur 5Gbps (95th percentile), dengan biaya 8 kali lebih murah dibanding egress AWS
  • Pertahanan DDoS ditangani dengan Cloudflare di depan seluruh trafik
  • Mereka juga memiliki jaringan manajemen independen berbasis 4G/satelit sehingga akses jarak jauh tetap memungkinkan saat terjadi gangguan

Kepatuhan dan respons audit

  • Mereka mempertahankan sertifikasi SOC 2 Type II dan ISO 27001
    • Memanfaatkan data sertifikasi Tier III, log akses, dan CCTV dari colocation center
    • Log konfigurasi Terraform/Talos digunakan sebagai bukti riwayat perubahan
  • Auditor menilai bukti tersebut lebih dapat dipercaya daripada screenshot konsol AWS

Perbandingan alternatif cloud

  • Mereka membandingkan Hetzner, OVH, Leaseweb, Equinix Metal, dan AWS Outposts
    • Hyperscaler masih memiliki biaya egress yang tinggi
    • Host Eropa sulit memenuhi kebutuhan cluster Ceph skala besar dan persyaratan SLA
    • Equinix Metal memiliki premi 25–30% dibanding CapEx
    • Operasi hardware sendiri lebih unggul dalam hal densitas daya dan kebebasan upgrade
  • Hasilnya, berkat konfigurasi rak 15kW dan kemungkinan penggunaan ulang komponen, colocation unggul baik dari sisi biaya maupun performa

Pengukuran beban operasional (TOIL)

  • Mingguan: patch kernel/firmware dan pemeriksaan Ceph (1 jam)
  • Bulanan: canary upgrade control plane Kubernetes (2 jam)
  • Triwulanan: latihan DR, perencanaan kapasitas, pemeriksaan kontrak operator (12 jam)
  • Totalnya sekitar 14 jam per bulan, mirip dengan masa AWS, tetapi fokusnya berpindah dari “pelacakan biaya” ke “otomatisasi operasional”

Kasus ketika cloud tetap relevan

  • Jika workload memiliki pola spike atau musiman
  • Jika sangat bergantung pada managed service seperti Aurora Serverless, Kinesis, dan Step Functions
  • Jika tidak memiliki kapasitas untuk mengoperasikan sendiri Kubernetes, Ceph, monitoring, dan respons insiden
  • Artinya, untuk bisnis tahap awal atau dengan beban yang sangat fluktuatif, cloud masih unggul

Rencana ke depan

  • Mereka berencana merilis modul Terraform dan runbook untuk memprediksi anggaran colo
  • Post teknis mendalam tentang pengalaman operasional berbasis Talos juga sedang disiapkan
  • Mereka akan terus menanggapi masukan dari HN·Reddit dan melanjutkan berbagi studi kasus berbasis angka nyata

Belum ada komentar.

Belum ada komentar.