3 poin oleh GN⁺ 2025-11-20 | 1 komentar | Bagikan ke WhatsApp
  • Pada 18 November 2025 (UTC), di GitHub terjadi kegagalan pada semua operasi Git, sehingga klien SSH·HTTP dan akses file mentah terhenti
  • Penyebab masalah dipastikan sebagai kedaluwarsanya sertifikat TLS yang digunakan untuk komunikasi antar-layanan internal
  • GitHub mengganti sertifikat yang kedaluwarsa dan me-restart layanan yang terdampak, lalu menyelesaikan pemulihan normal
  • Setelah itu, GitHub memperkuat peringatan pemantauan kedaluwarsa sertifikat dan sedang menjalankan pekerjaan transisi otomatisasi untuk menghapus sertifikat yang dikelola secara manual
  • Gangguan kali ini memengaruhi Git Operations dan Codespaces milik GitHub, dan setelah pemulihan semua layanan kembali normal

Laporan gangguan operasi Git

  • Pada 18 November 2025 pukul 20:30~21:34 UTC, di GitHub terjadi kegagalan pada semua operasi Git

    • Interaksi klien Git SSH dan HTTP, serta akses file mentah, semuanya terdampak
    • Produk yang bergantung pada operasi Git juga mengalami gangguan yang sama
  • Penyebabnya dipastikan sebagai sertifikat TLS kedaluwarsa yang digunakan untuk komunikasi antar-layanan internal

    • GitHub mengganti sertifikat tersebut dan me-restart layanan yang terdampak untuk menyelesaikan masalah
    • Setelah restart layanan, pemulihan penuh tercapai
    Iklan
  • Untuk mencegah masalah serupa di masa mendatang, GitHub memperkuat sistem peringatan kedaluwarsa sertifikat

    • Untuk sertifikat lain di area terkait, GitHub juga sedang melakukan pemantauan dan pemeriksaan otomatisasi
    • GitHub mempercepat penghapusan sertifikat yang masih dikelola manual dan pembangunan sistem komunikasi antar-layanan yang terotomatisasi

Tahapan gangguan dan pemulihan

  • 20:39 UTC: Dilaporkan terjadi penurunan ketersediaan pada operasi Git dan Codespaces
  • 20:52 UTC: Dikonfirmasi kegagalan pada sebagian operasi Git HTTP
  • 21:11 UTC: Dikonfirmasi gejala kegagalan pada semua operasi Git
  • 21:25 UTC: Penurunan ketersediaan pada Codespaces masih berlanjut
  • 21:27 UTC: Penyebab berhasil diidentifikasi, pekerjaan perbaikan berlangsung
  • 21:36 UTC: Setelah perbaikan diterapkan, sebagian pemulihan mulai terjadi
  • 21:55 UTC: Semua layanan kembali normal, pemulihan Codespaces selesai
  • 21:56 UTC: Dikonfirmasi operasi Git kembali berjalan normal
  • 21:59 UTC: Insiden ditutup dan laporan dipublikasikan

Layanan yang terdampak

  • Git Operations
    • Seluruh operasi Git berbasis SSH dan HTTP
    Iklan
  • Codespaces
    • Terjadi penurunan ketersediaan sementara

Tindak lanjut

  • Penguatan pemantauan kedaluwarsa sertifikat dan otomatisasi
    • Membangun sistem peringatan sebelum masa berlaku habis
    • Meninjau proses pembaruan otomatis untuk semua sertifikat internal
  • Perluasan otomatisasi keamanan dan operasional
    • Menghapus pengelolaan sertifikat manual
    • Membangun komunikasi antar-layanan yang terotomatisasi sesuai praktik keamanan terbaru

1 komentar

 
GN⁺ 2025-11-20
Komentar Hacker News
  • Mengkhawatirkan karena rasanya gangguan sistem perangkat lunak besar akhir-akhir ini terlalu sering terjadi
    Tahun lalu hanya ada empat gangguan yang memengaruhi pekerjaan, tetapi kuartal ini saja sudah yang keempat
    Terasa seperti ketahanan (resiliency) perangkat lunak jaringan makin lama makin hilang
    Tim kami memakai arsitektur monolitik, tetapi punya banyak dependensi seperti Redis, S3, dan layanan integrasi eksternal
    Karena itu kami mendokumentasikan kondisi kegagalan, memperkuat otomatisasi pengujian dan deployment, serta menyederhanakan sistem dengan pindah ke VPS alih-alih cloud
    Hasilnya, sistem menjadi jauh lebih stabil dan dapat diprediksi
    Tanpa pekerjaan yang membosankan tetapi esensial seperti ini, kompleksitas hanya akan bertambah dan membuat sistem makin rapuh
    Gangguan yang baru-baru ini kami alami adalah AWS us-east-1, Azure Front Door, Cloudflare, dan GitHub

    • Pada akhirnya menurut saya masalahnya adalah uang
      Pelanggan tidak mau mengeluarkan uang untuk ketahanan atau infrastruktur redundan
      Sejak 2008 saya sudah mengerjakan belasan proyek, dan kebanyakan sikapnya adalah “ya sudah, serahkan saja pada nasib”
    • Setuju. Penghematan biaya pada akhirnya membuat kita “lupa cara membangun sistem yang tetap bertahan saat terjadi gangguan”
    • Kalau mau sengaja provokatif, saya juga melihat peningkatan penggunaan LLM ikut berkontribusi pada fenomena ini
  • Git adalah sistem kontrol versi terdistribusi, jadi tetap bisa bekerja meski GitHub tidak ada
    GitHub hanyalah hub yang nyaman

    • Namun, kalau sebuah perusahaan sepenuhnya bergantung pada GitHub Actions, ya seperti sekarang benar-benar buntu
    • Ini seperti situasi “eskalator ini untuk sementara berubah menjadi tangga. Mohon maaf atas ketidaknyamanannya”
    • Inti masalahnya adalah GitHub yang down, bukan git itu sendiri yang down
    • Tanpa GitHub, fungsi sebagai hub kolaborasi dengan orang lain jadi hilang
    • Alasan saya ada di Hacker News sekarang adalah karena saya tidak bisa bekerja
  • Rasanya kurangnya keandalan GitHub sudah serius
    Ini fatal bagi orang-orang yang bergantung pada CI/CD
    Di internal, masalahnya hanya dipahami sebatas “CI/CD tim kami rusak”, tanpa perspektif bahwa “setengah dunia berhenti”
    Budaya silo dan sikap “bukan masalah kami” seperti ini menyebabkan penurunan keandalan
    Ditambah lagi, karena posisinya yang monopolistik, pelanggan pada akhirnya terpaksa tetap memakainya
    Ini sama seperti sikap “toh kamu tidak bisa pindah ke tempat lain” yang dulu saya lihat di Verio dan Verisign

  • Saya penasaran apakah gangguan cloud/SaaS belakangan ini memang lebih sering terjadi
    Saya tidak tahu apakah ini cuma karena peliputannya lebih banyak, atau memang frekuensinya meningkat
    Mungkinkah karena pemotongan anggaran, pengurangan karyawan, adopsi AI, atau pertumbuhan yang berlebihan?

    • Microsoft tampaknya percaya semua akan selesai kalau GitHub dipindahkan ke Azure
    • Dari sudut pandang orang yang sudah lama memakainya, saya jelas merasakan peningkatan frekuensi gangguan
      Dulu hanya sekali dua kali setahun, sekarang hampir tiap bulan, dan belakangan bahkan seperti tiap minggu
    • Ada yang berkata saat gangguan Cloudflare bahwa “budaya coding berbasis AI” memperbesar masalah seperti ini
      Potongan kecil kode AI bisa memicu gangguan berantai seperti domino
    • Seperti dalam artikel Techrights,
      saya melihat PHK besar-besaran ikut memengaruhi penurunan keandalan
    • Karena FOMO (takut ketinggalan) akibat AI, jadwal proyek jadi makin ketat,
      dan pada akhirnya 10% pekerjaan terakhir untuk stabilitas seperti diabaikan
  • Saat push gagal, awalnya saya kira masalahnya ada di sisi saya
    Jadi saya memutuskan menyerah hari ini dan coba lagi besok

    • Autentikasi berhasil tetapi push gagal, benar-benar pengalaman yang membuat frustrasi setengah mati
    • Menambahkan SSH key baru pun tidak membantu. Awalnya hanya muncul error aneh, lalu akhirnya pesan “upstream unhealthy”
    • Saya juga hampir menata ulang environment dari nol
  • Hari ini memang sedang tidak ingin bekerja, lalu setelah Cloudflare sekarang GitHub juga bermasalah, rasanya seperti tanda untuk istirahat saja

    • Masalahnya adalah ketergantungan teknologi yang tersentralisasi dan berpusat di AS
      Kita butuh lebih banyak kedaulatan teknologi dan desentralisasi
  • Dari semua layanan yang saya pakai selama 5 tahun terakhir, GitHub adalah yang paling tidak stabil
    Saya penasaran apakah GitLab lebih baik. Kepercayaan saya pada GitHub sekarang nyaris nol

    • Perusahaan kami self-hosting GitLab, dan server Gitaly sering bermasalah
      Mungkin karena lingkungan monorepo besar, tetapi jelas ada masalah skalabilitas
    • GitLab punya banyak fitur, tetapi integrasinya terasa kikuk dan tingkat kematangannya rendah
      Meski begitu, kelebihan besarnya adalah repositori, CI/CD, issue, dan wiki bisa ada di satu tempat
    • Saya memakai GitHub.com dan GitLab self-hosted sekaligus,
      GitHub rentan terhadap gangguan cloud, sedangkan GitLab sering gagal saat auto-upgrade
      Masing-masing punya plus minus
    • Masalah GitLab adalah lambat dan berat
      Karena memuat JS sampai beberapa MB, di jaringan lambat halamannya nyaris tidak tampil
    • Kalau ditempatkan on-premise, tingkat keandalan bisa diamankan sesuai kebutuhan
  • Dalam keadaan darurat, file bisa diedit langsung lewat UI web GitHub
    Tetapi actions/checkout@v4 di GH Actions saat ini tidak berfungsi karena masalah git

    • Sebenarnya git push/pull bisa dilakukan lewat host mana pun yang mendukung SSH
    • Kami juga sedang mengerjakan hotfix produksi, tetapi ikut terblokir. Saya tidak tahu apa yang sedang terjadi di internet belakangan ini
    • CircleCI juga sedang mengalami kegagalan operasi git karena masalah pengenalan SSH key GitHub
    • Kali ini GitHub AI memberi tahu saya untuk memeriksa githubstatus.com, dan itu tak terduga cukup membantu
    • Saya penasaran apakah membuat branch masih bisa dilakukan dari UI GitHub
  • Ada pola umum yang saya lihat selama 10 tahun terakhir bolak-balik antara perusahaan besar dan startup
    Startup → melayani pelanggan enterprise → redesign kompleks → idealisme → mengejar laba → produk membengkak → engineer inti keluar → kualitas menurun
    Siklus seperti ini juga berulang di raksasa cloud (AWS, Cloudflare, GCP, dll.)
    Secara internal pun tiap layanan dipecah menjadi unit bisnis kecil yang bergerak dengan orientasi laba
    Pada akhirnya bahkan infrastruktur dasar pun melemah karena tekanan profit
    Saya merasa keyakinan seperti “AWS atau GCP terlalu besar untuk gagal” itu berbahaya

    • Setuju. Dalam proses melayani enterprise, produk memang tak terelakkan menjadi kompleks dan lamban
      Tetapi utang teknis dan masalah keamanan pada startup tahap awal juga serius
      Pada akhirnya, retakan dalam sistem wajar terlihat saat tumbuh ke skala besar
  • Di halaman status GitHub, lagi-lagi muncul kalimat “sebagian pengguna mungkin mengalami masalah”
    Namun kenyataannya bukan hanya HTTPS, SSH push juga semuanya gagal

    • Sepertinya orang yang menangani halaman status tidak bisa lepas dari ungkapan “sebagian pengguna”
      Padahal keterbukaan informasi yang transparan, alih-alih eufemisme gaya PR, justru akan meningkatkan kepercayaan
      Lagi pula, pembaruan halaman status pun sering terlambat
    • Teman saya bilang sempat bisa push sebentar, tetapi bagi kebanyakan orang kondisinya masih error fatal