2 poin oleh GN⁺ 2024-04-01 | 1 komentar | Bagikan ke WhatsApp

Tentang gangguan layanan Tailscale.com pada 7 Maret 2024

  • Pada 7 Maret 2024, Tailscale.com tidak dapat diakses selama sekitar 90 menit karena sertifikat TLS kedaluwarsa.
  • Masalah ini dengan cepat diidentifikasi dan diperbaiki, dan terutama berdampak pada materi pemasaran serta dokumentasi.
  • Gangguan layanan yang tidak terduga adalah masalah, dan mereka ingin menjelaskan penyebab, dampak, serta langkah-langkah untuk mencegah kejadian serupa.

Apa yang terjadi

  • Pada Desember 2023, dilakukan perombakan besar situs web, termasuk migrasi ke penyedia hosting baru.
  • Karena penyedia hosting tidak mendukung IPv6 secara default, mereka mengoperasikan proxy terpisah untuk menangani permintaan IPv6.
  • Konfigurasi ini dianggap sebagai 'konfigurasi yang salah' oleh penyedia hosting, dan meskipun telah menerima peringatan, mereka tidak menyadari bahwa hal itu akan mengganggu perpanjangan sertifikat otomatis.
  • Ada prover yang memeriksa kedaluwarsa sertifikat, tetapi karena hanya memeriksa melalui IPv6, ia hanya memverifikasi sertifikat yang valid yang dikelola proxy dan gagal mendeteksi kedaluwarsa yang akan segera terjadi.

Dampak

  • Sebagian besar operasi Tailscale tidak perlu mengakses situs web utama, sehingga banyak pengguna tidak mengalami gangguan pada penggunaan normal.
  • Dokumentasi, blog, dan materi referensi lainnya tidak dapat diakses; konsol admin dan halaman pengaturan tidak terdampak, tetapi pengguna yang tidak mengetahui cara mengaksesnya secara langsung bisa salah mengira layanan sedang offline.
  • Skrip instalasi cepat tidak dapat diakses, sehingga menghambat beberapa instalasi, termasuk instalasi otomatis.
  • Domain yang menyediakan paket Tailscale tetap dapat diakses, dan dampak pada mekanisme go get milik Go diminimalkan berkat caching.

Langkah penanganan

  • Setelah masalah dipahami, mereka sementara menghapus record AAAA 'tambahan' dan memperbarui sertifikat tersebut secara manual.
  • Record kemudian dipulihkan untuk mempertahankan aksesibilitas situs dan layanan melalui IPv6.
  • Dalam jangka pendek, mereka berencana menyiapkan beberapa pengingat kalender yang redundan dan waktu khusus untuk perpanjangan manual.
  • Infrastruktur prover akan diperbarui agar memeriksa endpoint IPv4 dan IPv6 secara terpisah.
  • Mereka berharap dapat mendukung IPv6 secara lebih langsung di infrastruktur situs web sehingga proxy tidak lagi diperlukan.
  • Berkat desain Tailscale, sebagian besar pengguna tidak terdampak oleh gangguan ini untuk sebagian besar penggunaan.

Pendapat GN⁺

  • Kasus gangguan layanan Tailscale menekankan pentingnya pengelolaan infrastruktur TI. Secara khusus, ini menunjukkan betapa pentingnya tugas pemeliharaan dasar seperti perpanjangan sertifikat.
  • Insiden ini juga menunjukkan pentingnya dukungan IPv6 sekaligus perlunya pendekatan kreatif untuk menyelesaikan masalah kompatibilitas dengan infrastruktur yang ada.
  • Layanan lain dengan fungsi serupa antara lain Cloudflare dan Let's Encrypt, yang menyediakan fitur perpanjangan sertifikat otomatis untuk mencegah masalah serupa.
  • Saat mengadopsi teknologi, perlu mempertimbangkan kompatibilitas infrastruktur, kemungkinan otomatisasi, dan kemudahan pemeliharaan. Insiden seperti ini menunjukkan mengapa kelebihan dan kekurangan harus dievaluasi dengan cermat saat memilih teknologi.
  • Artikel ini dapat membantu meningkatkan kewaspadaan pengguna dan administrator terhadap tugas pengelolaan sistem dasar seperti kedaluwarsa sertifikat.

1 komentar

 
GN⁺ 2024-04-01
Komentar Hacker News
  • Masalah sertifikat yang kedaluwarsa

    Sertifikat yang kedaluwarsa menjadi penyebab gangguan DNS baru. Pengguna membagikan pengalaman menggunakan Tailscale untuk bekerja dengan aman dari mana saja. Melalui Tailscale, mereka mengakses server on-premise dan konfigurasi produksi AWS, serta dapat menyelesaikan masalah lewat SSH dari lokasi lain meskipun Wi-Fi lokal lambat. Tailscale juga menyediakan kemampuan untuk memberikan dan mencabut hak akses jaringan dengan mudah.

  • Masalah akibat kedaluwarsanya sertifikat

    Masalah sertifikat kedaluwarsa terjadi lagi. Sebagai bagian dari postmortem, disarankan untuk memisahkan situs pemasaran dari jalur kritis operasi pelanggan. Disebutkan juga bahwa downtime pada situs seperti GitHub atau Zendesk ternyata lebih sering terjadi daripada yang diperkirakan.

  • Masalah keterhubungan antara situs pemasaran dan aplikasi

    Dibagikan kasus masalah yang muncul karena menaruh tautan halaman login aplikasi di situs pemasaran. Saat situs pemasaran down, pengguna bisa salah mengira bahwa aplikasinya juga down. Pengguna sering mengikuti jalur yang disediakan dan tidak menyadari adanya jalur lain.

  • Keluhan tentang kebijakan harga

    Menyukai layanan Tailscale, tetapi sulit menjualnya ke pihak manajemen karena kontrol akses yang layak untuk VPN dihargai mahal, yaitu 18 dolar per bulan. Layanan pada tingkat yang lebih rendah sulit dijual jika tidak memiliki kontrol akses.

  • Pertanyaan tentang penyedia situs web

    Muncul pertanyaan tentang siapa penyedia situs web tersebut, dan apakah karena tidak ada dukungan IPv6 mereka harus melalui prosedur yang rumit.

  • Pujian terhadap budaya engineering

    Ada rasa iri karena mereka melakukan pembaruan besar pada bulan Desember dengan proses CI/CD dan monitoring yang andal. Namun, masih ada pertanyaan yang belum terjawab, seperti kegagalan pembaruan sertifikat akibat masalah konfigurasi IPv6, alasan penyelesaiannya memakan waktu 90 menit, dan alasan belum bermigrasi ke penyedia DNS yang mendukung IPv6.

  • Pertanyaan tentang alasan perlunya terminasi TLS

    Dipertanyakan apakah proxy benar-benar perlu melakukan terminasi TLS, dan apakah proxy TCP sederhana saja tidak cukup. Dengan menggunakan proxy TCP, mungkin pembaruan otomatis bisa dimungkinkan.

  • Sindiran tentang pengingat kalender

    Menyukai ungkapan jenaka tentang menyiapkan beberapa pengingat kalender yang saling tumpang tindih seperti yang dilakukan para leluhur.

  • Kekhawatiran tentang keamanan

    Ditunjukkan bahwa jika Tailscale sampai melakukan satu kesalahan kecil terkait keamanan, itu bisa terasa terlalu berisiko bagi orang-orang yang sedikit paranoid. Diperlukan solusi yang lebih baik untuk hal ini.

  • Usulan tentang monitoring infrastruktur dan pembaruan otomatis

    Disarankan agar ada monitoring infrastruktur, serta menambahkan kode yang memeriksa IPv4 dan IPv6 untuk semua domain publik lalu memberi peringatan 19 hari sebelum sertifikat kedaluwarsa. Pembaruan otomatis dapat diatur 20 hari sebelum kedaluwarsa untuk mencegah gangguan terkait SSL.