2 poin oleh GN⁺ 2024-03-25 | 1 komentar | Bagikan ke WhatsApp

Alat Krisis Linux

  • Menyediakan daftar "alat krisis" yang sebaiknya dipasang secara default di server Linux beserta nama paket (Ubuntu) yang mencakup alat tersebut.
  • Mencakup alat untuk statistik dasar, log sistem, informasi perangkat, statistik perangkat, alat jaringan, statistik NUMA, network sniffer, profiler, dan statistik PMU.
  • bpfcc-tools (bcc) dan bpftrace menyediakan alat eBPF; bcc memiliki lebih banyak fitur dan bpftrace dapat diedit secara real time.
  • Bergantung pada server, alat analisis akselerator tertentu atau alat debugging tertentu juga direkomendasikan untuk dipasang sebelumnya.
  • Alat analisis penting ini tidak sering berubah sehingga hanya perlu diperbarui sekali setiap beberapa tahun.

Pentingnya memasang alat saat krisis

  • Menjelaskan dengan contoh berbagai masalah yang dapat muncul saat memasang perangkat lunak di situasi krisis pada lingkungan produksi.
  • Sistem bisa melambat sehingga pemasangan alat yang dibutuhkan memakan waktu lama, dan pemasangan juga bisa sulit karena berbagai masalah konfigurasi atau kebijakan keamanan.
  • Agar dapat mendiagnosis dan menyelesaikan masalah dengan cepat dalam situasi krisis, sebaiknya alat krisis dipasang terlebih dahulu.

Pendapat GN⁺

  • Artikel ini memberikan informasi yang sangat berguna bagi administrator sistem atau SRE (site reliability engineer). Artikel ini menekankan pentingnya persiapan sebelumnya agar alat yang dibutuhkan bisa segera digunakan dalam situasi krisis nyata.
  • Pemasangan alat krisis sebelumnya membantu meningkatkan ketersediaan dan ketahanan sistem serta meminimalkan potensi downtime sistem.
  • Namun, penting untuk menemukan keseimbangan antara keamanan dan performa. Misalnya, jika alat yang tidak perlu terpasang di sistem, penyerang bisa menyalahgunakannya.
  • Distribusi Linux dapat mempertimbangkan untuk menyertakan alat krisis secara default agar sesuai dengan lingkungan perusahaan, tetapi hal ini dapat berbeda tergantung kebijakan keamanan dan kebutuhan masing-masing organisasi.
  • Komunitas open source sudah menyediakan berbagai alat pemantauan dan analisis performa; misalnya, alat seperti Prometheus dan Grafana banyak digunakan untuk memantau performa sistem. Menggunakan alat-alat ini bersama alat krisis dapat membuat pengelolaan sistem menjadi lebih efektif.

1 komentar

 
GN⁺ 2024-03-25
Komentar Hacker News
  • 4:07pm instalasi paket gagal, tidak dapat me-resolve repositori. Ada masalah pada konfigurasi /etc/apt…

    • Ada kekurangan pada lingkungan cloud, tetapi ini berguna dalam situasi seperti ini. Alih-alih melakukan perbaikan yang rumit, masalah bisa diselesaikan dengan mematikan mesin yang bermasalah atau menghapusnya dari pool lalu memakai mesin baru.
  • Ada banyak server yang terkontainerisasi, tetapi tantangannya tetap ada.

    • Banyak alat di dalam image Docker ditandai sebagai faktor risiko oleh alat pemindaian keamanan. Alat seperti gdb memang menjadi perhatian, tetapi banyak alat lainnya tidak.
    • Untuk menghindari ini, alat-alat ditempatkan sebagai binary statis di volume terpisah, atau dikompilasi dan diinstal dengan menggunakan mount path sebagai prefiks instalasi. Saat debugging diperlukan, tim operasi akan me-mount volume tersebut sebagai read-only untuk sementara.
  • Jika ada alat debug yang mengharuskan fitur kernel tertentu diaktifkan, ada kekhawatiran soal dampaknya terhadap container lain yang berjalan di host yang sama.

  • Pada sistem FreeBSD, ada direktori /rescue/ yang menyediakan satu file binary statis terhubung tunggal berukuran sekitar 17MB yang menggabungkan sekitar 150 alat penting.

  • Saat bekerja di Netflix, Brendan dan timnya memasang alat debugging seperti bpftrace, bcc, dan perf yang berfungsi di berbagai tempat, dan ini beberapa kali menyelamatkan keadaan.

  • Kaget karena strace tidak ada di daftar. Ini alat yang sangat berguna, terutama ketika program mengembalikan error message yang tidak berguna atau keliru.

  • Saat mewawancarai posisi tipe SRE, alat-alat seperti ini selalu dibahas. Yang lebih penting daripada perintah spesifik yang diingat kandidat adalah apa saja yang mungkin dilakukan, jenis alat yang tersedia, dan cara menggunakannya.

  • Dalam situasi darurat ketika instalasi alat tidak memungkinkan, banyak utilitas bisa dijalankan melalui Docker. Sebagai contoh, disebutkan cara membangun dan menjalankan container Docker yang menjalankan tcpdump sambil terhubung ke host network.

  • yum install lebih disukai, tetapi jika Docker tersedia, ini tetap merupakan alternatif yang layak meskipun memerlukan mapping tambahan. Ini mungkin tidak bekerja pada konfigurasi rootless/podman.

  • nmap, netstat, nc tidak disebutkan. Alat-alat ini berkali-kali membantu menyelesaikan masalah.

  • Bisa mendapatkan akses root? Untuk melakukan apa pun, harus mengajukan tiket ke administrator sistem.

  • Yang ingin ditambahkan adalah nmap. Masalah koneksi jaringan bisa tidak terlihat jelas pada beberapa aplikasi.