Akhir dari Observability Sudah Dekat (dan Saya Baik-Baik Saja)

(honeycomb.io)

22 poin oleh GN⁺ 2025-06-13 | 4 komentar | Bagikan ke WhatsApp

Selama beberapa dekade terakhir, tujuan utama alat Observability adalah membuat data telemetry heterogen berskala besar dapat dipahami manusia
Munculnya AI dan LLM mengubah paradigma lama yang berpusat pada "dashboard + alert + sampling", dan proses analisis mulai digantikan oleh otomatisasi
Dalam praktiknya, agen AI menganalisis penyebab lonjakan latensi hanya dalam 80 detik lewat 8 kali pemanggilan tool, mengotomatiskan pekerjaan yang biasa dilakukan dalam demo lama dengan biaya hanya 60 sen
Dashboard yang cantik atau instrumentasi yang praktis bukan lagi nilai istimewa; LLM mengkomoditisasi analisis, OpenTelemetry mengkomoditisasi instrumentasi
Masa depan Observability adalah "loop umpan balik yang cepat" dan workflow kolaborasi AI+manusia, yang akan memimpin era lebih banyak software dan otomatisasi

Sejarah alat Observability dan kemunculan AI

Selama beberapa dekade, tujuan inti alat observability adalah memadatkan/meringkas data heterogen dalam jumlah besar (telemetry) ke tingkat yang bisa dipahami manusia
Setiap kali abstraksi software baru muncul (misalnya Rails, AWS, Kubernetes, OpenTelemetry, dll.),
berbagai alat seperti monitoring, pengukuran, dashboard, alert adaptif, dynamic sampling, dan lainnya dikembangkan untuk menyembunyikan kompleksitas itu, lalu menyajikan kompleksitas data dalam bentuk yang cocok dengan kemampuan kognitif manusia

LLM = universal function approximator, dan akhirnya benar-benar berguna

Secara matematis, LLM hanyalah universal function approximator, tetapi dalam praktiknya sangat berguna untuk menyelesaikan masalah observability
Contohnya, dalam demo Honeycomb, agen AI diminta lewat bahasa alami untuk menganalisis lonjakan latensi pada heatmap
- “Tolong analisis penyebab lonjakan latensi yang terjadi setiap 4 jam pada layanan frontend”
- LLM off-the-shelf (Claude Sonnet 4) terhubung dengan Model Context Protocol (MCP) milik Honeycomb
- Penyebabnya dianalisis otomatis dalam 80 detik, 8 kali pemanggilan tool, dengan biaya hanya 60 sen
Tanpa prompt tambahan, pelatihan khusus, atau panduan, sistem ini sudah mencapai tingkat menyelesaikan skenario nyata secara zero-shot
Komoditisasi analisis:
- Jika LLM mengotomatiskan pekerjaan analisis, maka pembeda produk observability lama (grafik cantik, instrumentasi mudah, dll.) kehilangan maknanya
- OpenTelemetry mengkomoditisasi instrumentasi, LLM mengkomoditisasi analisis
- Ke depan, “loop umpan balik yang cepat” akan menggantikan nilai inti alat observability

Peran manusia, dan perubahan di masa depan

Peran manusia tidak akan hilang sepenuhnya
- Sama seperti kemunculan cloud tidak menghapus keberadaan IT itu sendiri, AI juga tidak akan menggantikan developer/operator sepenuhnya
- Peningkatan produktivitas akan memperluas keseluruhan lanskap dan melahirkan lebih banyak software
Pertanyaan kuncinya adalah,
di dunia tempat biaya menulis kode/refactor/analisis turun drastis, dan analisis menjadi sesuatu yang konstan,
ke mana esensi Observability akan bergerak?

Yang benar-benar penting adalah "umpan balik cepat"

Hal terpenting adalah memiliki "loop umpan balik yang cepat dan rapat" di setiap tahap pengembangan dan operasi
- AI akan selalu mengungguli manusia dalam hal kecepatan
- LLM dapat dengan cepat membangun puluhan hipotesis, gagal, lalu akhirnya menemukan hasil yang benar
  (dan biayanya juga sangat murah)
Filosofi Honeycomb:
- loop umpan balik cepat, berbagi pengetahuan kolaboratif, pengembangan/operasi yang eksperimental
- Ke depan, bantuan AI akan diterapkan di seluruh siklus pengembangan dan operasi software
  - Contoh
    - Saat menulis dan deploy kode, agen AI memberi umpan balik real-time serta saran perbaikan bug/kualitas
    - Saat operasi berjalan, AI mendeteksi/menganalisis/melaporkan emergent behavior secara otomatis, lalu melakukan perbaikan otomatis setelah disetujui
    - Organisasi paling maju akan mengotomatisasi peran SRE/SWE dengan AI+tool, bahkan langsung mencapai tujuan bisnis
Syarat masa depan observability untuk meraih sukses
- Kinerja query ultra-rendah latensi
- Repositori penyimpanan data terpadu
- Workflow kolaborasi yang mulus antara manusia dan AI
Kesimpulan:
- Alat observability lama yang berpusat pada dashboard, alert, dan visualisasi
  bukan lagi inti di era AI,
  dan hanya “loop umpan balik yang cepat” serta platform kolaborasi AI-manusia yang akan bertahan

4 komentar

redlasha 2025-06-14

Sama seperti observability bukan akhir dari monitoring, LLM juga bukan akhir dari observability
Sebagaimana observability berkembang di atas fondasi monitoring yang makin canggih, analisis LLM pun akan berkembang di atas fondasi observability yang makin canggih

ethanhur 2025-06-13

Aku menantikan bidang observability akan cepat berinovasi berkat LLM, tapi judulnya terlalu clickbait wkwk

crawler 2025-06-13

Mempromosikan layanan sendiri sambil berkata "kiamatnya sudah dekat" memang agak memalukan ya...

Secara pribadi, saya berharap vision LLM berkembang sehingga bisa dipakai untuk pekerjaan monitoring. Belakangan saya pernah melihat tulisan seorang orang tua yang memakai VLM untuk mengecek apakah ada hal tidak biasa saat anaknya tidur, dan itu terasa sangat menarik.

GN⁺ 2025-06-13

Komentar Hacker News

Rasanya kita secara kolektif terlalu meremehkan nilai determinisme, dan sebaliknya juga meremehkan biaya yang dibawa non-determinisme. Baru-baru ini saya menguji produk lain dengan promosi serupa, dan alat itu mencoba melakukan RCA dengan menghubungkan grafik ke event saya. Hasilnya malah jadi seperti halaman Spurious Correlations — kalau dilihat langsung, jelas dan lucu sekali
- Perlu lebih banyak orang tahu bahwa data deret waktu memang sangat rentan terhadap korelasi semu. Nilai r² juga tidak berarti. Yang lebih buruk adalah saat grafik ditafsirkan dengan melihat sekilas; kalau datanya berubah seiring waktu, kita harus memakai metrik yang memang sesuai untuk itu
- Mungkin saya salah memahami poinnya, tetapi bahkan di aplikasi berbasis LLM pun, kalau desainnya bagus, UX yang deterministik pada momen-momen paling penting itu sangat mungkin diwujudkan. Saat diperlukan, LLM bisa menghasilkan spesifikasi deterministik untuk melakukan sesuatu, lalu tugas atau aksi itu bisa dicatat. Sistemnya bisa dibuat agar spesifikasi yang bisa dijalankan ulang kapan saja disimpan bersama isi percakapannya, dan ketika spesifikasi gagal, AI dapat menyarankan cara memperbaikinya. Alurnya mirip pengalaman memakai AI untuk coding. Hanya saja domain spesifikasinya perlu dipersempit, dan perlu lebih banyak pemikiran soal bagaimana memulihkan spesifikasi yang gagal. Ini bisa diwujudkan tanpa mengharuskan pengguna mempelajari bahasa spesifikasi tersendiri
Sebagai orang yang cukup sering melakukan RCA, saya khawatir rekan-rekan saya yang sudah merasa malu akan makin kacau karena terlalu percaya pada alat yang dengan sangat percaya diri mengeluarkan hasil yang salah 10%. Saya juga khawatir kalau saat mereka benar-benar tidak tahu, mereka jadi bergantung pada alat karena tidak perlu secara terbuka mengakui bahwa mereka tidak tahu. Akan lebih baik kalau setelah alat itu mengambil kesimpulan, ia juga mencari data yang membantah interpretasinya sendiri, lalu menyatakan dasar yang lebih bisa dipercaya atau tingkat ketidakpastiannya dengan jelas
- Bagian ini sebenarnya bisa cukup banyak diperbaiki dengan system prompt yang dirancang baik. Saya sendiri pernah membuat prompt/instruksi kustom untuk secara default menarik jawaban yang lebih ketat dan lebih berbasis riset dari LLM, dan pengalamannya cukup bagus. Prompt yang saya pakai di ChatGPT adalah: "Prioritaskan substansi, kejelasan, dan kedalaman. Perlakukan setiap usulan, desain, dan kesimpulan sebagai hipotesis lalu pertanyakan dengan tajam. Ungkap asumsi tersembunyi, trade-off, dan kasus kegagalan sedini mungkin. Hilangkan pujian yang tidak perlu jika tidak ada dasarnya. Jika tidak yakin, nyatakan dengan jelas. Selalu ajukan sudut pandang alternatif. Untuk klaim faktual, hanya tegas jika ada kutipan atau dasar yang kuat. Jika bergantung pada penalaran atau informasi yang tidak lengkap, nyatakan dengan jelas. Utamakan akurasi daripada keyakinan." Dengan susunan seperti ini, kualitas dan kedalaman jawabannya benar-benar meningkat drastis
Sejarah seperti “New Relic ada di revolusi Rails, Datadog di kebangkitan AWS, Honeycomb memimpin OpenTelemetry” adalah interpretasi yang bias. OpenTelemetry (OTel) lahir dari penggabungan resmi antara OpenCensus yang dimulai Google dan OpenTracing yang dimulai LightStep secara resmi. Berbagai organisasi seperti Google, LightStep, Microsoft, dan Uber ikut dalam tata kelola awalnya. Memang benar Honeycomb banyak mendorong kode, komunitas, dan adopsi teknologinya, tetapi mengatakan mereka “memimpin” itu berlebihan
- Saya membaca ini sebagai orang yang baru-baru ini mengadopsi Honeycomb, dan ini benar-benar alat yang luar biasa. Terutama berkat instrumentasi otomatis otel, kita bisa mendapatkan insight hanya dalam hitungan jam. Fitur dashboard/query-nya juga terasa lahir dari filosofi observability yang sangat mendalam. Seluruh tim kami terkejut dengan tingkat kematangan alat ini. Datadog terasa lebih fokus pada pemasaran dan checklist 'observability'
Kalau “pesan penjualannya” disisihkan, ini sebenarnya salah satu aplikasi LLM yang benar-benar bernilai. Selama ini monitoring dan observability adalah wilayah perusahaan besar dan SRE besar, dan untuk organisasi kecil hambatannya sangat tinggi, setidaknya dari sudut pandang IT. Menentukan metrik yang bermakna, menyiapkan heartbeat dan baseline itu sendiri sudah butuh waktu, alat khusus, lingkungan pengembangan besar, sampai sistem verifikasi perubahan, jadi tim IT biasa sulit membayangkannya. Sekarang, berkat LLM yang dilatih pada alat-alat paling umum, tim IT yang kekurangan anggaran/kapabilitas pun bisa membangun sistem observability yang “nyata” berbasis framework/alat terbuka. Tidak perlu lagi solusi langganan yang mewah. Saat perlu membangun dashboard atau menyiapkan monitoring yang praktis, LLM benar-benar seperti berkah. Bagi staf IT yang bisa membaca dokumentasi dan melakukan troubleshooting tanpa sempat mendalami satu per satu begitu banyak produk yang didorong CIO, ini sangat berguna. Kalau notifikasi PagerDuty sampai bisa disertai saran penyebab minimum, dari sudut pandang SMB/SME ini akan menjadi revolusi observability
- Menemukan metrik yang bermakna bukan bidang yang bisa dilakukan LLM, tetapi bagian lain seperti heartbeat atau baseline sebenarnya sudah lama bisa cukup diotomatisasi dengan ConvNet. Kekhawatiran deployment seperti verifikasi perubahan atau kontrol stabilitas adalah masalah di luar cakupan alat observability
- Saya juga berharap dampaknya luar biasa bahkan untuk tim SRE kecil. Tim kami terdiri dari 2 orang yang mengelola ratusan server bare metal, dan saat ada gangguan, proses mempersempit penyebabnya sangat menegangkan. Sampai-sampai kami pernah mempertimbangkan membuat sendiri alat seperti MCP (Master Control Program). Beberapa kali juga ada isu yang lama terpendam lalu meledak sebagai error, dan untuk kasus seperti ini LLM kemungkinan akan sangat membantu
Judulnya terasa terlalu provokatif. Bukan berarti alat observability yang ada jadi tidak berguna. Hanya saja waktu yang dihabiskan untuk membuat grafik dan terus menatapinya mungkin bisa berkurang. Ini mirip efek LLM di semua bidang. Memang membantu mempercepat pekerjaan yang sudah kita kuasai, atau membantu kita mempelajari cara melakukannya, tetapi bukan berarti sepenuhnya menggantikan teknik tertentu itu sendiri
- “Mempercepat pekerjaan yang sudah bisa dilakukan”, “membantu mempelajari hal baru”, saya bahkan hari ini sudah mendengar kesimpulan itu untuk kedua kalinya. Inferensi untuk poin 2, dan peningkatan efisiensi yang ekstrem untuk poin 1, tampaknya akan menjadi arah paling produktif ke depan
- Judulnya memang provokatif, tetapi pesannya jelas — moat atau hambatan masuknya makin rendah
- Fenomena seperti ini disebut “efek Charity Majors”
Dalam demo mereka bilang, “Ini bukan contoh yang dibuat-buat. Kami melemparkan pertanyaan yang kami ajukan ke pengguna dalam demo kepada agen LLM yang sama persis, dan tanpa prompt tambahan, pelatihan, atau panduan, ia langsung menemukan jawaban yang benar.” Tetapi pada kenyataannya skenario ini sendiri sudah termasuk dalam demo, dan solusinya juga untuk kasus yang memang sudah ada. Menurut saya justru mereka seharusnya memakai contoh buatan agar bisa menunjukkan apakah modelnya bisa melakukan generalisasi ke situasi baru yang tidak persis ada di data latihnya. Kemampuan nyata LLM memang berguna, tetapi untuk membuat pernyataan ekstrem seperti “akhir dari observability”, alat itu perlu menunjukkan kemampuan generalisasi
Saya tidak menganggap ini “akhir dari observability”. Tetapi poin yang diajukan tulisan itu juga tidak sepenuhnya omong kosong. Sangat mungkin akan muncul lapisan baru agen AI yang bisa menjalankan berbagai peran di SRE, termasuk RCA. Namun, sekalipun itu jadi kenyataan, sebagian besar stack observability yang ada sekarang—atau bahkan semuanya—masih akan tetap dibutuhkan. Ditambah lagi, selama masalah halusinasi/kepercayaan/stabilitas LLM belum terselesaikan secara mendasar, pemahaman masalah yang mendalam masih tetap membutuhkan manusia
Strategi bisnis “dengan sedikit bantuan AI, semua orang bisa melakukan pekerjaan yang dulu dilakukan ahli” memang strategi bisnis yang sangat menarik. Sedihnya, rasanya tidak aneh kalau slogan itu ditempel-tempel ke 80% startup AI sekarang
- Saya tahu ini terdengar seperti sindiran, tetapi para “ahli yang benar-benar bisa bekerja” itu adalah sumber daya yang <i>sangat</i> mahal. Kalau otomatisasi ini benar-benar terjadi, masuk akal juga kenapa startup AI yang setengah matang jadi bermunculan di mana-mana
Artikel ini terasa seperti sepenuhnya ditulis AI. “AI akan mengakhiri paradigma ini, itu sudah terjadi, dan sampai desain sistem serta cara operasional pun akan berubah secara mendasar” — saya bingung bagaimana menafsirkan sebagian data bisa disebut sebagai “akhir dari observability”
Logika “sekarang kita tidak perlu lagi melihat data lewat grafik dan UI” punya batas yang jelas di dunia nyata. Saat LLM bekerja baik, hasilnya memang luar biasa, tetapi saat gagal, manusia tetap harus turun tangan dan melihat visualisasi seperti grafik secara langsung. Grafik atau visualisasi memang sulit, tetapi pengumpulan data nyata atau perancangan query yang kompleks serta cara penyimpanannya jauh lebih sulit lagi. Observability baru benar-benar akan “hilang” ketika kecerdasan buatan sungguhan bisa menilai hampir segalanya dengan nyaris sempurna. Pada akhirnya, saat itu justru akan datang perubahan budaya yang mengubah struktur seluruh masyarakat secara total—kalau bukan kehancuran, setidaknya transisi yang menyakitkan. Bahwa AI sedang mengubah lanskap observability itu memang benar. Prosesnya juga sudah berlangsung sekarang, tetapi jalan yang harus ditempuh masih panjang