AI dalam SRE: Bagaimana Google Merancang Masa Depan Operasi yang Andal

epdlemflaj · 2026-06-02T11:08:38+09:00

Saat asisten coding AI mendorong peningkatan kecepatan pembuatan dan deployment kode (target produktivitas hingga 4x), praktik SRE tradisional yang mengandalkan peninjauan manual oleh manusia satu per satu tidak lagi skalabel — tulisan ini merangkum bagaimana Google mendesain ulang SRE untuk era AI Bukan sekadar mengotomatisasi pekerjaan lama dengan AI, tetapi membangun fondasi baru untuk keandalan melalui agen mitigasi otonom (AI Operator), guardrail eksekusi (Actus), dan pipeline evaluasi berkelanjutan berbasis memori operasional manusia (IRM Analyzer) Karena biaya kesalahan AI di production sangat besar, pengendalian dilakukan dengan "Safety Trifecta" berupa transparansi, penilaian risiko real-time, dan pemberian otorisasi secara bertahap Otonomi dibagi bertingkat dari L0 (manual) hingga L4 (sepenuhnya otonom), dan hanya bisa naik ke level lebih tinggi setelah membuktikan tingkat keberhasilan yang signifikan secara statistik terhadap golden data Peran SRE bergeser dari "operator menjadi architect" — manusia naik ke tangga abstraksi, dari review kode per baris menjadi mendefinisikan desain, intent, kebijakan, dan batas aman bagi agen otonom Mengapa SRE harus berubah sekarang Filosofi inti seperti SLO, error budget, dan pengurangan toil tetap menjadi standar, tetapi kompleksitas layanan pada "planetary scale" dan workload multi-tenant tidak lagi bisa ditangani hanya dengan otomasi deterministik Dengan pengembangan berbantuan AI, laju perubahan makin cepat, dan celah observability dipenuhi oleh data tak terstruktur berskala petabyte AI diintegrasikan bukan hanya sebagai alat, tetapi sebagai lapisan transformasional yang melintasi seluruh lifecycle layanan Mengendalikan AI di production (governance AI-Ops) Perilaku AI yang salah di production dapat langsung menyebabkan gangguan yang luas, dengan blast radius yang lebih besar dari manusia dan menyebar lebih cepat Tantangan utama: evolusi keahlian manusia (operator → architect), membangun explainability dan kepercayaan, menjaga integritas data dan mitigasi bias, merespons model drift, mempertahankan vektor keamanan (serangan adversarial, data poisoning, prompt injection), serta mencegah gangguan berantai yang tidak diinginkan Safety Trifecta Transparansi: agen menyimpan log "Chain of Thought" seperti sinyal yang digunakan, hipotesis, alasan pemilihan, dan tingkat kepercayaan Penilaian risiko real-time: risiko setiap tindakan dievaluasi berdasarkan konteks seperti deployment yang sedang berjalan, error budget, incident aktif, zona waktu, dan lainnya Progressive Authorization: tidak langsung memberi kewenangan penuh, tetapi memperluasnya secara bertahap sesuai level otonomi Guardrail arsitektural: larangan akses permanen dan prinsip least privilege, rate limit dan circuit breaker khusus agen, dukungan dry-run yang wajib, serta aktuasi zero-trust dan safe-by-default Level otonomi AI untuk SRE (L0~L4) Tingkat kematangan didefinisikan berdasarkan derajat otomasi untuk fungsi monitoring, investigasi, approval, aktuasi, dan kemampuan self-direct L0 manual: hanya monitoring yang otomatis, sisanya dilakukan manusia L1 assisted: hingga investigasi diotomatisasi (AI memberi hipotesis incident), approval dan eksekusi tetap oleh manusia L2 partial autonomy: eksekusi dapat diotomatisasi, tetapi memerlukan persetujuan eksplisit dari manusia L3 high autonomy: pada skenario yang terdefinisi dengan baik, approval dan aktuasi berjalan otonom, manusia hanya menerima notifikasi L4 full autonomy: secara mandiri merencanakan dan menjalankan rangkaian tindakan diagnosis, mitigasi, dan penyelesaian, lalu menyesuaikan strategi secara real-time berdasarkan hasil, serta mengelola seluruh lifecycle incident hingga tuntas Kenaikan level bukan sekadar menyalakan sakelar, tetapi perjalanan terstruktur yang mensyaratkan kepercayaan dan kontrol keselamatan Data evaluasi dan memori operasional manusia Human Trajectory: catatan yang tersebar seperti chat, catatan incident, dan CLI diparsing dengan NLP lalu direkonstruksi menjadi urutan kejadian kronologis (IRM-Analyzer) Lapisan kualitas data: Bronze (heuristik auto-labeler) / Silver (dihasilkan secara programatik, dikalibrasi terhadap standar gold) / Gold (divalidasi pakar manusia) Dengan stratified sampling, berbagai incident ditinjau manual untuk membuat gold data, yang kemudian dipakai untuk mengukur perbedaan antara True Precision dan observed precision Nightly Evals + LLM-as-a-Judge: evaluasi otomatis harian menggunakan incident nyata terbaru; penalaran kualitatif dinilai oleh evaluator LLM, sedangkan output mitigasi akhir dinilai dengan scoring deterministik yang ketat (misalnya hanya benar jika binary dan versinya persis cocok) Golden data diintegrasikan secara alami ke dalam workflow mitigasi incident sehingga SRE dapat terus memasok label berkualitas tinggi hanya dengan menerima, memperbaiki, atau menolak Penerapan AI di seluruh lifecycle SRE Detectr (deteksi): berbasis Gemini, memproses umpan balik pengguna dari sosial, customer support, forum, dan lainnya melalui pipeline multi-tahap filter → klaster → penghilangan noise → laporan, berfungsi sebagai backstop untuk menangkap gangguan jenis baru yang terlewat oleh monitoring berbasis metrik (sudah diadopsi di Cloud, Ads, YouTube, Search, dengan pengurangan dampak kumulatif ratusan jam) AI Alert (penguatan alert): sebelum alert sampai ke manusia, dalam sekitar 2 menit sistem melakukan query paralel berskala besar terhadap monitoring, log, changelog, dan dependency graph untuk menambahkan konteks, serta hanya menyajikan fakta yang dapat diverifikasi dan disertai tautan sumber, bukan tebakan (read-only) L1: mitigasi yang dipimpin manusia Incident Hypothesis: dengan LLM+RAG, sistem menggabungkan anomali monitoring, playbook, log, dan kasus serupa di masa lalu untuk menyajikan satu penyebab paling mungkin beserta langkah verifikasinya → uji A/B menunjukkan MTTM (mean time to mitigate) turun 10% Investigation Dashboard (InvD): membuat "layar tunggal" secara instan untuk tiap incident, dengan kemampuan empat tahap: deteksi anomali → korelasi sinyal → penilaian nilai investigasi → identifikasi akar masalah; lebih dari 100 "troubleshooter" spesifik domain dijalankan paralel → deteksi anomali berbasis ML saja meningkatkan discovery rate 195% dan memangkas MTTM sekitar 44% CLI berbasis Gemini (Antigravity CLI): melalui Production Agent (MCP), dapat mendaftarkan bug, menetapkan penanggung jawab, mengekspor postmortem, melakukan query monitoring real-time, analisis log, dan traffic drain yang aman untuk investigasi L1 (dapat diperluas dengan pustaka skill) L3: mitigasi otonom Untuk mendukung kecepatan pengembangan 4x dengan biaya tetap, dibutuhkan aktuasi langsung, bukan sekadar rekomendasi; namun penerapannya dimulai dari L2 (mengusulkan dan menunggu approval) di bawah Progressive Authorization, lalu naik ke L3/L4 setelah tervalidasi AI Operator: agen respons pertama untuk alert production, melakukan RCA melalui investigasi paralel lalu memilih mitigasi dengan memanfaatkan enricher, skill, dan few-shot secara dinamis; CoT ditampilkan di UI pusat, dan jika buntu langsung melakukan eskalasi ke manusia beserta riwayat investigasinya; semua jejak eksekusi disimpan di Spanner untuk membentuk loop perbaikan mandiri, di mana LLM-as-a-Judge secara otomatis mengkritik hasil dan mendaftarkan bug Actus (agen verifikasi keselamatan mitigasi/aktuasi): control plane terpadu yang memisahkan mesin penalaran AI dari mesin eksekusi — registrasi dan perencanaan alat yang distandardisasi, pemeriksaan keselamatan pra-eksekusi seperti dry-run dan verifikasi justifikasi, penurunan otomatis dari L3 ke L2 saat risiko terdeteksi, serta "red button" darurat untuk segera menghentikan semua tindakan yang sedang berjalan dan mencabut seluruh otorisasi L3 sekaligus Teknologi yang menopang AI-Ops Data dan metadata production berkualitas tinggi (telemetry, topology, incident historis, playbook, SLO, dll.) Platform RAG, fine-tuning spesifik domain, serta antarmuka alat yang ramah AI (MCP, server Production Agent) Manajemen identitas agen yang kuat untuk membedakan agen dari manusia (audit dan non-repudiation) Protokol komunikasi antargen (A2A) agar agen spesialis dapat berkolaborasi seperti microservice Masa depan SRE: memperluas pengawasan dalam agentic SDLC AI merencanakan, menulis, me-review, dan mengajukan kode, dengan arah peningkatan volume perubahan (CL) hingga 4~10x — review per baris mencapai batasnya dan berujung pada reviewer fatigue serta approval formalitas Pengawasan manusia akan "shift left" dan naik ke tangga abstraksi untuk fokus pada review desain, intent, dan kebijakan Independent Harness diwajibkan: AI yang menghasilkan kode dan AI yang menguji/me-review kode dipisahkan secara ketat untuk mencegah bias silang Rollout progresif adaptif dan validasi production berkelanjutan dengan kecepatan mesin mengatasi bottleneck soak time dan canary tradisional Intervening Pull Request Problem: rollback sederhana berisiko ikut membatalkan bug fix dan security patch yang masuk di antaranya → ditangani dengan konfigurasi dinamis, feature flag, dan Fix-Forward berbantuan AI (pembuatan dan deployment patch bertarget secara otomatis) Kesimpulannya: peran SRE sedang beralih dari mengoperasikan sistem menjadi merancang batas-batas agar agen otonom dapat berinovasi dengan aman

(sre.google)

9 poin oleh epdlemflaj 2026-06-02 | Belum ada komentar. | Bagikan ke WhatsApp

Saat asisten coding AI mendorong peningkatan kecepatan pembuatan dan deployment kode (target produktivitas hingga 4x), praktik SRE tradisional yang mengandalkan peninjauan manual oleh manusia satu per satu tidak lagi skalabel — tulisan ini merangkum bagaimana Google mendesain ulang SRE untuk era AI
Bukan sekadar mengotomatisasi pekerjaan lama dengan AI, tetapi membangun fondasi baru untuk keandalan melalui agen mitigasi otonom (AI Operator), guardrail eksekusi (Actus), dan pipeline evaluasi berkelanjutan berbasis memori operasional manusia (IRM Analyzer)
Karena biaya kesalahan AI di production sangat besar, pengendalian dilakukan dengan "Safety Trifecta" berupa transparansi, penilaian risiko real-time, dan pemberian otorisasi secara bertahap
Otonomi dibagi bertingkat dari L0 (manual) hingga L4 (sepenuhnya otonom), dan hanya bisa naik ke level lebih tinggi setelah membuktikan tingkat keberhasilan yang signifikan secara statistik terhadap golden data
Peran SRE bergeser dari "operator menjadi architect" — manusia naik ke tangga abstraksi, dari review kode per baris menjadi mendefinisikan desain, intent, kebijakan, dan batas aman bagi agen otonom

Mengapa SRE harus berubah sekarang

Filosofi inti seperti SLO, error budget, dan pengurangan toil tetap menjadi standar, tetapi kompleksitas layanan pada "planetary scale" dan workload multi-tenant tidak lagi bisa ditangani hanya dengan otomasi deterministik
Dengan pengembangan berbantuan AI, laju perubahan makin cepat, dan celah observability dipenuhi oleh data tak terstruktur berskala petabyte
AI diintegrasikan bukan hanya sebagai alat, tetapi sebagai lapisan transformasional yang melintasi seluruh lifecycle layanan

Mengendalikan AI di production (governance AI-Ops)

Perilaku AI yang salah di production dapat langsung menyebabkan gangguan yang luas, dengan blast radius yang lebih besar dari manusia dan menyebar lebih cepat
Tantangan utama: evolusi keahlian manusia (operator → architect), membangun explainability dan kepercayaan, menjaga integritas data dan mitigasi bias, merespons model drift, mempertahankan vektor keamanan (serangan adversarial, data poisoning, prompt injection), serta mencegah gangguan berantai yang tidak diinginkan
Safety Trifecta
- Transparansi: agen menyimpan log "Chain of Thought" seperti sinyal yang digunakan, hipotesis, alasan pemilihan, dan tingkat kepercayaan
- Penilaian risiko real-time: risiko setiap tindakan dievaluasi berdasarkan konteks seperti deployment yang sedang berjalan, error budget, incident aktif, zona waktu, dan lainnya
- Progressive Authorization: tidak langsung memberi kewenangan penuh, tetapi memperluasnya secara bertahap sesuai level otonomi
Guardrail arsitektural: larangan akses permanen dan prinsip least privilege, rate limit dan circuit breaker khusus agen, dukungan dry-run yang wajib, serta aktuasi zero-trust dan safe-by-default

Level otonomi AI untuk SRE (L0~L4)

Tingkat kematangan didefinisikan berdasarkan derajat otomasi untuk fungsi monitoring, investigasi, approval, aktuasi, dan kemampuan self-direct
- L0 manual: hanya monitoring yang otomatis, sisanya dilakukan manusia
- L1 assisted: hingga investigasi diotomatisasi (AI memberi hipotesis incident), approval dan eksekusi tetap oleh manusia
- L2 partial autonomy: eksekusi dapat diotomatisasi, tetapi memerlukan persetujuan eksplisit dari manusia
- L3 high autonomy: pada skenario yang terdefinisi dengan baik, approval dan aktuasi berjalan otonom, manusia hanya menerima notifikasi
- L4 full autonomy: secara mandiri merencanakan dan menjalankan rangkaian tindakan diagnosis, mitigasi, dan penyelesaian, lalu menyesuaikan strategi secara real-time berdasarkan hasil, serta mengelola seluruh lifecycle incident hingga tuntas
Kenaikan level bukan sekadar menyalakan sakelar, tetapi perjalanan terstruktur yang mensyaratkan kepercayaan dan kontrol keselamatan

Data evaluasi dan memori operasional manusia

Human Trajectory: catatan yang tersebar seperti chat, catatan incident, dan CLI diparsing dengan NLP lalu direkonstruksi menjadi urutan kejadian kronologis (IRM-Analyzer)
Lapisan kualitas data: Bronze (heuristik auto-labeler) / Silver (dihasilkan secara programatik, dikalibrasi terhadap standar gold) / Gold (divalidasi pakar manusia)
Dengan stratified sampling, berbagai incident ditinjau manual untuk membuat gold data, yang kemudian dipakai untuk mengukur perbedaan antara True Precision dan observed precision
Nightly Evals + LLM-as-a-Judge: evaluasi otomatis harian menggunakan incident nyata terbaru; penalaran kualitatif dinilai oleh evaluator LLM, sedangkan output mitigasi akhir dinilai dengan scoring deterministik yang ketat (misalnya hanya benar jika binary dan versinya persis cocok)
Golden data diintegrasikan secara alami ke dalam workflow mitigasi incident sehingga SRE dapat terus memasok label berkualitas tinggi hanya dengan menerima, memperbaiki, atau menolak

Penerapan AI di seluruh lifecycle SRE

Detectr (deteksi): berbasis Gemini, memproses umpan balik pengguna dari sosial, customer support, forum, dan lainnya melalui pipeline multi-tahap filter → klaster → penghilangan noise → laporan, berfungsi sebagai backstop untuk menangkap gangguan jenis baru yang terlewat oleh monitoring berbasis metrik (sudah diadopsi di Cloud, Ads, YouTube, Search, dengan pengurangan dampak kumulatif ratusan jam)
AI Alert (penguatan alert): sebelum alert sampai ke manusia, dalam sekitar 2 menit sistem melakukan query paralel berskala besar terhadap monitoring, log, changelog, dan dependency graph untuk menambahkan konteks, serta hanya menyajikan fakta yang dapat diverifikasi dan disertai tautan sumber, bukan tebakan (read-only)

L1: mitigasi yang dipimpin manusia

Incident Hypothesis: dengan LLM+RAG, sistem menggabungkan anomali monitoring, playbook, log, dan kasus serupa di masa lalu untuk menyajikan satu penyebab paling mungkin beserta langkah verifikasinya → uji A/B menunjukkan MTTM (mean time to mitigate) turun 10%
Investigation Dashboard (InvD): membuat "layar tunggal" secara instan untuk tiap incident, dengan kemampuan empat tahap: deteksi anomali → korelasi sinyal → penilaian nilai investigasi → identifikasi akar masalah; lebih dari 100 "troubleshooter" spesifik domain dijalankan paralel → deteksi anomali berbasis ML saja meningkatkan discovery rate 195% dan memangkas MTTM sekitar 44%
CLI berbasis Gemini (Antigravity CLI): melalui Production Agent (MCP), dapat mendaftarkan bug, menetapkan penanggung jawab, mengekspor postmortem, melakukan query monitoring real-time, analisis log, dan traffic drain yang aman untuk investigasi L1 (dapat diperluas dengan pustaka skill)

L3: mitigasi otonom

Untuk mendukung kecepatan pengembangan 4x dengan biaya tetap, dibutuhkan aktuasi langsung, bukan sekadar rekomendasi; namun penerapannya dimulai dari L2 (mengusulkan dan menunggu approval) di bawah Progressive Authorization, lalu naik ke L3/L4 setelah tervalidasi
AI Operator: agen respons pertama untuk alert production, melakukan RCA melalui investigasi paralel lalu memilih mitigasi dengan memanfaatkan enricher, skill, dan few-shot secara dinamis; CoT ditampilkan di UI pusat, dan jika buntu langsung melakukan eskalasi ke manusia beserta riwayat investigasinya; semua jejak eksekusi disimpan di Spanner untuk membentuk loop perbaikan mandiri, di mana LLM-as-a-Judge secara otomatis mengkritik hasil dan mendaftarkan bug
Actus (agen verifikasi keselamatan mitigasi/aktuasi): control plane terpadu yang memisahkan mesin penalaran AI dari mesin eksekusi — registrasi dan perencanaan alat yang distandardisasi, pemeriksaan keselamatan pra-eksekusi seperti dry-run dan verifikasi justifikasi, penurunan otomatis dari L3 ke L2 saat risiko terdeteksi, serta "red button" darurat untuk segera menghentikan semua tindakan yang sedang berjalan dan mencabut seluruh otorisasi L3 sekaligus

Teknologi yang menopang AI-Ops

Data dan metadata production berkualitas tinggi (telemetry, topology, incident historis, playbook, SLO, dll.)
Platform RAG, fine-tuning spesifik domain, serta antarmuka alat yang ramah AI (MCP, server Production Agent)
Manajemen identitas agen yang kuat untuk membedakan agen dari manusia (audit dan non-repudiation)
Protokol komunikasi antargen (A2A) agar agen spesialis dapat berkolaborasi seperti microservice

Masa depan SRE: memperluas pengawasan dalam agentic SDLC

AI merencanakan, menulis, me-review, dan mengajukan kode, dengan arah peningkatan volume perubahan (CL) hingga 4~10x — review per baris mencapai batasnya dan berujung pada reviewer fatigue serta approval formalitas
Pengawasan manusia akan "shift left" dan naik ke tangga abstraksi untuk fokus pada review desain, intent, dan kebijakan
Independent Harness diwajibkan: AI yang menghasilkan kode dan AI yang menguji/me-review kode dipisahkan secara ketat untuk mencegah bias silang
Rollout progresif adaptif dan validasi production berkelanjutan dengan kecepatan mesin mengatasi bottleneck soak time dan canary tradisional
Intervening Pull Request Problem: rollback sederhana berisiko ikut membatalkan bug fix dan security patch yang masuk di antaranya → ditangani dengan konfigurasi dinamis, feature flag, dan Fix-Forward berbantuan AI (pembuatan dan deployment patch bertarget secara otomatis)
Kesimpulannya: peran SRE sedang beralih dari mengoperasikan sistem menjadi merancang batas-batas agar agen otonom dapat berinovasi dengan aman