- Mantan insinyur menjelaskan secara rinci bagaimana pengambilan keputusan internal Microsoft Azure Core yang tidak realistis menumpuk dan berujung pada kekacauan teknis serta runtuhnya kepercayaan
- Rencana porting fitur Windows yang mengabaikan keterbatasan perangkat keras dan menjamurnya 173 agen manajemen disebut sebagai masalah yang paling menonjol
- Struktur yang rumit ini menopang beban kerja inti seperti OpenAI, Anthropic, dan cloud pemerintah, sehingga satu kesalahan saja berisiko meluas menjadi gangguan global
- Di tengah tidak adanya tanggapan dari jajaran manajemen, muncul dampak lanjutan seperti memburuknya hubungan dengan OpenAI, hilangnya kepercayaan pemerintah AS, dan tertundanya peluncuran fitur
- Pada akhirnya, hal ini disebut berujung pada lenyapnya nilai pasar sebesar 1 triliun dolar, sekaligus menegaskan pentingnya memahami realitas teknis dan menjaga kesederhanaan dalam pengoperasian infrastruktur cloud
Catatan Internal tentang Runtuhnya Kepercayaan pada Azure
- Memoar dari mantan insinyur yang membahas proses pengambilan keputusan tidak realistis di dalam tim Microsoft Azure Core dan kekacauan teknis serta organisasional yang ditimbulkannya
- Sejak hari pertama bergabung dengan tim R&D Overlake, ia menyaksikan pembahasan tentang rencana porting fitur Windows yang mengabaikan keterbatasan perangkat keras
- Ada 173 agen manajemen, tetapi kompleksitas dan kurangnya transparansi sudah sedemikian parah hingga tak ada yang benar-benar mengetahui fungsi dan alasan keberadaan semuanya
- Struktur seperti ini menopang beban kerja inti seperti OpenAI, Anthropic, dan cloud pemerintah, sehingga satu kesalahan berisiko memicu gangguan global
- Disebut berujung pada hilangnya kepercayaan OpenAI, ketidakpercayaan terbuka dari Departemen Pertahanan AS, dan lenyapnya nilai pasar 1 triliun dolar
Bergabung ke Azure Core dan Situasi Awal
- Pada 1 Mei 2023, bergabung sebagai insinyur senior di tim R&D Overlake yang menangani kartu offload Azure Boost dan akselerator jaringan
- Sebelumnya berkontribusi di tim Windows dan Core OS pada peningkatan kernel dan pengembangan platform container, termasuk teknologi inti seperti Docker, AKS, App Services, dan Windows Sandbox
- Juga pernah terlibat dalam desain awal kartu Overlake (2020–2021) dan mengusulkan protokol komunikasi antara host OS dan kartu akselerator
- Kembali sebagai pakar yang telah lebih dari 10 tahun mengoperasikan dan mengembangkan platform Azure secara langsung
Rencana yang Tidak Realistis yang Terlihat di Rapat Pertama
- Pada hari pertama bekerja, dalam rapat perencanaan bulanan tim, ia melihat rencana untuk mem-porting komponen Windows ke kartu Overlake
- Meskipun kapasitas RAM dan anggaran daya kartu Overlake sangat terbatas, tim tetap membahas upaya memindahkan fungsi Windows ke sana
- Itu adalah rencana yang mustahil dari sisi spesifikasi perangkat keras, dan bahkan muncul pernyataan untuk “menyerahkannya ke beberapa pengembang junior”
- Organisasi juga secara serius mempertimbangkan arah mem-porting Windows ke Linux demi mempertahankan agen manajemen VM
- Penulis menilai ini sebagai “rencana yang terlepas dari realitas”, dan menyimpulkan bahwa organisasi secara keseluruhan sedang berbaris menuju target yang mustahil
Keterbatasan Teknis dan Masalah Struktural
- Saat itu, stack yang ada pada CPU Xeon 400W hanya mampu menangani puluhan VM, jauh dari batas 1.024 VM pada hypervisor
- Penggunaan sumber daya yang berlebihan menimbulkan masalah penurunan performa, termasuk jitter pada VM pelanggan
- Rencana untuk mem-porting stack yang tidak efisien ini ke ARM SoC kecil demi memperluas skalanya dinilai mustahil secara teknis
- Penulis menggambarkan bahwa “alih-alih mempelajari teknologi baru, tugas yang lebih mendesak adalah mengembalikan seluruh organisasi pada realitas”
Percakapan Internal tentang Azure Linux dan Overlake
- Dalam percakapan 90 menit dengan pimpinan Linux System Group, ia mengetahui bahwa 173 agen telah ditetapkan sebagai kandidat untuk di-porting ke kartu Overlake
- Hasil penelusuran menunjukkan tidak ada seorang pun di internal Microsoft yang dapat menjelaskan dengan jelas peran, interaksi, dan alasan keberadaan 173 agen tersebut
- Inti Azure adalah VM, jaringan, dan penyimpanan, sementara layanan lainnya dibangun di atas itu, tetapi kompleksitas yang tidak perlu terus menumpuk
- Kumpulan komponen yang tak lagi terkendali ini justru mengelola beban kerja utama seperti OpenAI, Anthropic, dan cloud pemerintah
Hilangnya Kepercayaan dan Dampak Lanjutan
- Struktur kompleks ini dinilai dapat menimbulkan risiko serius terhadap keamanan nasional dan kesinambungan bisnis
- Setelah itu, surat yang dikirim kepada CEO, dewan direksi, dan EVP divisi Cloud+AI semuanya berakhir tanpa tanggapan
- Akibatnya muncul memburuknya hubungan dengan OpenAI, runtuhnya kepercayaan pemerintah AS (termasuk pernyataan terbuka dari Menteri Pertahanan), pemborosan engineering dan perintah migrasi ke Rust, serta tertundanya peluncuran fitur
- Penulis menyebutnya sebagai “peristiwa lenyapnya nilai pasar 1 triliun dolar” dan memperingatkan perusahaan pengguna Azure tentang risiko bergantung pada lingkungan produksi
Kesimpulan
- Tersingkap bagaimana kompleksitas teknis, buruknya pengelolaan, dan pengambilan keputusan yang tidak realistis di internal Azure menumpuk hingga menggerus kepercayaan
- Sebuah contoh ketika organisasi yang menangani infrastruktur inti kehilangan pijakan pada realitas dan terus melangkah menuju kegagalan struktural
- Ditekankan pentingnya stabilitas dan kesederhanaan infrastruktur cloud, serta menjaga ketajaman penilaian teknis di dalam organisasi
1 komentar
Komentar Hacker News
Sebagai orang yang memakai Azure setiap hari, kalau pengungkapan ini benar, rasanya banyak hal jadi masuk akal
UI-nya berantakan, dokumentasinya tidak akurat seperti ditulis AI, dan jenis layanannya terlalu banyak sampai sulit tahu harus pakai yang mana
Sulit dikonfigurasi tanpa bantuan konsultan, dan bahkan setelah dikonfigurasi pun tidak ada keyakinan apakah benar-benar berjalan semestinya
Sejujurnya, aneh rasanya ini masih bisa terus beroperasi
Sejak itu saya tidak lagi percaya pada dokumentasinya
Layanan yang stabil di GCP menjadi tidak bisa diprediksi
Saya pernah melihat Azure OpenAI saat sedang terbebani justru membocorkan respons prompt milik pelanggan lain
Ada juga tweet terkait
Namun suasananya seperti tidak ada yang benar-benar peduli
Situasinya benar-benar seperti wild west
Saya terkejut karena klaim dalam tulisan ini sangat spesifik
Saya penasaran apakah penulisnya seorang whistleblower, atau sekadar mantan karyawan yang tidak puas
Bagian bahwa ia melaporkan langsung ke CEO dan dewan direksi sangat mengesankan
Dalam budaya perusahaan AS, terasa asing bahwa prosedur seperti ini dianggap “lumrah”
Saya penasaran apakah Azure memang setidakstabil itu, dan bagaimana pengalaman pengguna nyata
Azure tidak sadar ada masalah, tidak tahu penyebabnya, bahkan terlihat tidak peduli
Seluruh tim membenci Azure
Saya senang AWS Bedrock sekarang bisa memakai model OpenAI sehingga Azure bisa dihindari
Keandalannya tetap masalah serius
Strategi “rilis cepat lalu perbaiki nanti” pada akhirnya menghasilkan situasi seperti ini
Sejak itu saya tidak lagi mempercayainya
Tulisan ini terasa agak terlalu emosional dan berlebihan, sehingga niat aslinya jadi kabur
Struktur jenjang internal Azure atau isu level Sev2 bukan sesuatu yang terlalu istimewa
Azure memang punya masalah, tetapi skalanya besar jadi wajar ada banyak sisi kasar
Kedewasaan yang sesungguhnya, menurut saya, adalah sikap untuk memperbaikinya dari dalam sistem
Azure mungkin memang kacau, tetapi bisa jadi pendekatan penulis juga bermasalah
Kesan saya terhadap Azure sepenuhnya negatif
Pendekatan penulis justru membuat kredibilitasnya turun
Frekuensi karyawan baru berseru “wtf/day” terasa seperti indikator kesehatan organisasi
Bahkan dari luar pun kualitas Azure terlihat sangat rendah
Karena buru-buru melempar fitur demi mengejar AWS, mereka terjebak dalam rawa utang teknis yang besar
Bahkan fungsi dasar seperti IPv6, azcopy, upgrade VM, dan lainnya masih tetap tidak stabil
Mantan rekan kerja saya memakai Azure setiap hari, dan setiap kali mendengar ledakan keluhan mereka, isi tulisan ini jadi mudah dipahami
Saat memilih spesialisasi cloud 12 tahun lalu, saya sempat mencoba Azure dan merasa itu platform yang lambat dan rusak; tulisan ini seolah mengonfirmasi penilaian itu
Bagian akhir tulisan yang menyebut Microsoft memangkas 15.000 karyawan pada 2025 cukup menonjol
Rasanya seperti contoh realitas setelah ledakan AI
Kontrak OpenAI berkaitan dengan masalah kapasitas GPU, dan PHK adalah isu terpisah
Masalah sebenarnya adalah rotasi engineer dan tidak adanya akuntabilitas
Setiap proyek diisi orang baru, lalu rasa kepemilikan menghilang
Bagian yang mengatakan bahwa jika host ditembus maka semua memori VM bisa diakses terdengar sangat berbahaya
Kutipan CNBC bahwa gaji Satya Nadella naik 22% menjadi USD 96,5 juta, lalu disejajarkan dengan ucapan astronot Artemis II bahwa “dua Outlook sama-sama tidak berfungsi”, terasa ironis
Isi tulisan ini tampak berlebihan, tetapi sebagai orang yang juga pernah mengoperasikan sistem serupa, saya ingat harus terus bertarung demi menjaga stabilitas
Saya pernah melihat masalah serupa di perusahaan lain, tetapi tidak separah skala Azure
Struktur seperti ini pada akhirnya terasa akan berujung pada loop penghancuran diri
Saya pernah memakai Azure pada 2018, dan itu lambat, mahal, tetapi kualitasnya buruk
Di forum GitHub, saya bersama pengguna lain berjuang menyelesaikan masalah yang membuat fungsi dasar pun tidak berjalan
Tulisan ini menjawab pertanyaan yang saya punya sejak saat itu
Secara pribadi, saya merasa Google Cloud adalah platform yang paling dirancang dengan baik, tetapi saya kecewa karena dukungan manusia di sana kalah dibanding AWS
Penanggung jawab saya berganti tiga kali dalam tiga bulan, dan permintaan kuota atau pertanyaan soal batasan sistem kadang diabaikan