3 poin oleh GN⁺ 18 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Mantan insinyur menjelaskan secara rinci bagaimana pengambilan keputusan internal Microsoft Azure Core yang tidak realistis menumpuk dan berujung pada kekacauan teknis serta runtuhnya kepercayaan
  • Rencana porting fitur Windows yang mengabaikan keterbatasan perangkat keras dan menjamurnya 173 agen manajemen disebut sebagai masalah yang paling menonjol
  • Struktur yang rumit ini menopang beban kerja inti seperti OpenAI, Anthropic, dan cloud pemerintah, sehingga satu kesalahan saja berisiko meluas menjadi gangguan global
  • Di tengah tidak adanya tanggapan dari jajaran manajemen, muncul dampak lanjutan seperti memburuknya hubungan dengan OpenAI, hilangnya kepercayaan pemerintah AS, dan tertundanya peluncuran fitur
  • Pada akhirnya, hal ini disebut berujung pada lenyapnya nilai pasar sebesar 1 triliun dolar, sekaligus menegaskan pentingnya memahami realitas teknis dan menjaga kesederhanaan dalam pengoperasian infrastruktur cloud

Catatan Internal tentang Runtuhnya Kepercayaan pada Azure

  • Memoar dari mantan insinyur yang membahas proses pengambilan keputusan tidak realistis di dalam tim Microsoft Azure Core dan kekacauan teknis serta organisasional yang ditimbulkannya
  • Sejak hari pertama bergabung dengan tim R&D Overlake, ia menyaksikan pembahasan tentang rencana porting fitur Windows yang mengabaikan keterbatasan perangkat keras
  • Ada 173 agen manajemen, tetapi kompleksitas dan kurangnya transparansi sudah sedemikian parah hingga tak ada yang benar-benar mengetahui fungsi dan alasan keberadaan semuanya
  • Struktur seperti ini menopang beban kerja inti seperti OpenAI, Anthropic, dan cloud pemerintah, sehingga satu kesalahan berisiko memicu gangguan global
  • Disebut berujung pada hilangnya kepercayaan OpenAI, ketidakpercayaan terbuka dari Departemen Pertahanan AS, dan lenyapnya nilai pasar 1 triliun dolar

Bergabung ke Azure Core dan Situasi Awal

  • Pada 1 Mei 2023, bergabung sebagai insinyur senior di tim R&D Overlake yang menangani kartu offload Azure Boost dan akselerator jaringan
  • Sebelumnya berkontribusi di tim Windows dan Core OS pada peningkatan kernel dan pengembangan platform container, termasuk teknologi inti seperti Docker, AKS, App Services, dan Windows Sandbox
  • Juga pernah terlibat dalam desain awal kartu Overlake (2020–2021) dan mengusulkan protokol komunikasi antara host OS dan kartu akselerator
  • Kembali sebagai pakar yang telah lebih dari 10 tahun mengoperasikan dan mengembangkan platform Azure secara langsung

Rencana yang Tidak Realistis yang Terlihat di Rapat Pertama

  • Pada hari pertama bekerja, dalam rapat perencanaan bulanan tim, ia melihat rencana untuk mem-porting komponen Windows ke kartu Overlake
  • Meskipun kapasitas RAM dan anggaran daya kartu Overlake sangat terbatas, tim tetap membahas upaya memindahkan fungsi Windows ke sana
  • Itu adalah rencana yang mustahil dari sisi spesifikasi perangkat keras, dan bahkan muncul pernyataan untuk “menyerahkannya ke beberapa pengembang junior”
  • Organisasi juga secara serius mempertimbangkan arah mem-porting Windows ke Linux demi mempertahankan agen manajemen VM
  • Penulis menilai ini sebagai “rencana yang terlepas dari realitas”, dan menyimpulkan bahwa organisasi secara keseluruhan sedang berbaris menuju target yang mustahil

Keterbatasan Teknis dan Masalah Struktural

  • Saat itu, stack yang ada pada CPU Xeon 400W hanya mampu menangani puluhan VM, jauh dari batas 1.024 VM pada hypervisor
  • Penggunaan sumber daya yang berlebihan menimbulkan masalah penurunan performa, termasuk jitter pada VM pelanggan
  • Rencana untuk mem-porting stack yang tidak efisien ini ke ARM SoC kecil demi memperluas skalanya dinilai mustahil secara teknis
  • Penulis menggambarkan bahwa “alih-alih mempelajari teknologi baru, tugas yang lebih mendesak adalah mengembalikan seluruh organisasi pada realitas”

Percakapan Internal tentang Azure Linux dan Overlake

  • Dalam percakapan 90 menit dengan pimpinan Linux System Group, ia mengetahui bahwa 173 agen telah ditetapkan sebagai kandidat untuk di-porting ke kartu Overlake
  • Hasil penelusuran menunjukkan tidak ada seorang pun di internal Microsoft yang dapat menjelaskan dengan jelas peran, interaksi, dan alasan keberadaan 173 agen tersebut
  • Inti Azure adalah VM, jaringan, dan penyimpanan, sementara layanan lainnya dibangun di atas itu, tetapi kompleksitas yang tidak perlu terus menumpuk
  • Kumpulan komponen yang tak lagi terkendali ini justru mengelola beban kerja utama seperti OpenAI, Anthropic, dan cloud pemerintah

Hilangnya Kepercayaan dan Dampak Lanjutan

  • Struktur kompleks ini dinilai dapat menimbulkan risiko serius terhadap keamanan nasional dan kesinambungan bisnis
  • Setelah itu, surat yang dikirim kepada CEO, dewan direksi, dan EVP divisi Cloud+AI semuanya berakhir tanpa tanggapan
  • Akibatnya muncul memburuknya hubungan dengan OpenAI, runtuhnya kepercayaan pemerintah AS (termasuk pernyataan terbuka dari Menteri Pertahanan), pemborosan engineering dan perintah migrasi ke Rust, serta tertundanya peluncuran fitur
  • Penulis menyebutnya sebagai “peristiwa lenyapnya nilai pasar 1 triliun dolar” dan memperingatkan perusahaan pengguna Azure tentang risiko bergantung pada lingkungan produksi

Kesimpulan

  • Tersingkap bagaimana kompleksitas teknis, buruknya pengelolaan, dan pengambilan keputusan yang tidak realistis di internal Azure menumpuk hingga menggerus kepercayaan
  • Sebuah contoh ketika organisasi yang menangani infrastruktur inti kehilangan pijakan pada realitas dan terus melangkah menuju kegagalan struktural
  • Ditekankan pentingnya stabilitas dan kesederhanaan infrastruktur cloud, serta menjaga ketajaman penilaian teknis di dalam organisasi

1 komentar

 
GN⁺ 18 hari lalu
Komentar Hacker News
  • Sebagai orang yang memakai Azure setiap hari, kalau pengungkapan ini benar, rasanya banyak hal jadi masuk akal
    UI-nya berantakan, dokumentasinya tidak akurat seperti ditulis AI, dan jenis layanannya terlalu banyak sampai sulit tahu harus pakai yang mana
    Sulit dikonfigurasi tanpa bantuan konsultan, dan bahkan setelah dikonfigurasi pun tidak ada keyakinan apakah benar-benar berjalan semestinya
    Sejujurnya, aneh rasanya ini masih bisa terus beroperasi

    • Dulu saya kagum pada dokumentasi Azure, tetapi setelah seminggu implementasi, semuanya gagal total karena GraphAPI tidak bekerja sesuai dokumentasi di lingkungan pengujian
      Sejak itu saya tidak lagi percaya pada dokumentasinya
    • Saya pernah bekerja dengan para konsultan Azure, dan mereka pun membenci Azure
    • Manajemen memindahkan kami ke AKS karena kreditnya besar, tetapi pod crash secara acak dan latensi disk pada node DB melonjak tajam
      Layanan yang stabil di GCP menjadi tidak bisa diprediksi
  • Saya pernah melihat Azure OpenAI saat sedang terbebani justru membocorkan respons prompt milik pelanggan lain
    Ada juga tweet terkait
    Namun suasananya seperti tidak ada yang benar-benar peduli

    • Saya penasaran apa tepatnya yang dimaksud dengan “Azure OpenAI” — GitHub Copilot, Microsoft Copilot, OpenAI API, atau salah satu LLM yang di-host di Azure?
      Situasinya benar-benar seperti wild west
  • Saya terkejut karena klaim dalam tulisan ini sangat spesifik
    Saya penasaran apakah penulisnya seorang whistleblower, atau sekadar mantan karyawan yang tidak puas
    Bagian bahwa ia melaporkan langsung ke CEO dan dewan direksi sangat mengesankan
    Dalam budaya perusahaan AS, terasa asing bahwa prosedur seperti ini dianggap “lumrah”
    Saya penasaran apakah Azure memang setidakstabil itu, dan bagaimana pengalaman pengguna nyata

    • Saya memang mengoperasikan AWS, Azure, dan GCP sebagai SRE, dan 80–90% insiden terjadi di Azure
      Azure tidak sadar ada masalah, tidak tahu penyebabnya, bahkan terlihat tidak peduli
      Seluruh tim membenci Azure
    • Azure punya terlalu banyak masalah konsistensi dan race condition
      Saya senang AWS Bedrock sekarang bisa memakai model OpenAI sehingga Azure bisa dihindari
      Keandalannya tetap masalah serius
    • Perusahaan besar sering membuat keputusan yang mengorbankan kualitas demi metrik jangka pendek
      Strategi “rilis cepat lalu perbaiki nanti” pada akhirnya menghasilkan situasi seperti ini
    • Saya pernah melihat laporan keamanan tentang pelarian dari container Azure yang menemukan kerentanan pada controller manajemen
      Sejak itu saya tidak lagi mempercayainya
    • Bahkan kalau diberi kredit gratis pun, saya lebih baik membayar AWS atau GCP
  • Tulisan ini terasa agak terlalu emosional dan berlebihan, sehingga niat aslinya jadi kabur
    Struktur jenjang internal Azure atau isu level Sev2 bukan sesuatu yang terlalu istimewa
    Azure memang punya masalah, tetapi skalanya besar jadi wajar ada banyak sisi kasar
    Kedewasaan yang sesungguhnya, menurut saya, adalah sikap untuk memperbaikinya dari dalam sistem

    • Mengirim surat langsung ke dewan direksi adalah tindakan yang hampir pasti tidak akan berakhir baik di dalam organisasi
      Azure mungkin memang kacau, tetapi bisa jadi pendekatan penulis juga bermasalah
    • AWS dan GCP punya UX/DX yang jauh lebih baik, sedangkan Azure bahkan tidak memberi tahu kenapa sesuatu gagal
      Kesan saya terhadap Azure sepenuhnya negatif
    • Microsoft memang solusi default bagi lembaga pemerintah, tetapi usulan rewrite total tidak realistis
      Pendekatan penulis justru membuat kredibilitasnya turun
    • Saya heran bahwa orang dengan level jabatan rendah yang disebut penulis dipercayakan mengelola sistem inti
    • Ada banyak orang yang “berteriak bahwa semuanya rusak”, tetapi itu juga bisa jadi masalah organisasi yang sudah membeku
      Frekuensi karyawan baru berseru “wtf/day” terasa seperti indikator kesehatan organisasi
      Bahkan dari luar pun kualitas Azure terlihat sangat rendah
      Karena buru-buru melempar fitur demi mengejar AWS, mereka terjebak dalam rawa utang teknis yang besar
      Bahkan fungsi dasar seperti IPv6, azcopy, upgrade VM, dan lainnya masih tetap tidak stabil
  • Mantan rekan kerja saya memakai Azure setiap hari, dan setiap kali mendengar ledakan keluhan mereka, isi tulisan ini jadi mudah dipahami
    Saat memilih spesialisasi cloud 12 tahun lalu, saya sempat mencoba Azure dan merasa itu platform yang lambat dan rusak; tulisan ini seolah mengonfirmasi penilaian itu

  • Bagian akhir tulisan yang menyebut Microsoft memangkas 15.000 karyawan pada 2025 cukup menonjol
    Rasanya seperti contoh realitas setelah ledakan AI

    • Tetapi saya rasa bagian itu adalah argumen yang lemah dalam tulisan ini
      Kontrak OpenAI berkaitan dengan masalah kapasitas GPU, dan PHK adalah isu terpisah
      Masalah sebenarnya adalah rotasi engineer dan tidak adanya akuntabilitas
      Setiap proyek diisi orang baru, lalu rasa kepemilikan menghilang
  • Bagian yang mengatakan bahwa jika host ditembus maka semua memori VM bisa diakses terdengar sangat berbahaya

    • Sulit membayangkan lingkungan yang menganggap arsitektur seperti itu sebagai ide bagus
    • Saya tidak tahu apa yang sebenarnya diharapkan penulis
  • Kutipan CNBC bahwa gaji Satya Nadella naik 22% menjadi USD 96,5 juta, lalu disejajarkan dengan ucapan astronot Artemis II bahwa “dua Outlook sama-sama tidak berfungsi”, terasa ironis

    • “Dua Outlook”? Satu saja sebenarnya sudah terlalu banyak
  • Isi tulisan ini tampak berlebihan, tetapi sebagai orang yang juga pernah mengoperasikan sistem serupa, saya ingat harus terus bertarung demi menjaga stabilitas
    Saya pernah melihat masalah serupa di perusahaan lain, tetapi tidak separah skala Azure
    Struktur seperti ini pada akhirnya terasa akan berujung pada loop penghancuran diri

  • Saya pernah memakai Azure pada 2018, dan itu lambat, mahal, tetapi kualitasnya buruk
    Di forum GitHub, saya bersama pengguna lain berjuang menyelesaikan masalah yang membuat fungsi dasar pun tidak berjalan
    Tulisan ini menjawab pertanyaan yang saya punya sejak saat itu
    Secara pribadi, saya merasa Google Cloud adalah platform yang paling dirancang dengan baik, tetapi saya kecewa karena dukungan manusia di sana kalah dibanding AWS

    • Dukungan GCP benar-benar buruk
      Penanggung jawab saya berganti tiga kali dalam tiga bulan, dan permintaan kuota atau pertanyaan soal batasan sistem kadang diabaikan