4 poin oleh GN⁺ 2025-09-28 | 1 komentar | Bagikan ke WhatsApp
  • Windows ML resmi dirilis, menstandarkan inferensi on-device di CPU·GPU·NPU serta manajemen model dan dependensi, sehingga meningkatkan efisiensi deployment ke lingkungan produksi
  • Di tengah arus AI hibrida yang menggabungkan cloud dan klien, Windows 11 kini menyediakan runtime AI terpadu untuk inferensi lokal di tingkat OS
  • Melalui kompatibilitas ONNX Runtime dan distribusi otomatis Execution Provider (EP), optimalisasi per perangkat keras diabstraksikan, sekaligus mendukung pengurangan ukuran aplikasi dan pembaruan inkremental
  • Bekerja sama dengan AMD·Intel·NVIDIA·Qualcomm, Windows mendistribusikan dan mendaftarkan EP masing-masing vendor, serta menyediakan penargetan rinci seperti penetapan kebijakan perangkat untuk daya/kinerja
  • Tersedia secara bawaan di Windows App SDK 1.8.1+ dan Windows 11 24H2 atau lebih baru, dengan alat seperti AI Toolkit for VS Code dan AI Dev Gallery yang menyederhanakan onboarding

Gambaran umum: tujuan dan posisi Windows ML

  • Windows ML adalah runtime inferensi AI on-device yang tertanam di Windows 11, dan ditujukan sebagai lapisan standar inferensi lokal di era AI hibrida
    • Berfungsi sebagai lapisan fondasi dari Windows AI Foundry, dan melalui Foundry Local menyediakan dukungan silikon yang diperluas
    • Ditujukan untuk mengurangi biaya cloud, latensi, dan isu privasi, sekaligus menghadirkan pengalaman pengguna yang berfokus pada real-time, keamanan, dan efisiensi

Komposisi runtime: ONNX, EP, dan model distribusi

  • Kompatibel dengan ONNX Runtime (ORT) sehingga API dan workflow ORT yang ada bisa langsung dimanfaatkan
    • Windows menangani deployment dan pemeliharaan ORT dan Execution Provider, sehingga tidak perlu dibundel ke dalam aplikasi
    • EP adalah jembatan optimasi antara runtime dan silikon, dikembangkan dan dikelola oleh masing-masing vendor, lalu diunduh/didaftarkan secara dinamis oleh Windows
  • Tiga keuntungan berupa penyederhanaan deployment, pengurangan overhead, dan pemeliharaan kompatibilitas disediakan sebagai API infrastruktur
    • EP yang sesuai untuk perangkat akan dideteksi dan dipasang otomatis, menghasilkan penghematan ukuran aplikasi dari puluhan hingga ratusan MB
    • Melalui proses sertifikasi dan kesesuaian, sistem ini mengejar konsistensi akurasi antar-build sambil terus mencerminkan pembaruan berkelanjutan
  • Advanced Silicon Targeting mendukung penetapan kebijakan perangkat seperti NPU (daya rendah) dan GPU (performa tinggi)
    • Opsi AOT (pre-compile) untuk model juga tersedia sebagai pilihan untuk menyederhanakan pengalaman pengguna akhir

Optimasi mitra silikon

  • AMD: integrasi Windows ML di seluruh lini Ryzen AI, dukungan akselerasi melalui Vitis AI EP untuk NPU·GPU·CPU, dengan arah pada pengalaman AI lokal yang skalabel
  • Intel: EP yang digabungkan dengan OpenVINO untuk optimasi pemilihan XPU (CPU·GPU·NPU), dengan target peningkatan efisiensi dan performa pada PC berbasis Core Ultra
  • NVIDIA: TensorRT for RTX EP memanfaatkan library Tensor Core khusus GPU RTX untuk membuat mesin inferensi yang dioptimalkan per perangkat
    • Mengklaim akselerasi inferensi 50%+ dibandingkan DirectML dan menekankan kemudahan deployment untuk target 100 juta+ perangkat Windows RTX
  • Qualcomm Technologies: akselerasi NPU dengan QNN EP pada Snapdragon X Series, serta dukungan jalur GPU dan CPU melalui integrasi ORT
    • Menyatakan niat memperluas framework terpadu hingga Copilot+ PC dan Snapdragon X2 generasi berikutnya

Contoh adopsi ekosistem

  • Adobe Premiere Pro / After Effects: mempercepat pencarian media, penandaan audio, dan deteksi adegan berbasis NPU lokal, dengan rencana memindahkan model on-device ke Windows ML secara bertahap
  • BUFFERZONE: analisis halaman web real-time untuk mencegah phishing/penipuan, menghadirkan skenario keamanan tanpa perlu mengirim data sensitif ke cloud
  • Reincubate Camo: meningkatkan kualitas video call melalui visi real-time seperti segmentasi gambar, dengan memanfaatkan jalur NPU di semua silikon
  • Dot Vista (Dot Inc.): menerapkan kontrol suara hands-free dan OCR untuk skenario aksesibilitas seperti lingkungan medis, dengan memanfaatkan Copilot+ PC NPU
  • Wondershare Filmora: mengoptimalkan pratinjau dan penerapan real-time Body Effects (Lightning Twined, Neon Ring, dll.) untuk AMD·Intel·Qualcomm NPU
  • McAfee: menerapkan inferensi lokal untuk deteksi deepfake dan scam, memperkuat respons terhadap lingkungan jejaring sosial
  • Topaz Photo: menyediakan fitur peningkatan foto AI tingkat profesional seperti penajaman dan pemulihan fokus melalui inferensi lokal

Alat pengembang dan onboarding

  • AI Toolkit for VS Code menyediakan dukungan terpadu untuk konversi PyTorch→ONNX, serta quantization, optimasi, kompilasi, dan evaluasi
    • Menargetkan single build untuk Windows ML guna meminimalkan logika percabangan multi-target
  • Di AI Dev Gallery, contoh model kustom dapat dipelajari secara interaktif
    • Menyediakan workspace yang cocok untuk eksplorasi skenario AI berbasis model lokal dan prototyping cepat

Syarat awal dan target deployment

  • Windows App SDK 1.8.1+ menyertakan Windows ML, dengan dukungan untuk perangkat Windows 11 24H2 atau lebih baru
    • Setelah memperbarui ke Windows App SDK terbaru, tersedia alur sederhana berupa memanggil Windows ML API → memuat model ONNX → memulai inferensi
    • Dokumentasi rinci, API, dan contoh tersedia melalui jalur ms/TryWinML dan ms/ai-dev-gallery

Makna teknis dan implikasi

  • Dengan OS mengambil alih manajemen siklus hidup ORT dan EP, aplikasi dapat berfokus pada model dan logika inferensi ringan
    • Dengan menyerap fragmentasi perangkat keras dan mengotomatisasi optimasi performa dan daya, kompleksitas pengembangan dan deployment dapat dikurangi dari sisi kegunaan
  • Dengan menyediakan baik desain yang memprioritaskan NPU maupun jalur GPU berperforma tinggi, fondasi AI lokal dibangun untuk memenuhi kebutuhan offline, privasi, dan biaya
    • Menawarkan model operasi yang mengejar konsistensi akurasi melalui perbedaan properti dan performa EP vendor serta sertifikasi dan kesesuaian Windows
  • Dari sisi ekosistem, aplikasi representatif di domain video, keamanan, aksesibilitas, dan kreatif telah mengisyaratkan adopsi, sehingga cakupan AI on-device di Windows diperkirakan meluas
    • Pengembang diharapkan dapat meningkatkan kecepatan produkisasi melalui pipeline persiapan model (konversi·quantization) → penetapan kebijakan EP → otomatisasi deployment

Hal-hal yang perlu diperhatikan dan batasan

  • Kualitas optimasi EP dan pengelolaan variasi performa/akurasi antar perangkat menjadi tantangan utama
    • Diperlukan strategi cache dan pembaruan untuk AOT model dan distribusi EP dinamis, serta manajemen rilis untuk menjaga kompatibilitas
  • Pembagian tumpang tindih dan peran dengan DirectML yang ada, SDK vendor, dan runtime lintas platform akan menjadi variabel dalam pengambilan keputusan arsitektur
    • Untuk lini produk multi-OS, perlu meninjau trade-off antara core inferensi bersama vs. jalur khusus Windows

Kesimpulan

  • Peluncuran resmi Windows ML menjadi titik balik bertahap yang memajukan Windows 11 sebagai lingkungan eksekusi dasar untuk AI lokal
    • Dengan abstraksi perangkat keras, otomatisasi deployment, dan integrasi alat, hambatan menuju produkisasi diturunkan, sambil memperkuat responsivitas, privasi, dan efisiensi biaya melalui pemaksimalan pemanfaatan NPU/GPU
    • Seiring adopsi oleh aplikasi-aplikasi utama dan optimasi EP vendor yang semakin terhubung, AI on-device di seluruh ekosistem Windows diperkirakan akan berkembang pesat

1 komentar

 
GN⁺ 2025-09-28
Komentar Hacker News
  • Ollama pada awalnya punya arah yang lebih open-source, yaitu “menjalankan model secara sederhana secara lokal”, tetapi belakangan terasa kemurniannya memudar karena memperluas cakupan dengan hal-hal seperti fitur pencarian web berbayar; sebaliknya, Windows ML mengejar integrasi OS yang mendalam, tetapi karena terikat hanya pada ekosistem Windows, ini mengingatkan pada DirectX. Sekarang yang penting adalah apakah akan ada alternatif selain vLLM/ONNX atau menjalankan langsung di CUDA/ROCm, atau pada akhirnya ini hanya menukar satu vendor lock-in dengan yang lain
    • Ollama berfokus pada LLM (large language model). Jika melihat beragam contoh seperti image upscaling Topaz Photo dari Topaz Labs yang disebut dalam artikel, perlu dicatat bahwa arah teknologi ini berbeda
  • System ONNX bisa cukup menarik dari sudut pandang aplikasi Windows, tetapi itu dengan asumsi backend-nya benar-benar berjalan andal di sebagian besar sistem. Misalnya untuk AMD ada 3 opsi seperti ROCm, MIGraphX, dan Vitis, tetapi saya belum pernah berhasil menjalankan satu pun dengan baik. Karena MIGraphX sekarang tidak lagi ditandai sebagai eksperimental, saya berniat mencobanya sekali lagi
  • Saya penasaran, jika benar-benar dibandingkan, mana yang lebih sederhana antara Windows ML dan pendekatan Ollama+unduhan LLM lokal. Khususnya saat memakai Windows ML, saya juga penasaran dari sisi privasi seberapa banyak data pribadi yang dikirim ke Microsoft
    • Windows ML mengabstraksi agar kode tidak terikat pada hardware tertentu, sehingga model LLM lokal bisa digunakan di berbagai hardware seperti CPU, GPU, dan NPU. Teknologi ini adalah versi yang dikembangkan dari DirectML (DirectX for ML)
    • Ollama tidak mendukung NPU
  • Saya penasaran bagaimana dukungan untuk custom layer, khususnya berbagai versi yang diadopsi banyak perusahaan seperti (flash) attention. Apakah artinya model tertentu tidak bisa dijalankan, atau hanya versi yang sudah dimodifikasi yang bisa dipakai, sampai MS mengimplementasikan fungsi tersebut di runtime?
  • Dari penjelasan “Windows ML adalah runtime inferensi AI bawaan yang dioptimalkan untuk inferensi model on-device, dan memudahkan baik pengembang pemula maupun berpengalaman untuk membuat aplikasi berbasis AI”, pengumuman ini terdengar sangat mirip dengan pengumuman terbaru Apple tentang “membuka akses LLM on-device yang menjadi inti Apple Intelligence untuk semua pengembang”
    Seiring dengan fitur Apple Intelligence baru yang baru-baru ini diumumkan Apple, saya pikir pada akhirnya perangkat apa pun bisa menjadi win-win karena baik pengembang maupun konsumen dapat membuat dan menggunakan aplikasi yang berfokus pada privasi
    • Windows ML kali ini adalah evolusi dari Direct ML. Dengan mempertimbangkan keterbatasan lama yang terlalu condong ke C++ seperti DirectX sebelumnya, C#, C++, dan Python kini juga bisa digunakan di atas API baru ini melalui proyeksi WinRT
    • Saya tidak melihatnya sebagai hal yang sama; inti pengumuman Windows ML kali ini lebih dekat ke “bisa menjalankan semua model”