- Windows ML resmi dirilis, menstandarkan inferensi on-device di CPU·GPU·NPU serta manajemen model dan dependensi, sehingga meningkatkan efisiensi deployment ke lingkungan produksi
- Di tengah arus AI hibrida yang menggabungkan cloud dan klien, Windows 11 kini menyediakan runtime AI terpadu untuk inferensi lokal di tingkat OS
- Melalui kompatibilitas ONNX Runtime dan distribusi otomatis Execution Provider (EP), optimalisasi per perangkat keras diabstraksikan, sekaligus mendukung pengurangan ukuran aplikasi dan pembaruan inkremental
- Bekerja sama dengan AMD·Intel·NVIDIA·Qualcomm, Windows mendistribusikan dan mendaftarkan EP masing-masing vendor, serta menyediakan penargetan rinci seperti penetapan kebijakan perangkat untuk daya/kinerja
- Tersedia secara bawaan di Windows App SDK 1.8.1+ dan Windows 11 24H2 atau lebih baru, dengan alat seperti AI Toolkit for VS Code dan AI Dev Gallery yang menyederhanakan onboarding
Gambaran umum: tujuan dan posisi Windows ML
- Windows ML adalah runtime inferensi AI on-device yang tertanam di Windows 11, dan ditujukan sebagai lapisan standar inferensi lokal di era AI hibrida
- Berfungsi sebagai lapisan fondasi dari Windows AI Foundry, dan melalui Foundry Local menyediakan dukungan silikon yang diperluas
- Ditujukan untuk mengurangi biaya cloud, latensi, dan isu privasi, sekaligus menghadirkan pengalaman pengguna yang berfokus pada real-time, keamanan, dan efisiensi
Komposisi runtime: ONNX, EP, dan model distribusi
- Kompatibel dengan ONNX Runtime (ORT) sehingga API dan workflow ORT yang ada bisa langsung dimanfaatkan
- Windows menangani deployment dan pemeliharaan ORT dan Execution Provider, sehingga tidak perlu dibundel ke dalam aplikasi
- EP adalah jembatan optimasi antara runtime dan silikon, dikembangkan dan dikelola oleh masing-masing vendor, lalu diunduh/didaftarkan secara dinamis oleh Windows
- Tiga keuntungan berupa penyederhanaan deployment, pengurangan overhead, dan pemeliharaan kompatibilitas disediakan sebagai API infrastruktur
- EP yang sesuai untuk perangkat akan dideteksi dan dipasang otomatis, menghasilkan penghematan ukuran aplikasi dari puluhan hingga ratusan MB
- Melalui proses sertifikasi dan kesesuaian, sistem ini mengejar konsistensi akurasi antar-build sambil terus mencerminkan pembaruan berkelanjutan
- Advanced Silicon Targeting mendukung penetapan kebijakan perangkat seperti NPU (daya rendah) dan GPU (performa tinggi)
- Opsi AOT (pre-compile) untuk model juga tersedia sebagai pilihan untuk menyederhanakan pengalaman pengguna akhir
Optimasi mitra silikon
- AMD: integrasi Windows ML di seluruh lini Ryzen AI, dukungan akselerasi melalui Vitis AI EP untuk NPU·GPU·CPU, dengan arah pada pengalaman AI lokal yang skalabel
- Intel: EP yang digabungkan dengan OpenVINO untuk optimasi pemilihan XPU (CPU·GPU·NPU), dengan target peningkatan efisiensi dan performa pada PC berbasis Core Ultra
- NVIDIA: TensorRT for RTX EP memanfaatkan library Tensor Core khusus GPU RTX untuk membuat mesin inferensi yang dioptimalkan per perangkat
- Mengklaim akselerasi inferensi 50%+ dibandingkan DirectML dan menekankan kemudahan deployment untuk target 100 juta+ perangkat Windows RTX
- Qualcomm Technologies: akselerasi NPU dengan QNN EP pada Snapdragon X Series, serta dukungan jalur GPU dan CPU melalui integrasi ORT
- Menyatakan niat memperluas framework terpadu hingga Copilot+ PC dan Snapdragon X2 generasi berikutnya
Contoh adopsi ekosistem
- Adobe Premiere Pro / After Effects: mempercepat pencarian media, penandaan audio, dan deteksi adegan berbasis NPU lokal, dengan rencana memindahkan model on-device ke Windows ML secara bertahap
- BUFFERZONE: analisis halaman web real-time untuk mencegah phishing/penipuan, menghadirkan skenario keamanan tanpa perlu mengirim data sensitif ke cloud
- Reincubate Camo: meningkatkan kualitas video call melalui visi real-time seperti segmentasi gambar, dengan memanfaatkan jalur NPU di semua silikon
- Dot Vista (Dot Inc.): menerapkan kontrol suara hands-free dan OCR untuk skenario aksesibilitas seperti lingkungan medis, dengan memanfaatkan Copilot+ PC NPU
- Wondershare Filmora: mengoptimalkan pratinjau dan penerapan real-time Body Effects (Lightning Twined, Neon Ring, dll.) untuk AMD·Intel·Qualcomm NPU
- McAfee: menerapkan inferensi lokal untuk deteksi deepfake dan scam, memperkuat respons terhadap lingkungan jejaring sosial
- Topaz Photo: menyediakan fitur peningkatan foto AI tingkat profesional seperti penajaman dan pemulihan fokus melalui inferensi lokal
Alat pengembang dan onboarding
- AI Toolkit for VS Code menyediakan dukungan terpadu untuk konversi PyTorch→ONNX, serta quantization, optimasi, kompilasi, dan evaluasi
- Menargetkan single build untuk Windows ML guna meminimalkan logika percabangan multi-target
- Di AI Dev Gallery, contoh model kustom dapat dipelajari secara interaktif
- Menyediakan workspace yang cocok untuk eksplorasi skenario AI berbasis model lokal dan prototyping cepat
Syarat awal dan target deployment
- Windows App SDK 1.8.1+ menyertakan Windows ML, dengan dukungan untuk perangkat Windows 11 24H2 atau lebih baru
- Setelah memperbarui ke Windows App SDK terbaru, tersedia alur sederhana berupa memanggil Windows ML API → memuat model ONNX → memulai inferensi
- Dokumentasi rinci, API, dan contoh tersedia melalui jalur ms/TryWinML dan ms/ai-dev-gallery
Makna teknis dan implikasi
- Dengan OS mengambil alih manajemen siklus hidup ORT dan EP, aplikasi dapat berfokus pada model dan logika inferensi ringan
- Dengan menyerap fragmentasi perangkat keras dan mengotomatisasi optimasi performa dan daya, kompleksitas pengembangan dan deployment dapat dikurangi dari sisi kegunaan
- Dengan menyediakan baik desain yang memprioritaskan NPU maupun jalur GPU berperforma tinggi, fondasi AI lokal dibangun untuk memenuhi kebutuhan offline, privasi, dan biaya
- Menawarkan model operasi yang mengejar konsistensi akurasi melalui perbedaan properti dan performa EP vendor serta sertifikasi dan kesesuaian Windows
- Dari sisi ekosistem, aplikasi representatif di domain video, keamanan, aksesibilitas, dan kreatif telah mengisyaratkan adopsi, sehingga cakupan AI on-device di Windows diperkirakan meluas
- Pengembang diharapkan dapat meningkatkan kecepatan produkisasi melalui pipeline persiapan model (konversi·quantization) → penetapan kebijakan EP → otomatisasi deployment
Hal-hal yang perlu diperhatikan dan batasan
- Kualitas optimasi EP dan pengelolaan variasi performa/akurasi antar perangkat menjadi tantangan utama
- Diperlukan strategi cache dan pembaruan untuk AOT model dan distribusi EP dinamis, serta manajemen rilis untuk menjaga kompatibilitas
- Pembagian tumpang tindih dan peran dengan DirectML yang ada, SDK vendor, dan runtime lintas platform akan menjadi variabel dalam pengambilan keputusan arsitektur
- Untuk lini produk multi-OS, perlu meninjau trade-off antara core inferensi bersama vs. jalur khusus Windows
Kesimpulan
- Peluncuran resmi Windows ML menjadi titik balik bertahap yang memajukan Windows 11 sebagai lingkungan eksekusi dasar untuk AI lokal
- Dengan abstraksi perangkat keras, otomatisasi deployment, dan integrasi alat, hambatan menuju produkisasi diturunkan, sambil memperkuat responsivitas, privasi, dan efisiensi biaya melalui pemaksimalan pemanfaatan NPU/GPU
- Seiring adopsi oleh aplikasi-aplikasi utama dan optimasi EP vendor yang semakin terhubung, AI on-device di seluruh ekosistem Windows diperkirakan akan berkembang pesat
1 komentar
Komentar Hacker News
Seiring dengan fitur Apple Intelligence baru yang baru-baru ini diumumkan Apple, saya pikir pada akhirnya perangkat apa pun bisa menjadi win-win karena baik pengembang maupun konsumen dapat membuat dan menggunakan aplikasi yang berfokus pada privasi