Nvidia Mengusulkan Sistem CPU Monster untuk Windows PC
(twitter.com/lemire)- Sistem berkinerja tinggi NVIDIA untuk Windows PC mengusung konfigurasi chip dengan memori bersama 128GB yang dipakai CPU·GPU secara bersamaan dan menyediakan hingga 6.144 CUDA core
- CPU memiliki 10 performance core dan 10 efficiency core, dengan performance core berbasis Cortex-X925; SVE2 berada di bawah chip AMD terbaru tetapi lebih baik daripada Apple Silicon
- Pembeda utamanya adalah memori terpadu yang tidak memisahkan memori CPU dan GPU; meski lebih lambat daripada memori GPU khusus, strukturnya menargetkan kebutuhan bandwidth dan biaya untuk menjalankan model AI lokal
- Ada pandangan bahwa permintaan untuk menjalankan model AI lokal masih merupakan aplikasi niche, dan ada pula pandangan bahwa memori bersama 128GB bisa lebih penting daripada puncak GPU TFLOPs untuk eksperimen skala mahasiswa
- Titik perbandingannya mencakup AMD Strix Halo, Intel Xe3P AI GPU, dan AVX-512 pada prosesor AMD terbaru, serta keterbatasan bahwa RAM yang disolder sulit diganti setelah pembelian
Spesifikasi sistem dan struktur memori
- Sistem CPU untuk Windows PC yang diajukan Nvidia hadir dengan memori bersama 128GB dan hingga 6.144 CUDA core terbaru
- CPU terdiri dari 10 performance core dan 10 efficiency core, dengan performance core berbasis Cortex-X925
- SVE2 pada Cortex-X925 dibandingkan berada di bawah chip AMD terbaru dari sisi spesifikasi, tetapi lebih baik daripada Apple Silicon
- Prosesor AMD terbaru semuanya mendukung AVX-512, dan AVX-512 dibandingkan jauh lebih unggul daripada SVE2 pada Cortex-X925, dapat memproses lebih banyak data, serta lebih serbaguna
- Intel sejauh ini bersikap hati-hati dalam menghadirkan AVX-512 pada sistem konsumen
- Memori terpadu 128GB adalah pendekatan yang memakai satu pool tunggal alih-alih memori terpisah untuk CPU dan GPU, struktur yang sama seperti jalur yang dipilih Apple beberapa tahun lalu
- Memori terpadu makin populer dan, meski tidak lebih cepat daripada memori GPU khusus, memiliki keunggulan karena cukup murah untuk menyediakan bandwidth yang memadai bagi eksekusi model AI lokal
- Ada pandangan bahwa pada RAM terpadu, data tidak perlu dikirim antara CPU dan GPU, dan karena semuanya berada dalam satu pool memori, rasanya seperti operasi zero-copy
- Bagaimana Intel dan AMD akan merespons menjadi hal yang menarik untuk diamati
Beragam pendapat terkait
- Belum jelas seberapa besar permintaan untuk menjalankan model AI lokal, dan untuk saat ini masih merupakan aplikasi niche
- Ada penilaian bahwa sistem ini bisa menjadi mesin yang bagus untuk video game, sementara ada bantahan bahwa ini dirancang untuk model besar, bukan gaming, sehingga mungkin tidak sebaik yang dibayangkan untuk game
- Ada klaim bahwa dalam eksperimen skala mahasiswa, memori bersama 128GB bisa lebih penting daripada puncak GPU TFLOPs, dan dapat mengubah model serta workload apa yang bisa diuji secara lokal
- Trade-off-nya, RAM tidak bisa diganti nanti dan semuanya disolder
- Soal kebutuhan kapasitas memori, ada pendapat bahwa 128GB tidak cukup dan menginginkan 256GB atau 512GB, ada juga yang berpendapat bahwa “beast” untuk pekerjaan AI memerlukan setidaknya 512GB, bahkan ada yang menginginkan opsi memori terpadu 1TB
- Jawaban singkat penulis tentang alasan memilih 128GB adalah "biaya"
- Terkait sistem operasi, ada keluhan bahwa ini tidak menjalankan “regular Windows”, disertai kekecewaan terhadap OS, dan usulan untuk memasang Linux
- AMD Strix Halo adalah produk serupa dengan memori terpadu 128GB dan iGPU besar, serta menjadi pembanding dengan AVX-512 pada Zen 5 desktop
- Dari pengalaman menggunakan AMD Strix Halo selama beberapa bulan untuk homelab LLM lokal, menjalankan LLM kelas prosumer memang memungkinkan, tetapi bottleneck sebenarnya adalah bandwidth memori
- Untuk chip Nvidia baru ini, diajukan kebutuhan bandwidth memori di atas 300GB/s
- RTX5090 bisa lebih murah untuk model kecil yang lebih cepat jika sudah memiliki desktop, sementara lini board ini lebih cocok untuk model lokal yang lebih besar
- Keunggulan menjalankan AI secara lokal adalah tidak mengirim data rahasia dan data pelanggan ke pihak ketiga dengan tanggung jawab yang tidak jelas, menghindari langganan SaaS dan harga token, serta terhubung dengan skenario di mana model lokal mempelajari perilaku penggunaan PC untuk mengeksekusi pekerjaan
- Model lokal dapat berjalan sebagai fungsi yang tidak terlihat oleh pengguna, dan pekerjaan yang membutuhkan kecerdasan lebih tinggi atau konteks lebih banyak dapat di-offload ke jarak jauh
- Intinya bukan model lokal itu sendiri, melainkan platform perangkat lunak yang mendukung aplikasi AI terintegrasi, serta cara menjaga desktop tetap relevan
- Contoh bahwa menjalankan Google Chrome bisa menjadi use case AI lokal merujuk ke dokumentasi Chrome built-in AI
- Item pembanding Intel Xe3P AI GPU mencakup 160GB LPDDR5X, kemungkinan hingga 480GB, antarmuka memori 640-bit, konfigurasi PCIe x16: https://tomshardware.com/pc-components/gpus/…
1 komentar
Komentar Hacker News
Pool memori terpadu tampaknya akan terus menjadi “game changer”, terutama untuk arsitektur sistem di luar data center
Game modern atau beban kerja konsumen sebenarnya juga tidak sepenuhnya memakai bandwidth PCIe GPU atau bandwidth memori GDDR, dan untuk AI lokal pun manfaat memori yang lebih cepat tidak terlalu besar bagi konsumen rata-rata
Memori terpadu memungkinkan optimasi pemanfaatan sesuai kebutuhan, dan menurunkan biaya total memori pada perangkat kecil dan portabel karena tidak perlu memikirkan pembagian GDDR/DDR secara terpisah
Kekurangannya adalah keamanan, karena serangan side-channel memori di sisi GPU atau CPU bisa merambah ke sisi lain, jadi desain keamanan memori tampaknya akan makin penting ke depan, dan ini terlihat seperti arah yang bagus bagi para pendukung Rust
Dalam game, yang penting bukan menyaturasi hardware, melainkan menghasilkan output yang konsisten dalam batas waktu frame
Bahkan jika ingin menyaturasi 5090 dengan game, pasar sasarannya kecil, dan agar frame rate tercapai, spesifikasi nyata pengguna juga harus bisa berjalan sebaik mesin pengujian
Salah satu perbedaan terbesar antara konsol generasi sekarang dan PC generasi sekarang adalah memori terpadu
Untuk 99% pekerjaan, memori sistem yang dibutuhkan setidaknya satu digit kali lebih besar daripada memori GPU, dan sebagian besar sistem hampir tidak memerlukan memori GPU lebih dari yang dibutuhkan untuk video, browsing, dan sejenisnya
Munculnya use case baru tidak otomatis membalik struktur itu sepenuhnya; kalau sekarang butuh 128GB dan AI lokal juga butuh 128GB, maka untuk terus melakukan keduanya tetap perlu 256GB
Justru ini lebih mirip argumen bahwa memori semahal itu sebaiknya tidak dipakai di GPU, dan untuk inferensi saja mungkin memang benar
Dalam arsitektur memori terpadu, banyak performa yang harus dikorbankan; dalam situasi tertentu masuk akal, tetapi ini bukan solusi serbaguna
Saya tidak tahu berapa banyak orang yang menjalankan model AI secara lokal, dan ini masih terlihat seperti ceruk, tetapi melihat rilis Gemma baru-baru ini, dari sisi biaya saja kemungkinan menjalankan sebagian model secara lokal sudah makin besar
Jika mempertimbangkan keamanan perusahaan, itu makin masuk akal, tetapi saya tetap tidak begitu paham kenapa arsitektur seperti ini bagus untuk gaming, jadi saya meragukan keseluruhan kalimat di tulisan aslinya
Tambahan lagi, menempelkan frasa seperti “Stanford/Elsevier 2025 top 2% ilmuwan dunia, top 1000 developer GitHub” di mana-mana justru terasa kontraproduktif
Saya sudah mendistribusikannya ke beberapa MacBook M5 dan dalam banyak tugas itu benar-benar berguna
Memang belum bisa menggantikan model sekelas Opus atau Sonnet generasi sekarang, tetapi kualitasnya mengejutkan untuk ukurannya, dan tampak setara dengan era Sonnet 4 atau sedikit sebelumnya
Dalam tool calling, coding, dan tugas agent, model ini jauh lebih stabil daripada model Gemma, dan terutama lebih cepat saat memakai MTP
Saya tidak paham kenapa economies of scale seperti pada beban komputasi lain tidak berlaku di sini
Saya tidak ingin meremehkan pekerjaan penulisnya, tetapi tulisan ini terasa seperti ditulis hanya dengan melihat tabel spesifikasi, bukan dari peninjauan yang benar-benar mendalam
Jumlah core-nya memang sama dengan 5070 mobile, tetapi bandwidth puncak bersama dan TDP puncak bersama masing-masing hanya sekitar 2/3-nya, jadi performa GPU murninya kemungkinan hanya sekitar setengah dari unit dedicated
Apple memang tidak punya SVE2, tetapi punya AMX privat dan SME, dan saya tidak mengerti kenapa SVE2 dianggap akan lebih cepat daripada SME
Jenis core tunggal memang dibahas, tetapi konfigurasi keseluruhannya tidak, dan bagaimana DGX Spark dibandingkan dengan chip Apple sebenarnya sudah diketahui sejak setahun lalu
CPU-nya kira-kira setingkat M3 Pro, komputasi GPU-nya berada di antara M4 Pro dan M4 Max jika bandwidth dikesampingkan, dan satu-satunya keunggulan nyatanya hanyalah bisa menjalankan CUDA
Saat rilis, kemungkinan akan tertinggal 2–3 generasi dari Apple dan 1 generasi dari AMD, dan NIC yang bisa mengikat beberapa unit bersama—yang juga merupakan salah satu kekuatan DGX Spark—juga tidak ada di sini
Di Spark, ini jauh lebih cepat daripada di M5 Max, dan jika dibandingkan dengan model yang sama, kuantisasi yang sama, query yang sama, dan pengaturan vllm yang sebisa mungkin sama, pada pekerjaan dengan prompt besar dan kemungkinan cache rendah, satu Spark sering kali sudah selesai menjawab sebelum MBP menyelesaikan prefill
Dalam hal itu Apple memang unggul, tetapi performa komputasi GPU Spark jauh lebih tinggi daripada 17 FP32 TFLOPS milik M5 Max, kira-kira sekitar 2 kali lipat
Ia memiliki 6144 CUDA core seperti 5070 desktop, dan karena diperlambat oleh memori yang lebih lambat serta TDP yang lebih rendah, hasilnya sekitar 29,7 dibanding 31 FP32 TFLOPS pada 5070
Secara keseluruhan, Spark lumayan, tetapi tidak luar biasa
Rasanya seperti baru sekarang menyadari chip yang sebenarnya sudah lama dikenal industri, hampir tidak tahu apa-apa tentang produk pesaing, lalu mengunggah kata-kata seperti “BEAST” dan “GAME CHANGER”
Kalau ditanya apakah DGX Spark juga game changer, kebanyakan jawabannya adalah kekecewaan besar, dan satu laptop Nvidia yang mahal tampaknya tidak akan mengubah keadaan
Qualcomm Snapdragon X2 Elite Extreme jauh melampaui chip Nvidia dalam performa CPU single-core, dan bahkan mengalahkan produk terbaik Intel dan AMD.
Ia juga punya memori terpadu, dan merupakan satu-satunya CPU yang berada di liga yang sama dengan seri Apple M baik dalam performa CPU maupun efisiensi daya.
Produk ini sudah bisa dibeli dalam bentuk laptop sekarang, bukan akhir tahun nanti, tetapi orang-orang masih meremehkan Qualcomm.
Kalau tidak bisa mendukung Linux, hampir tidak ada artinya, dan platform yang penting di bidang ini hanya ada dua: Linux dan Darwin.
Qualcomm seperti AMD dulu di GPU selama puluhan tahun: banyak pengumuman dan banyak penggemar internet yang membaca halaman webnya, tetapi saat benar-benar mencoba menjalankannya, hasilnya seperti mimpi buruk.
Snapdragon X Elite tidak berjalan di Linux, jadi tidak berguna sebagai platform, sampai-sampai para power user membuat M1 berjalan lebih baik, sehingga orang akhirnya memilih Mac lama ketimbang Qualcomm.
Pembanding yang tepat seharusnya X930 atau C1 yang dipakai di Mediatek Dimensity 9500, yaitu kelas Snapdragon 8 Elite Gen 5 / X2 Elite.
Qualcomm memang masih unggul dalam performa, tetapi selisihnya terus menyusut, dan yang lebih penting, Nvidia membangun ekosistem jauh lebih baik.
Nvidia punya kanal distribusi dan mitra yang jauh lebih kuat berkat GPU gaming PC-nya, dan hubungan dengan para pengembang game tak tertandingi di industrinya.
Qualcomm masih belum menunjukkan eksekusi yang meyakinkan baik di CPU PC maupun server.
Pengalaman buruk di masa lalu terlalu banyak, jadi orang wajar ragu, dan meski sekarang tampaknya mereka berusaha lebih keras, butuh waktu untuk memulihkan reputasinya di pasar PC.
Siaran pers perangkat nyatanya ada di sini.
https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
Cukup mengejutkan karena hanya sedikit yang menyoroti bahwa Microsoft dan khususnya NVIDIA pada dasarnya merilis perangkat yang berbenturan dengan model AI cloud berbayar per pemakaian.
Jika melihat pengumuman dan sinyal lain seperti BYOK offline Copilot yang lebih baik dan masa depan AI tanpa batas, tampaknya kedua perusahaan memahami bahwa AI cloud-only tidak berkelanjutan dan juga tidak secara mendasar menguntungkan bagi mereka.
Tetap saja, sikap yang seolah ingin melemahkan OpenAI lewat produk seperti ini cukup menonjol.
Microsoft sedang mendorong AI lokal dengan sangat kuat.
Saya tidak yakin LLM lokal akan diadopsi secara luas kecuali harganya benar-benar tidak naik.
Menggunakan model kecil hosted yang lebih murah seperti Sonnet atau Kimi masih masuk akal, dan perangkat seperti ini kemungkinan tidak akan bisa menjalankan model setingkat Kimi, padahal level itu adalah batas bawah untuk pekerjaan agen yang bukan sekadar mainan.
Menghabiskan $5,000 demi menghindari langganan $20 sulit masuk akal kecuali untuk alasan keamanan yang sangat khusus.
Pernah lihat Dungeon Crawler Carl?
Sepertinya kebanyakan orang belum benar-benar memahami apa yang akan ditawarkan laptop seperti ini.
Sebelum AI lokal penuh, kemungkinan besar kita akan lebih dulu memakai AI hibrida.
Menjalankan model besar secara lokal memang tidak realistis, tetapi jika dalam workflow agen sebagian berjalan di cloud dan tugas-tugas yang lebih kecil berjalan lokal, itu kombinasi yang sangat bagus.
Untuk tugas dasar, kita tidak butuh model seperti Opus/Code/DeepSeek/Kimi; model seperti Gemma4:12b/Qwen-27b bisa menanganinya secara lokal dengan latensi jauh lebih rendah.
Jika ada laptop yang bisa menggabungkan model besar jarak jauh dan lima model lokal khusus domain, saya ingin memakainya sekarang juga.
Saya bisa membayangkan OpenCode menilai tugas mana yang cocok dijalankan model kecil secara lokal, lalu memutuskan apakah ada model lokal yang sesuai untuk tugas tertentu atau harus memakai model cloud.
Kekhawatirannya adalah apakah hardware ini cukup kuat untuk menangani pergantian model lokal yang cepat, dan saya rasa kemungkinan tidak, meski saya berharap saya salah.
Frontier model sekarang pun sudah mencetak benchmark yang lebih baik hanya dengan 200,000 token, dan distilasi masih punya ruang perkembangan yang sangat besar.
Saya tidak yakin bagian mana yang membuat ini disebut “monster”.
Bandwidth memori 300GB/s hanya sedikit lebih tinggi dari 256GB/s milik AMD Strix Halo, dan bahkan tidak sampai setengah dari 614GB/s milik M5 Max 128GB dengan konfigurasi RAM 128GB yang sama.
Karena kebanyakan orang yang tertarik kemungkinan penggemar AI, wajar kalau bandwidth memori ditekankan, apalagi ini Windows.
Workflow 256k token yang di M5 butuh waktu hampir dua kali lebih lama sampai token pertama keluar, di sini tampaknya bisa dijalankan secara realistis.
AMD adalah perangkat x86 sehingga semuanya bisa dijalankan, Apple memelihara seluruh stack MacOS, tetapi Nvidia nyaris memalukan karena untuk tiap generasi Jetson saja mereka seperti hanya sanggup mengejar satu rilis Ubuntu.
Akan bagus kalau agen yang terus mereka gembar-gemborkan benar-benar dipakai untuk pekerjaan dukungan sistem operasi.
Saya benar-benar penasaran apa bedanya dengan sesuatu seperti AMD Ryzen AI Max yang sudah bisa dibeli dan mendukung memori terpadu 128GB.
Saya tidak tahu siapa yang pada 2026 masih terobsesi dengan istilah “Windows PC”
Itu cuma komputer pribadi, dan biasanya bisa menjalankan beberapa sistem operasi dengan baik
Ungkapan Windows PC terdengar seperti orang yang dibayar Microsoft, atau seperti orang yang membicarakan teknologi dengan cara mengirim dokumen Word berisi gambar
Tidak perlu memaksa keseruan perangkat yang tidak terikat sistem operasi agar terikat pada sistem operasi yang payah
Kemungkinan mereka membeli lebih banyak PC daripada gabungan seluruh pasar lainnya
Bahkan untuk penggunaan pribadi pun, orang yang melakukan dual-boot Windows dan sistem operasi lain mungkin hanya minoritas yang sangat kecil
“Windows PC” adalah istilah yang cukup masuk akal untuk membedakan “buatan Apple” dan “buatan selain Apple”, dan pasar PC yang bukan buatan Apple sekaligus tidak berbasis Windows sebagai default itu benar-benar kecil
Sejujurnya aneh melihat sikap seagresif ini terhadap topik seperti ini
Kata PC bisa berarti semua komputer pribadi dalam makna aslinya, atau bisa juga berarti keluarga IBM PC yang dibedakan dari Mac, jadi memang ambigu
Coba ingat iklan “I'm a Mac, I'm a PC”
Kalau cuma dibilang PC, orang zaman sekarang benar-benar bisa bingung maksudnya yang mana, dan “IBM PC” terdengar usang, sementara “IBM PC clone” lebih buruk lagi
Jadi “Windows PC” adalah nama yang cukup bagus, dan “Non-Mac PC” juga terasa kurang enak
Tidak perlu mengatakannya dengan nada menghina
Alasan orang masih memakai Windows di desktop perusahaan atau sebagian desktop rumahan seperti untuk gaming tetaplah kompatibilitas perangkat keras dan perangkat lunak
Mereka memakainya karena pekerjaan mereka membuat program Windows, dan juga memakai driver yang masih belum ada di Win-for-ARM
Jadi bagi kebanyakan orang, “Windows PC” tetap berarti PC Windows x64
Jika kompatibilitas Windows-Arm64 tidak cukup memadai, risiko bagi Microsoft adalah orang-orang bisa saja justru meninggalkan Windows itu sendiri karena toh tetap membutuhkan perangkat lunak dan perangkat keras baru
Hackintosh Nvidia terkutuk memang akan sangat lucu
Bagi pengguna umum, sistem operasi komputer hanya ada tiga: Windows, Apple, dan ChromeOS; Nvidia tidak akan memilih ChromeOS, dan Apple membenci Nvidia, jadi satu-satunya sistem operasi normal yang bisa dipasarkan hanyalah Windows
Pemasarannya memperjelas bahwa perangkat ini bukan Chromebook murahan yang merusak pengalaman desktop banyak orang
Qualcomm pernah menjanjikan dukungan Linux lalu gagal mewujudkannya, dan orang yang sudah kecewa oleh janji itu tidak akan mau membeli perangkat keras itu lagi
Kalau menjanjikan Windows PC, alasan untuk mengeluh bahwa Linux, FreeBSD, atau SerenityOS tidak bisa boot jadi berkurang, dan melihat kegagalan Qualcomm, tampaknya Nvidia mungkin memang mengambil pilihan yang benar