Masa depan AI AMD adalah 'Helios' berskala rack

(morethanmoore.substack.com)

1 poin oleh GN⁺ 2025-06-16 | 1 komentar | Bagikan ke WhatsApp

GPU AMD Instinct MI355X menghadirkan performa komputasi AI dua kali lipat, memori HBM lebih besar, dan efisiensi token/$ 40% lebih baik dibanding NVIDIA
Perangkat lunak ROCm 7 menekankan peningkatan performa sekaligus dukungan Day-0, dengan fokus pada perluasan ekosistem AI
Solusi terintegrasi skala rack menyediakan infrastruktur AI turnkey yang menggabungkan CPU+GPU+jaringan AMD
Roadmap: pada 2026, AMD mengisyaratkan arsitektur generasi berikutnya dan rack Helios dengan performa 4x, HBM4, dan skalabilitas
Efisiensi energi: menargetkan peningkatan efisiensi 20x pada level rack hingga 2030, dengan mendorong inovasi bersama di perangkat keras dan perangkat lunak

Ringkasan lengkap

Langkah AMD yang bertumpu pada pertumbuhan AI skala rack

Seiring lonjakan permintaan perangkat keras AI, semua perusahaan semikonduktor utama di industri berfokus pada percepatan pertumbuhan dan perebutan pangsa pasar
AMD dengan cepat masuk ke pasar GPU server AI melalui Instinct MI300X, lalu mencatat pendapatan bermargin tinggi yang sukses berdasarkan pengalaman merilis arsitektur pertamanya yang berfokus penuh pada fitur inti dan performa
Dengan momentum itu, AMD mengumumkan strategi untuk terus memperluas posisinya melalui perangkat keras server AI generasi berikutnya

Inovasi terperinci pada akselerator Instinct MI350

Lompatan besar dalam performa komputasi AI

Seri Instinct MI350 dibangun di atas arsitektur CDNA4 baru, dengan struktur yang meningkatkan throughput komputasi matriks (komputasi tensor) per clock lebih dari dua kali dibanding MI300X
Seri ini mendukung secara penuh pemrosesan floating point presisi rendah seperti FP6 dan FP4, mengurangi beban inferensi sekaligus meningkatkan total volume komputasi secara signifikan
Untuk komputasi FP6, desainnya ditujukan agar dapat memproses dua kali lebih cepat dibanding NVIDIA Blackwell, demi mengejar keunggulan performa
Konfigurasi memorinya juga ditingkatkan besar-besaran, termasuk memori 288GB HBM3E (8 stack) dan bandwidth 8TB/sec
Chip raksasa dengan 185 miliar transistor ini dibangun dengan proses TSMC N3P dan struktur die stacking yang efisien

Beragam SKU dan tren performa tinggi/daya tinggi

Tersedia dalam MI355X khusus pendingin cair (2.4GHz, 5PFLOPS) dan MI350X berpendingin udara (2.2GHz, 4.6PFLOPS)
Konsumsi dayanya lebih tinggi dibanding MI300X: versi pendingin udara 1000W, dan versi pendingin cair 1400W
Jika satu rack dipasangi 128 unit MI355X, GPU saja dapat mengonsumsi daya hingga kelas 180kW
Daya saing harga juga ditekankan, dengan proyeksi keunggulan lebih dari 40% pada token/$ dibanding NVIDIA (30% lebih murah)
Pengiriman ke mitra dimulai pada kuartal 3 2024, meski laju pasokan aktual masih dapat berubah

Strategi perangkat lunak ROCm 7

Dukungan Day-0 dan maksimalisasi performa

ROCm 7 mendorong peningkatan menyeluruh untuk dukungan akselerator CDNA4 dan seri MI350, performa, serta manajemen enterprise
Menargetkan dukungan Day-0 untuk framework utama seperti Pytorch
Pada kuartal 3 2024, dukungan untuk Pytorch native di Windows, runtime ONNX, dan GPU RDNA 4/3 juga mulai tersedia
Hanya melalui optimisasi perangkat lunak, performa generasi MI300X di ROCm 7 meningkat hingga 3,8x dibanding ROCm 6
Melalui ROCm Enterprise AI, AMD menyediakan alat khusus enterprise untuk pengoperasian klaster AI skala besar, fine-tuning model, dan lainnya

Ekosistem jaringan yang lengkap: Pollara 400 AI NIC

Setelah mengakuisisi Pensando, AMD meluncurkan kartu jaringan pertamanya, Pollara 400 AI NIC (400G Ethernet, proses TSMC N4)
Dengan skalabilitas dan fungsi NIC P4 yang dapat diprogram, kartu ini mendukung konfigurasi rack superkomputer berbasis AMD
Sebagai AI NIC pertama yang kompatibel dengan Ultra Ethernet Consortium, produk ini menyiapkan fondasi untuk jaringan ekspansi generasi berikutnya

Roadmap masa depan skala rack berbasis MI400

MI400 (2026): menargetkan performa AI dua kali lipat berbasis FP8, bandwidth HBM4 432GB/19.6TB/sec, dan penerapan arsitektur generasi baru (CDNA Next)
Dengan Ultra Accelerator Link, skala dapat diperluas dari 8 GPU menjadi 1024 GPU untuk mendukung pemrosesan paralel berskala besar
Sistem rack Helios: menggabungkan MI400, EPYC Venice (generasi ke-6), dan Vulcano (800G NIC), sambil menonjolkan keunggulan memori/jaringan dibanding kubu generasi berikutnya (NVIDIA Vera Rubin)
Melalui roadmap yang terbuka, AMD memaparkan rencana inovasi arsitektur inti CPU, GPU, dan sistem rack setiap tahun
AMD menargetkan efisiensi energi skala rack 20x dan efisiensi keseluruhan 100x hingga 2030, dengan fokus pada optimisasi perangkat keras dan perangkat lunak

Kesimpulan

AMD membidik kepemimpinan yang terdiferensiasi di pasar infrastruktur AI melalui seri Instinct MI350~Helios, CDNA 4~Next, dan solusi turnkey skala rack
Dalam waktu dekat, MI350 baru, arsitektur CDNA4, dan perangkat lunak ROCm 7 diperkirakan menjadi poros utama
AMD menjalankan strategi untuk memperkuat performa, biaya, skalabilitas, dan efisiensi dalam persaingan pasar server AI melawan NVIDIA

1 komentar

GN⁺ 2025-06-16

Komentar Hacker News

Kesan saya, penggunaan ROCm benar-benar sangat bervariasi tergantung kasusnya, dan dukungan untuk kartu grafis konsumen juga terus terang terasa sulit dipercaya; saya sempat berharap ini bisa jadi alternatif, tetapi setelah pindah ke CUDA saya bisa sangat mengurangi masalah merepotkan dan buang-buang waktu, terutama persoalan benchmark MiOpen di HIP yang memakan waktu terlalu lama
Rasanya cerita yang sama terus berulang sejak sekitar 2010 ketika CUDA mulai naik daun untuk komputasi ilmiah; saya tidak mengerti bagaimana setelah 15 tahun AMD masih belum bisa meniru pola keberhasilan itu, dan sekarang, ketika NVIDIA sudah sepenuhnya menguasai ekosistem perangkat lunak, rasanya semuanya sudah sangat terlambat
Saya berharap ada orang yang benar-benar paham perangkat lunak yang disediakan AMD menjelaskan gambaran besarnya; saya penasaran SDK mana yang benar-benar bisa dipakai untuk inferensi atau pelatihan neural network, opsinya terlalu banyak sehingga setelah mencoba mencari tahu cukup lama pun arahnya terasa terpecah ke terlalu banyak jalur, jadi sulit memahami sebenarnya mereka sedang menuju ke mana
Ada kesan bahwa Jensen benar-benar punya keahlian mendalam dalam stack CUDA dan bidang workstation; AMD perlu menyadari bahwa mereka tidak bisa sekadar membesarkan perangkat keras, tetapi harus melampaui stack seperti ini sendiri; kebanyakan orang di pasar tidak mau belajar lama untuk memahami stack yang rumit demi struktur dengan pangsa pasar bahkan tidak sampai 10%
Kenyataannya hampir tidak ada pengembang yang memanggil CUDA API secara langsung, jadi menurut saya fokus utama AMD harusnya memastikan backend ROCm terhubung dengan baik ke XLA dan PyTorch; hanya dengan itu saja mereka bisa menembus pasar yang cukup besar; dan seperti Nvidia sekitar belasan tahun lalu, saya rasa AMD juga harus membagikan GPU gratis ke universitas dan tempat lain untuk membesarkan ekosistem peneliti; sekarang karena kekurangan sumber daya komputasi AI, kebanyakan universitas hanya memakai perangkat keras yang sudah tertinggal 2–3 generasi; kalau AMD bisa menyediakan GPU yang stabil dengan harga setengahnya, mahasiswa doktoral akan masuk ke ekosistem AMD secara alami, dan pengalaman itu bisa tersambung ke industri
Saat orang membicarakan CUDA, biasanya yang terbayang hanya C, padahal sejak CUDA 3.0 C++ sudah jadi dasar, dan dukungan Fortran juga ada; NVIDIA aktif mendukung agar berbagai bahasa bisa memanfaatkan lingkungan PTX; pada 2025 juga ada rencana memperkenalkan Python CUDA JIT DSL; bahkan bukan versi terbaru pun, CUDA SDK bisa berjalan di laptop entry-level, jadi meski perangkat keras lemah orang tetap bisa belajar pelan-pelan
Saya sudah sering mendengar hal-hal buruk tentang dukungan perangkat lunak untuk perangkat keras entry-level; pintu masuk dengan hambatan rendah seperti ini sangat penting; sebaliknya, jika fokus pada perangkat keras data center, portofolionya bisa dipadatkan sambil tetap mendapat akses lebih luas lewat penyedia cloud; saya berharap ada perangkat pemula seperti workstation MI350-A, tetapi kenyataannya itu tampak sulit terwujud
Dari sudut pandang saat ini, saya merasa ada masalah internal serius di AMD yang menyebabkan stack perangkat lunaknya tertinggal; mereka punya cukup waktu untuk mendengar suara pelanggan dan memperbesar tim untuk berbagai masalah, tetapi kemajuan nyatanya tetap minim; insentif kompensasinya juga besar, jadi perubahan yang sedikit terasa aneh; saya setuju CEO Lisa Su adalah manajer hebat, tetapi mungkin karena latar belakangnya perangkat keras, dia kurang agresif mendorong inovasi perangkat lunak
Ada pendapat bahwa dukungan ROCm masih bukan isu besar bagi pengguna AI umum; berkat Vulkan API yang sudah sekitar 10 tahun ada di driver standar AMD, aplikasi LLM one-click utama seperti llama.cpp dan LM Studio tetap bisa berjalan; memang lebih lambat, tetapi tetap lingkungan yang benar-benar bisa dipakai
Tentang persaingan AMD dan NVIDIA di masa depan, ada komentar bercanda: "Kalau masa depan itu benar-benar jadi kenyataan, kami akan menghubungi Anda lebih dulu"
Pertanyaan singkat: "Apakah Bob Page yang memimpin ini?"
Ada yang bilang mereka selalu bereaksi emosional pada kutipan game "Atropos log, abandoning Helios", dan itu selalu teringat setiap ada berita terkait
Harapan agar AMD membuat chip pelatihan yang bisa melampaui H100
Tahun lalu saya sempat mengalami beberapa masalah saat training dengan MI300X, dan bahkan ketika akhirnya bisa jalan pun performanya 20–30% lebih lambat dibanding H100; belakangan saya mencoba pelatihan DPO OpenRLHF (berbasis transformers/DeepSpeed) dengan ROCm dan PyTorch terbaru, dan untuk pekerjaan singkat 12 jam, performa per jam GPU-nya cenderung hampir setara dengan H200; dulu saya menguji pada node berisi 8 GPU, sekarang bereksperimen dengan satu GPU MI300X, jadi ini bukan perbandingan yang sepenuhnya adil, dan training multi-GPU atau multi-node masih tanda tanya, jadi anggap saja ini satu sampel tunggal
Kalau mengingat H100 sudah dirilis 3 tahun lalu, selisihnya terasa makin besar; begitulah laju inovasi terasa
Saya menangkap maksudnya mereka sedang membicarakan chip yang relatif lebih lambat; sebenarnya seri MI300 sudah melampaui H100, dan MI400 mungkin segera rilis
Yang benar-benar penting bagi saya adalah, dari poin utama "Software++: ROCm 7 Released", seberapa banyak yang benar-benar bisa saya gunakan di laptop konsumen biasa seperti CUDA
Terus terang saya kesulitan membaca artikel itu, dan saya merasa penulisnya pantas diberi satu unit mi355 atas usahanya; AMD sama sekali tidak punya alasan untuk mendapat kepercayaan sebesar yang diberikan artikel itu; sangat mengecewakan bahwa lini RDNA4 tidak didukung ROCm selama berbulan-bulan; sikap AMD seolah dukungan pada day 120 itu cukup sudah terasa tidak bertanggung jawab; dan mereka juga tidak menjelaskan dengan jelas dari mana performa benchmark itu sebenarnya berasal; saya sangat curiga mereka jelas membandingkan performa FP4 dengan FP8 atau 16 lalu hasilnya dikutip secara keliru
Masih mengejutkan dan membingungkan bahwa ROCm tidak benar-benar diinvestasikan untuk konsumen dan dukungannya datang terlambat, tetapi belakangan ada kabar AMD resmi mengumumkan dukungan day 1 juga untuk kartu klien; tentu yang penting adalah apakah mereka benar-benar menepati janji itu, dan tampaknya AMD akhirnya mulai sadar betapa pentingnya mendukung ROCm secara kokoh di seluruh stack; sampai terasa aneh bahwa ini perusahaan yang membuat Ryzen dan Radeon sekaligus; menurut saya Radeon tahun ini tampil cukup baik, jadi sayang sekali dukungan resmi ROCm untuk RDNA4 datang terlalu lambat; meski begitu, kesan pertama pada produk konsumen lewat 9070 XT dan FSR4 tidak buruk, dan berbeda dari masa lalu ketika AMD cenderung menghindari peluang, sekarang setidaknya ada pergerakan, jadi saya sangat berhati-hati optimistis; semoga janji seperti ini bisa bertahan lama, tautan terkait
AMD tampaknya memang tidak terlalu tertarik pada dukungan komputasi di GPU konsumen, tetapi untuk GPU data center mereka menyediakan stack perangkat lunak dan dukungan yang cukup bagus
Menanggapi kutipan komentar asli, 'rasanya tulisan ini memberi AMD terlalu banyak kepercayaan', ada yang memastikan lagi apakah yang dimaksud mungkin Ryan Smith yang terkenal dari AnandTech, tautan
AMD sekarang hanyalah perusahaan pemasaran, demikian klaimnya, dengan nuansa bahwa pada dasarnya mereka bersaing di pasar lewat pemasaran, bukan kemampuan teknis

Masa depan AI AMD adalah 'Helios' berskala rack

Ringkasan lengkap

Langkah AMD yang bertumpu pada pertumbuhan AI skala rack

Inovasi terperinci pada akselerator Instinct MI350

Lompatan besar dalam performa komputasi AI

Beragam SKU dan tren performa tinggi/daya tinggi

Strategi perangkat lunak ROCm 7

Dukungan Day-0 dan maksimalisasi performa

Ekosistem jaringan yang lengkap: Pollara 400 AI NIC

Roadmap masa depan skala rack berbasis MI400

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News