Arsitektur Komputasi CDNA 3 AMD
- AMD memiliki sejarah panjang dalam upayanya meningkatkan pangsa pasar komputasi GPU.
- Sejak arsitektur Tesla milik Nvidia, AMD terus berupaya mengejar.
- Terascale 3 mengubah VLIW5 menjadi VLIW4 untuk meningkatkan pemanfaatan unit eksekusi pada beban kerja komputasi.
- GCN menggantikan Terascale dan menekankan kinerja yang konsisten untuk aplikasi GPGPU maupun grafis.
- AMD memisahkan pengembangan arsitektur GPU ke dalam lini CDNA dan RDNA yang terpisah, masing-masing dioptimalkan untuk komputasi dan grafis.
- CDNA 2 membawa keberhasilan yang cukup menonjol bagi AMD. GPU MI250X dan MI210 memenangkan sejumlah kontrak superkomputer.
- CDNA 3 memperkecil kesenjangan dengan menghadirkan seluruh kemampuan terbaik AMD. MI300X menampilkan teknologi packaging canggih melalui konfigurasi chiplet yang kompleks.
- Dari sisi memori, Infinity Cache dari lini RDNA dibawa ke dunia CDNA untuk meredakan masalah bandwidth.
- Arsitektur komputasi CDNA 3 menerima peningkatan antargenerasi yang penting untuk meningkatkan throughput dan pemanfaatan.
Tata letak GPU
- AMD memiliki tradisi menggunakan chiplet pada CPU Ryzen dan Epyc untuk memperluas jumlah core secara ekonomis.
- MI300X menggunakan strategi serupa dengan memisahkan komputasi ke dalam Accelerator Complex Dies yang disebut XCD.
- Setiap XCD mencakup sekumpulan core dan cache bersama, dan MI300X memiliki total 8 XCD yang menyediakan 304 Compute Units.
- H100 dari Nvidia memiliki 132 Streaming Multiprocessors (SMs), dan ini disajikan kepada programmer sebagai satu GPU terpadu yang besar.
- Ponte Vecchio (PVC) dari Intel menggunakan Compute Tiles dan Base Tile untuk menyediakan fungsi serupa, tetapi memiliki tantangan sebagai GPU terpadu karena keterbatasan bandwidth pada bridge EMIB.
Mengatasi masalah bandwidth
- Komputasi telah melampaui memori selama puluhan tahun, dan GPU meresponsnya dengan strategi caching yang semakin canggih.
- CDNA 2 menggunakan cache L2 sebesar 8 MB dan bergantung pada HBM2e, tetapi AMD menambahkan "Infinity Cache" yang digunakan pada RDNA(2).
- Infinity Cache adalah cache di sisi memori, dan semua lalu lintas memori melewati Infinity Cache.
- Infinity Cache pada CDNA 3 dirancang untuk optimasi bandwidth, terdiri dari 128 slice dan memberikan total bandwidth 17.2 TB/s.
Potensi tantangan bandwidth cross-die
- Infinity Fabric pada MI300X mencakup 4 IO die, masing-masing terhubung ke dua stack HBM dan partisi cache terkait.
- Bandwidth koneksi antardie dapat membatasi pencapaian bandwidth Infinity Cache teoritis saat beroperasi sebagai satu GPU logis.
Koherensi cross-XCD
- Infinity Cache tidak perlu mengkhawatirkan koherensi, tetapi cache L2 harus.
- AMD menggunakan Coherent Masters (CMs) dan Coherent Slaves (CS) pada Infinity Fabric untuk mengekspos MI300X sebagai satu GPU besar.
Cache L2
- Setiap XCD pada MI300X mencakup cache L2 sebesar 4 MB, yang memainkan peran penting sebagai cache GPU tradisional.
Cache L1
- CDNA 3 menggandakan throughput cache L1 dan meningkatkan kapasitasnya dari 16 KB menjadi 32 KB.
Scheduling dan unit eksekusi
- Melalui konfigurasi chiplet yang kompleks dan hierarki cache yang dimodifikasi, AMD menyajikan MI300X sebagai satu GPU tunggal.
- CDNA 3 menghadirkan peningkatan iteratif pada arsitektur inti Compute Unit milik CDNA 2, yang sebelumnya mengalami kesulitan dalam pemanfaatan unit FP32.
Operasi matriks
- Perkalian matriks menjadi semakin penting seiring meningkatnya penggunaan machine learning.
- MI300X menggandakan throughput matriks per CU, meningkatkan kinerja dibandingkan generasi CDNA sebelumnya.
Cache instruksi
- CDNA 3 meningkatkan kapasitas cache instruksi menjadi 64 KB dan menggandakan associativity dari 4-way menjadi 8-way.
Kata penutup
- Perubahan generasi terbesar pada CDNA 3 ada pada hierarki memori, dengan penambahan Infinity Cache sebagai peningkatan utama.
- AMD secara signifikan meningkatkan bandwidth antardie untuk menjadikan MI300 sebagai satu akselerator terpadu yang besar.
Opini GN⁺
- Arsitektur CDNA 3 menandai kemajuan penting yang memperkuat daya saing AMD di bidang komputasi GPU.
- Pengenalan Infinity Cache merupakan pendekatan inovatif untuk mengatasi masalah bandwidth memori, yang sangat penting khususnya bagi aplikasi komputasi berkinerja tinggi yang menangani set data berskala besar.
- Strategi AMD dalam menyajikan MI300X sebagai satu GPU tunggal mengurangi kompleksitas pemrograman dan memungkinkan developer memanfaatkan sumber daya dengan lebih efisien, sehingga lini produk GPU AMD dapat menjadi lebih menarik bagi pasar yang lebih luas.
1 komentar
Komentar Hacker News