Meningkatkan Daya Saing Inferensi LLM GPU AMD (2023)
(blog.mlc.ai)-
Pentingnya MLC-LLM
- MLC-LLM memungkinkan kompilasi dan penyebaran LLM di GPU AMD menggunakan ROCm
- AMD Radeon™ RX 7900 XTX menawarkan performa 80% dari NVIDIA® GeForce RTX™ 4090 dan 94% dari RTX™ 3090 Ti
- Dukungan Vulkan membuat penyebaran LLM juga bisa dilakukan pada perangkat AMD APU seperti SteamDeck
-
Latar Belakang
- Setelah penyebaran LLM open source, banyak solusi inferensi LLM bermunculan
- Sebagian besar solusi inferensi berkinerja tinggi berbasis CUDA dan dioptimalkan untuk GPU NVIDIA
- Karena tingginya permintaan ketersediaan komputasi, menjadi berguna untuk mendukung akselerator perangkat keras yang cakupannya lebih luas
- AMD menjadi kandidat yang potensial
-
Diskusi Perangkat Keras dan Perangkat Lunak
- AMD RX 7900 XTX memiliki spesifikasi yang bisa dibandingkan dengan NVIDIA RTX 4090 dan RTX 3090 Ti
- Semua model memiliki memori 24GB, sehingga bisa menampung model dengan ukuran yang sama
- Performa FP16 milik 4090 adalah 2x lebih tinggi dari 7900 XTX, dan 3090 Ti 1,3x lebih tinggi
- RX 7900 XTX 40% lebih murah dari RTX 4090
- Alasan AMD tertinggal sebelumnya bukan karena perangkat keras, tetapi karena kurangnya dukungan perangkat lunak
-
Kompilasi Machine Learning untuk ROCm
- Kompilasi machine learning (MLC) adalah inovasi baru yang mengotomatisasi optimasi beban kerja machine learning
- MLC-LLM berbasis Apache TVM Unity dan menyediakan deployment serbaguna berkinerja tinggi untuk berbagai backend
- Melalui alur kerja berbasis Python, model bahasa dapat dikompilasi dan tata letak serta penjadwalan kernel GPU dioptimalkan
-
MLC untuk AMD GPU dan APU
- Beberapa cara untuk mendukung GPU AMD: ROCm, OpenCL, Vulkan, WebGPU
- Tumpukan ROCm adalah inisiatif AMD terbaru yang mencakup banyak komponen serupa dengan tumpukan CUDA
- Vulkan adalah standar grafis modern yang menyediakan dukungan terluas di berbagai perangkat GPU
- MLC mendukung pembuatan kode otomatis, sehingga mendukung berbagai metode tanpa perlu merekonstruksi setiap kernel GPU
-
Benchmark dengan Paket Python MLC
- Melakukan benchmark model Llama 2 7B dan 13B dengan kuantisasi 4-bit
- Performa inferensi batch tunggal mencapai 80% kecepatan NVIDIA 4090 setelah peluncuran ROCm 5.6
-
Menjalankan dengan Vulkan di SteamDeck
- Menjalankan menggunakan Vulkan memungkinkan eksekusi di SteamDeck yang dilengkapi AMD APU
- Pada ROCm, VRAM GPU dibatasi menjadi 4GB di BIOS, tetapi driver Mesa Vulkan dapat mengalokasikan hingga 16GB dengan memori terpadu
-
Diskusi dan Pekerjaan Selanjutnya
- Ketersediaan perangkat keras menjadi sorotan penting di era AI generatif
- ML compilation memungkinkan deployment serbaguna berkinerja tinggi di seluruh backend perangkat keras
- Penelitian pada GPU konsumen bisa digeneralisasi juga untuk GPU cloud
- Komunitas didorong membangun solusi berbasis alur deployment serbaguna MLC
-
Kesimpulan
- Rekayasa sistem machine learning adalah tantangan yang berkelanjutan
- NVIDIA masih memimpin bidang ini melalui inovasi, dan diperkirakan akan berubah berkat kemajuan perangkat keras dan perangkat lunak baru
- Berkat alur pengembangan ML compiler berbasis Python, dukungan optimisasi ROCm dapat diperoleh dalam hitungan jam
-
Tautan dan Terima Kasih
- Untuk panduan lebih lanjut mengenai penyebaran MLC LLM, lihat halaman proyek
- Kode sumber MLC LLM dapat dilihat di repositori resmi GitHub
- Ucapan terima kasih disampaikan kepada komunitas Apache TVM dan pengembang compiler TVM Unity
1 komentar
Komentar Hacker News
Kinerja GPU konsumen AMD (RX7900XTX) berbeda dari GPU pusat data AMD (MI300X), karena ini disebabkan oleh perbedaan arsitektur RDNA dan CDNA. AMD diperkirakan akan merilis arsitektur UDNA sekitar tahun 2026. Di sisi lain, CentML sedang mengintegrasikan dukungan AMD CDNA dan HIP ke dalam kompilator deep learning Hidet.
Beberapa startup sedang mencoba mematahkan dominasi NVIDIA dengan memanfaatkan GPU AMD. Felafax, Lamini, tensorwave, dan SlashML termasuk di dalamnya. Sebagian orang berpendapat bahwa hambatan CUDA sekitar 18 bulan.
Tim yang mengerjakan TVM dan MLC sebelumnya, kini bergabung ke NVIDIA lewat OctoAI.
Setelah menguji Phi-4 Q6 pada 7950x dan 7900XT, didapatkan bahwa performanya sangat cepat bahkan hanya dengan CPU saja, sekaligus mengonfirmasi kelayakan penggunaan AMD untuk penggunaan rumahan.
Saya tidak mengerti kenapa komunitas ML belum meninggalkan CUDA. CUDA itu tertutup dan tidak lintas platform. Dengan kemajuan AI/LLM, transisi lintas platform seharusnya sudah lebih cepat.
3090 bekas harganya $600-900, kinerjanya lebih baik dari 7900, dan karena CUDA menjadi lebih serbaguna.
Peningkatan efisiensi itu penting. Bukan hanya efisiensi biaya, tetapi juga efisiensi daya dan komputasi. Sedang mencoba menjalankan inferensi di CPU biasa dengan llama.cpp.
Modular mengklaim mencapai pemanfaatan GPU 93% pada GPU AMD dan menargetkan rilis preview resmi awal tahun depan. Optimistis karena melihat umpan balik yang positif atas kinerja GPU NVIDIA.