Jensen Huang dari Nvidia umumkan chip AI baru Blackwell: “Kami membutuhkan GPU yang lebih besar”
(cnbc.com)- Di tengah lonjakan permintaan GPU Nvidia setelah ledakan AI, generasi baru Blackwell merupakan pengumuman untuk semakin memperkuat posisinya sebagai pemasok bagi pelatihan dan deployment model besar
- Chip Blackwell pertama, GB200, dijadwalkan mulai dikirim pada akhir tahun ini, dan performa AI-nya meningkat dari 4 petaflops menjadi 20 petaflops dibanding generasi Hopper tempat H100 berada
- GB200 menggabungkan dua GPU B200 Blackwell dan CPU Grace berbasis Arm, dan Amazon, Google, Microsoft, serta Oracle akan menjual akses cloud-nya
- Perangkat lunak baru NIM mempermudah deployment inferensi AI bahkan pada GPU Nvidia yang sudah ada, dan lisensi enterprise Nvidia dibanderol $4.500 per GPU per tahun
- Nvidia memperkuat strategi platform perangkat lunak yang bukan hanya menjual chip, tetapi juga membuat pelanggan tetap berada dalam ekosistem Nvidia alih-alih beralih ke chip pesaing
Pengumuman Blackwell dan posisi Nvidia sebagai pemasok AI
- Nvidia mengumumkan generasi chip AI baru dan perangkat lunak untuk menjalankan model AI pada konferensi pengembang di San Jose pada 18 Maret 2024
- Pada saat pengumuman, perusahaan dan vendor perangkat lunak masih bersaing untuk mendapatkan Hopper H100 generasi saat ini dan chip serupa
- Jensen Huang mengatakan, “Hopper itu hebat, tetapi kami membutuhkan GPU yang lebih besar”
- Setelah ChatGPT dari OpenAI memicu ledakan AI pada akhir 2022, saham Nvidia naik 5 kali lipat dan total pendapatannya meningkat lebih dari 3 kali
- Perusahaan seperti Microsoft dan Meta menghabiskan miliaran dolar untuk membeli GPU server kelas atas Nvidia
- Saham Nvidia turun lebih dari 1% dalam perdagangan after-hours pada hari Senin
-
Konfigurasi dan performa GB200
- Nama generasi baru prosesor grafis AI ini adalah Blackwell, dan chip Blackwell pertamanya adalah GB200
- Nvidia memperbarui arsitektur GPU sekitar setiap dua tahun untuk menghadirkan peningkatan performa yang besar
- Arsitektur Hopper yang diumumkan pada 2022 digunakan pada chip seperti H100, dan banyak model AI yang diumumkan selama setahun terakhir dilatih di atas Hopper
- Performa AI GB200 berbasis Blackwell mencapai 20 petaflops, lebih tinggi dari 4 petaflops milik H100
- Peningkatan kemampuan komputasi ini dapat digunakan perusahaan AI untuk melatih model yang lebih besar dan lebih kompleks
- Chip ini mencakup transformer engine untuk menjalankan AI berbasis transformer, salah satu teknologi inti di balik ChatGPT
- GPU Blackwell diproduksi oleh TSMC dan menggabungkan dua die yang dibuat terpisah menjadi satu chip
-
Server dan penyediaan cloud
- GB200 menggabungkan dua GPU B200 Blackwell dan satu CPU Grace berbasis Arm
- Nvidia juga akan menyediakan server lengkap GB200 NVLink 2 yang menggabungkan 72 GPU Blackwell dan komponen Nvidia lainnya
- Amazon, Google, Microsoft, dan Oracle akan menjual akses ke GB200 sebagai layanan cloud
- Amazon Web Services berencana membangun klaster server dengan 20.000 chip GB200
- Sistem ini dapat men-deploy model 27 triliun parameter, jauh lebih besar daripada GPT-4 yang dalam pemberitaan disebut memiliki 1,7 triliun parameter
- Nvidia tidak mengungkap harga GB200 maupun sistem yang menggunakannya
- Berdasarkan perkiraan analis, H100 berbasis Hopper dihargai $25.000 hingga $40.000 per chip, sementara sistem lengkapnya mencapai $200.000
- Nvidia juga akan menjual prosesor grafis B200 dalam bentuk sistem jadi yang mengisi satu rak server penuh
NIM dan strategi platform Nvidia
- Nvidia menambahkan produk baru bernama NIM (Nvidia Inference Microservice) ke langganan perangkat lunak Nvidia enterprise
- NIM mempermudah inferensi, yaitu proses menjalankan perangkat lunak AI, pada GPU Nvidia yang sudah ada
- Inferensi membutuhkan komputasi yang lebih rendah dibanding pelatihan awal model AI baru
- Tujuannya adalah agar perusahaan tetap bisa memanfaatkan ratusan juta GPU Nvidia yang sudah mereka miliki
- Sasaran utama NIM adalah perusahaan yang ingin menjalankan model AI mereka sendiri, alih-alih membeli hasil AI sebagai layanan dari perusahaan seperti OpenAI
- Menghubungkan pelanggan pembeli server berbasis Nvidia ke langganan Nvidia enterprise merupakan strategi kuncinya
- Biaya lisensinya adalah $4.500 per GPU per tahun
-
Deployment model dan cara pakai bagi pengembang
- Nvidia akan bekerja sama dengan perusahaan AI seperti Microsoft dan Hugging Face untuk menyesuaikan model AI agar berjalan di seluruh chip Nvidia yang kompatibel
- Pengembang dapat menggunakan NIM untuk menjalankan model secara efisien di server mereka sendiri atau di server Nvidia berbasis cloud tanpa proses setup yang panjang
- Manuvir Das mengatakan caranya seperti mengganti satu baris pada kode yang sebelumnya memanggil OpenAI agar mengarah ke NIM yang diterima dari Nvidia
- Nvidia menyatakan perangkat lunak ini membantu menjalankan AI bukan hanya di server cloud, tetapi juga pada laptop ber-GPU
-
Dari perusahaan chip menjadi platform perangkat lunak
- NIM adalah produk yang memberi pelanggan alasan tambahan untuk tetap menggunakan chip Nvidia ketimbang chip pesaing
- Nvidia tidak lagi hanya bertahan sebagai pemasok chip serba bisa, tetapi semakin mendekati penyedia platform tempat perusahaan lain dapat membangun perangkat lunak
- Huang mengatakan, “Blackwell bukan nama chip, melainkan nama platform”
- Das mengatakan bahwa di masa lalu produk komersial yang bisa dijual adalah GPU dan perangkat lunak berperan membantu pemanfaatan GPU, tetapi kini Nvidia memiliki bisnis perangkat lunak komersial
2 komentar
Ini adalah ringkasan isi video CNET oleh corely.ai (https://www.youtube.com/watch?v=bMIRhOXAjYk)
Komentar Hacker News
Dari keynote dan isi konferensinya, terlihat Nvidia sedang naik ke lapisan atas stack, seperti yang sering dilakukan vendor hardware yang bagus
Tentu mereka akan terus membuat hardware yang lebih besar juga, tetapi poin utamanya adalah mereka sedang membuat NIM, semacam Docker untuk LLM. Mereka sedang membangun sistem kontainer yang bisa diunduh atau dibeli lalu dengan mudah dideploy ke hardware Nvidia, jadi menarik untuk melihat dampaknya pada startup AI
Ancaman yang lebih besar adalah ketika fungsi inti bisnis masuk ke software arus utama. Sekarang iPhone bisa menghapus latar belakang sendiri, jadi permintaan untuk layanan hapus latar belakang berbayar hilang. Kalau produk AI bisa dengan mudah masuk sebagai salah satu fitur di aplikasi kerja yang sudah ada, maka bisnis itu pada dasarnya sedang meminjam waktu
Apakah yang dimaksud adalah startup AI-as-a-Service yang menyediakan “infrastruktur”?
Arah bahwa “Nvidia berubah dari pemasok chip ala tentara bayaran menjadi lebih mirip penyedia platform seperti Microsoft atau Apple, tempat perusahaan lain bisa membuat software” masuk akal dari sudut pandang pertumbuhan
Menjadi layanan platform untuk AI memang akan lebih menguntungkan bagi Nvidia, tetapi akan sulit menjaga keseimbangan dengan kemitraan yang sudah ada seperti AWS dan Microsoft. Ke depan sepertinya akan ada akuisisi atau solusi khusus untuk bersaing, dan untungnya bagi Nvidia, sebagian besar AI masih bergantung pada CUDA, jadi perkembangannya menarik untuk diikuti
Mereka tidak punya daya ungkit untuk memaksa pelanggan ke satu sisi, dan menjual GPU saja tentu lebih mudah, tetapi mereka tampaknya paham bahwa pelanggan canggih bisa pindah ke chip lain, sedangkan platform bisa mengunci pelanggan yang lebih kecil
Kalau Nvidia mau, mereka bisa membuka standar itu secara sukarela untuk menghindari gugatan semacam ini, dan menurut saya pribadi itu pilihan yang lebih bijak, tetapi hampir semua perusahaan dalam sejarah memilih litigasi ketimbang keterbukaan sukarela
Meski AWS punya solusi hardware+software sendiri untuk jaringan saraf, untuk benar-benar keluar dari platform CUDA bisa butuh bertahun-tahun, bahkan mungkin puluhan tahun
Microsoft juga bermitra dengan OpenAI, juga dengan Mistral. Tidak ada jaminan kenyamanan saat ini akan bertahan di masa depan, dan Nvidia sangat paham akan hal itu
FP4 itu apa, floating point 4-bit? Kalau begitu, grafik perbandingan 30x versus Hopper [0] agak menyesatkan
[0] https://youtu.be/Y2F8yisiS6E?t=4698
Beberapa orang mengaitkannya dengan makalah tentang LLM 4-bit ini [1], dan salah satu penulisnya adalah karyawan Nvidia
1: https://arxiv.org/pdf/2310.16836.pdf
Jika ada perangkat yang sangat unggul di FP4, maka itu akan dipakai, dan Anda bisa mendapatkan peningkatan kecepatan dengan kehilangan akurasi seminimal mungkin. Memang ada sedikit kreativitas ala pemasaran di sana, tetapi bukan berarti metrik untuk mengukur penggunaan nyata itu sepenuhnya salah
Sudah pernah dibahas juga di posting sebelumnya: https://news.ycombinator.com/item?id=37930663
Pada dasarnya ini lebih mirip dua Hopper yang dipasang berdampingan di atas node proses yang sedikit lebih baik, jadi tidak terlalu mengejutkan, dan untuk kasus yang tidak memanfaatkan fitur baru atau memori yang lebih besar itu, peningkatan sekitar 2,5x terdengar lebih masuk akal
Mereka mengakuisisi Bright Cluster Manager beberapa tahun lalu, jadi siapa target akuisisi berikutnya? Terlihat seperti mereka ingin memberi pelanggan seluruh stack
Ini era ketika petaflop dua digit diproduksi massal
“Kemampuan komputasi yang dibutuhkan untuk mereplikasi aktivitas relevan dari otak manusia telah diperkirakan oleh berbagai penulis dari 10^12 hingga 10^28 FLOPS.” Petaflop adalah 10^15. Gila memang
Kasihan Masayoshi Son dari Softbank. Pada 2019 dia memegang saham Nvidia senilai 3,1 miliar dolar, yang kalau sekarang nilainya akan jadi 19 kali lipat, sekitar 60 miliar dolar
Dia sangat optimistis pada AI dan robotika, tetapi terlalu jauh mendahului zamannya
Jadi, apakah yang dimaksud dengan “perusahaan platform” di sini adalah multi-chip?
Secara logis masuk akal, karena memasukkan transistor sebanyak itu ke dalam satu die makin terasa tidak realistis
Arahnya adalah mengunci aplikasi tingkat tinggi agar berjalan di atas sasis proprieter, interkoneksi klaster proprieter, dan middleware proprieter. Ini mengingatkan pada akuisisi Mellanox
Dari sisi hardware, ini mencakup GPU, NVLINK sebagai fabric GPU-GPU, CPU, NIC, InfiniBand sebagai fabric jaringan, dan switch. Lalu mereka juga berkontribusi dan mendorong orang membangun di atas berbagai lapisan software stack seperti CUDA, Riva, Megatron, dan Omniverse
Bayangkan jika AWS menjual semua komputer di dunia. Lalu strukturnya menjadi seperti sekarang: Anda hanya bisa menyewa dari mereka
Saya penasaran kapan industri ini akan mulai menangani masalah skalabilitas LLM. Dari sudut pandang Nvidia, tentu menguntungkan untuk terus merilis GPU yang lebih besar dan lebih baik, tetapi apa keuntungan bersama untuk semua orang?
Sudah terbukti bahwa dengan sumber daya yang cukup, model bahasa yang bagus itu mungkin. Tantangannya sekarang adalah memasukkan model-model ini ke solusi yang tidak menuntut sumber daya dalam jumlah yang sulit dibayangkan untuk kasus penggunaan rata-rata
Ini bukan hanya masalah AI, tetapi masalah semua perangkat lunak yang kita gunakan. Hanya ada dua kelompok yang mau mengoptimalkan dan menyesuaikan ke sistem yang lebih kecil: programmer yang bersemangat, dan orang yang dibayar untuk melakukan itu. Misalnya, tim perangkat lunak di perusahaan pembuat ponsel
Harga saham tidak berubah dalam perdagangan after-hours. Banyak yang berharap lonjakan besar setelah pengumuman besar ini
Hanya saja sahamnya memang sangat overvalued, sampai terasa konyol
Untuk saat ini Microsoft dan OpenAI akan memakai chip ini, tetapi dalam jangka panjang mereka akan melihat ini, lalu mencoba membuat chip sendiri dan mengurangi ketergantungan pada Nvidia, serta bersiap pindah ketika kontraknya selesai
Mereka mengklaim konsumsi daya turun 25 kali lipat, tapi bagaimana itu bisa benar? Ada yang tahu angka itu berasal dari mana?
Tapi saya rasa bisa saja ada typo. Mungkin juga perbandingannya sudah termasuk liquid cooling versus pendinginan udara
[1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
Mungkin maksudnya adalah gabungan peningkatan efisiensi dari kenaikan performa 5x, ditambah fakta bahwa sekarang bisa memakai 27 triliun parameter, bukan lagi 1,7 triliun, sehingga beban kerja yang sama bisa selesai dalam 1/25 waktu dan itu lalu disebut sebagai penurunan konsumsi daya. Seperti yang Anda katakan, saya juga skeptis bahwa konsumsi daya puncaknya sendiri benar-benar 25x lebih rendah