Nvidia merilis GPU H200 Tensor Core

(nvidia.com)

4 poin oleh GN⁺ 2023-11-15 | 1 komentar | Bagikan ke WhatsApp

GPU paling kuat di dunia

NVIDIA H200 Tensor Core GPU mempercepat workload AI generatif dan komputasi berkinerja tinggi (HPC) dengan performa dan kapasitas memori yang mengubah permainan.
Sebagai GPU pertama yang dibekali HBM3e, H200 memajukan akselerasi AI generatif dan large language models (LLMs) serta workload HPC untuk komputasi ilmiah.

Peningkatan performa berbasis arsitektur NVIDIA Hopper

NVIDIA HGX H200 yang dibangun di atas arsitektur NVIDIA Hopper™ menampilkan NVIDIA H200 Tensor Core GPU dengan memori canggih untuk memproses data dalam skala besar.

Rasakan peningkatan performa

Inferensi Llama2 70B menjadi 1,9x lebih cepat, dan inferensi GPT-3 175B menjadi 1,6x lebih cepat.
Komputasi berkinerja tinggi menjadi hingga 110x lebih cepat dibanding CPU.

Performa lebih tinggi serta memori yang lebih besar dan lebih cepat

NVIDIA H200 menyediakan memori HBM3e sebesar 141GB dan bandwidth memori 4,8TB/s untuk mempercepat AI generatif dan LLMs, meningkatkan efisiensi energi, dan menurunkan total cost of ownership.

Dapatkan insight dengan inferensi LLM berkinerja tinggi

Akselerator inferensi AI harus memberikan throughput terbaik dan TCO terendah saat diterapkan ke basis pengguna yang besar.
H200 memberikan kecepatan inferensi hingga 2x lebih cepat dibanding GPU H100 saat memproses LLMs.

Mempercepat komputasi berkinerja tinggi

Bandwidth memori sangat penting untuk aplikasi HPC karena memungkinkan transfer data yang lebih cepat dan mengurangi bottleneck pemrosesan yang kompleks.
Bandwidth memori tinggi pada H200 membuat akses dan manipulasi data lebih efisien, sehingga memungkinkan hasil hingga 110x lebih cepat dibanding CPU.

Penghematan energi dan TCO

Dengan adopsi H200, efisiensi energi dan TCO mencapai tingkat yang baru.
GPU ini memberikan performa unggul dalam profil daya yang sama, sekaligus menawarkan manfaat yang lebih ramah lingkungan dan lebih ekonomis.

Performa

Arsitektur NVIDIA Hopper menghadirkan peningkatan performa yang belum pernah ada sebelumnya, dan terus menaikkan standar performa melalui peningkatan perangkat lunak berkelanjutan untuk H100.
Kehadiran H200 melanjutkan peningkatan performa lebih jauh lagi, dan menjamin kepemimpinan performa saat ini maupun di masa depan melalui perbaikan berkelanjutan pada perangkat lunak yang didukung.

Siap untuk enterprise: perangkat lunak AI menyederhanakan pengembangan dan deployment

NVIDIA H200 bersama NVIDIA AI Enterprise menyederhanakan pembangunan platform siap AI, serta mempercepat pengembangan dan deployment AI generatif, computer vision, speech AI, dan lainnya.
Keduanya menyediakan keamanan, kemudahan pengelolaan, keandalan, dan dukungan tingkat enterprise agar insight yang dapat ditindaklanjuti bisa diperoleh lebih cepat, dan nilai bisnis nyata dapat dicapai lebih cepat.

Spesifikasi NVIDIA H200 Tensor Core GPU

Bentuk: H200 SXM
FP64: 34 TFLOPS
FP64 Tensor Core: 67 TFLOPS
FP32: 67 TFLOPS
TF32 Tensor Core: 989 TFLOPS
BFLOAT16 Tensor Core: 1,979 TFLOPS
FP16 Tensor Core: 1,979 TFLOPS
FP8 Tensor Core: 3,958 TFLOPS
INT8 Tensor Core: 3,958 TFLOPS
Memori GPU: 141GB
Bandwidth memori GPU: 4,8TB/s
Decoder: 7 NVDEC
Daya desain termal maksimum (TDP): hingga 700W (dapat dikonfigurasi)
Multi-Instance GPU: hingga 7 MIGs @16.5GB masing-masing

Opini GN⁺

Hal terpenting dari artikel ini adalah bahwa NVIDIA memperkenalkan GPU paling kuat di dunia untuk workload AI dan HPC melalui H200 Tensor Core GPU. GPU ini diharapkan berkontribusi bukan hanya pada akselerasi AI generatif dan large language models, tetapi juga pada kemajuan workload HPC untuk komputasi ilmiah. Kemajuan teknologi seperti ini juga akan menarik bagi software engineer junior, dan memiliki potensi untuk membawa perubahan inovatif pada proyek yang mereka ikuti. Memori canggih dan kemampuan pemrosesan H200 diperkirakan akan mempercepat perkembangan di bidang AI dan riset ilmiah dengan memungkinkan komputasi yang lebih cepat, efisiensi energi yang lebih baik, dan TCO yang lebih rendah.

1 komentar

GN⁺ 2023-11-15

Opini Hacker News

Die GPU H200 sama dengan H100, tetapi secara keseluruhan menggunakan stack memori 24GB yang lebih cepat.

Akselerator H200 dari NVIDIA berbasis silikon yang sama dengan H100 141GB, tetapi bukan silikon baru seperti yang disiratkan situs web Nvidia.
Rasa ingin tahu tentang kemungkinan produsen chip lain menyamai atau melampaui NVIDIA di bidang AI dalam beberapa tahun ke depan.

Muncul pertanyaan apakah kepemimpinan dan keahlian NVIDIA di bidang AI dapat ditantang oleh produsen chip lain dalam beberapa tahun ke depan, atau apakah keunggulan mereka tidak akan terkejar.
Peningkatan performa NVIDIA dalam waktu singkat mengesankan, tetapi terasa perlunya pesaing lain di bidang ini.

Terkesan dengan peningkatan performa yang dicapai NVIDIA dalam waktu singkat, sekaligus menyampaikan harapan agar pesaing lain seperti AMD juga hadir di pasar ini.
Pertanyaan tentang metrik yang digunakan untuk inferensi dan apakah peningkatan performa serupa juga bisa diharapkan dalam pelatihan.

Metrik performa untuk tahap inferensi model AI yang terutama dibahas, dan pertanyaan apakah peningkatan serupa juga dapat terlihat pada tahap pelatihan model.
Pertanyaan tentang posisi H200 dibandingkan B100 yang dirilis pada tahun yang sama.

Karena B100 dirilis pada tahun yang sama dan menawarkan performa 2x lebih tinggi, muncul rasa ingin tahu tentang peran dan harga H200.
Keterkejutan atas harga GPU H100 dan pertanyaan tentang biaya jika ingin menggunakannya untuk eksperimen pribadi dan hackathon.

Keterkejutan atas harga yang sangat tinggi dan tidak terduga saat ingin menggunakan GPU H100 untuk eksperimen pribadi dan hackathon, serta pertanyaan tentang harga H200.
Di perangkat mobile, ruang layar yang benar-benar bisa dilihat menjadi sangat terbatas akibat banner cookie dan banner iklan pada halaman web.

Mengangkat masalah bahwa di lingkungan mobile, area halaman web yang benar-benar terlihat hanya seperempat karena banner cookie dan banner iklan.
Tidak ada penjelasan tentang istilah "GPU", dan sama sekali tidak ada fungsi keluaran video bawaan.

Menyebut fakta bahwa GPU tidak memiliki fungsi keluaran video bawaan.
Permintaan untuk menjelaskan apa yang ada di dalam foto, dengan pendapat bahwa itu terlihat seperti kota atau bangunan dari Blade Runner.

Meminta penjelasan karena sulit memahami komponen apa yang ada di dalam foto, sambil menyampaikan kesan bahwa tampilannya mirip kota atau bangunan dalam Blade Runner.
Pertanyaan apakah batas kecepatan inferensi disebabkan oleh masalah bandwidth memori atau kemampuan komputasi.

Rasa ingin tahu apakah faktor yang membatasi kecepatan inferensi model AI adalah bandwidth memori atau kemampuan pemrosesan komputasi.