2 poin oleh GN⁺ 2024-03-19 | 2 komentar | Bagikan ke WhatsApp
  • Di tengah lonjakan permintaan GPU Nvidia setelah ledakan AI, generasi baru Blackwell merupakan pengumuman untuk semakin memperkuat posisinya sebagai pemasok bagi pelatihan dan deployment model besar
  • Chip Blackwell pertama, GB200, dijadwalkan mulai dikirim pada akhir tahun ini, dan performa AI-nya meningkat dari 4 petaflops menjadi 20 petaflops dibanding generasi Hopper tempat H100 berada
  • GB200 menggabungkan dua GPU B200 Blackwell dan CPU Grace berbasis Arm, dan Amazon, Google, Microsoft, serta Oracle akan menjual akses cloud-nya
  • Perangkat lunak baru NIM mempermudah deployment inferensi AI bahkan pada GPU Nvidia yang sudah ada, dan lisensi enterprise Nvidia dibanderol $4.500 per GPU per tahun
  • Nvidia memperkuat strategi platform perangkat lunak yang bukan hanya menjual chip, tetapi juga membuat pelanggan tetap berada dalam ekosistem Nvidia alih-alih beralih ke chip pesaing

Pengumuman Blackwell dan posisi Nvidia sebagai pemasok AI

  • Nvidia mengumumkan generasi chip AI baru dan perangkat lunak untuk menjalankan model AI pada konferensi pengembang di San Jose pada 18 Maret 2024
  • Pada saat pengumuman, perusahaan dan vendor perangkat lunak masih bersaing untuk mendapatkan Hopper H100 generasi saat ini dan chip serupa
  • Jensen Huang mengatakan, “Hopper itu hebat, tetapi kami membutuhkan GPU yang lebih besar”
  • Setelah ChatGPT dari OpenAI memicu ledakan AI pada akhir 2022, saham Nvidia naik 5 kali lipat dan total pendapatannya meningkat lebih dari 3 kali
    • Perusahaan seperti Microsoft dan Meta menghabiskan miliaran dolar untuk membeli GPU server kelas atas Nvidia
    • Saham Nvidia turun lebih dari 1% dalam perdagangan after-hours pada hari Senin
  • Konfigurasi dan performa GB200

    • Nama generasi baru prosesor grafis AI ini adalah Blackwell, dan chip Blackwell pertamanya adalah GB200
    • Nvidia memperbarui arsitektur GPU sekitar setiap dua tahun untuk menghadirkan peningkatan performa yang besar
    • Arsitektur Hopper yang diumumkan pada 2022 digunakan pada chip seperti H100, dan banyak model AI yang diumumkan selama setahun terakhir dilatih di atas Hopper
    • Performa AI GB200 berbasis Blackwell mencapai 20 petaflops, lebih tinggi dari 4 petaflops milik H100
    • Peningkatan kemampuan komputasi ini dapat digunakan perusahaan AI untuk melatih model yang lebih besar dan lebih kompleks
    • Chip ini mencakup transformer engine untuk menjalankan AI berbasis transformer, salah satu teknologi inti di balik ChatGPT
    • GPU Blackwell diproduksi oleh TSMC dan menggabungkan dua die yang dibuat terpisah menjadi satu chip
  • Server dan penyediaan cloud

    • GB200 menggabungkan dua GPU B200 Blackwell dan satu CPU Grace berbasis Arm
    • Nvidia juga akan menyediakan server lengkap GB200 NVLink 2 yang menggabungkan 72 GPU Blackwell dan komponen Nvidia lainnya
    • Amazon, Google, Microsoft, dan Oracle akan menjual akses ke GB200 sebagai layanan cloud
    • Amazon Web Services berencana membangun klaster server dengan 20.000 chip GB200
    • Sistem ini dapat men-deploy model 27 triliun parameter, jauh lebih besar daripada GPT-4 yang dalam pemberitaan disebut memiliki 1,7 triliun parameter
    • Nvidia tidak mengungkap harga GB200 maupun sistem yang menggunakannya
    • Berdasarkan perkiraan analis, H100 berbasis Hopper dihargai $25.000 hingga $40.000 per chip, sementara sistem lengkapnya mencapai $200.000
    • Nvidia juga akan menjual prosesor grafis B200 dalam bentuk sistem jadi yang mengisi satu rak server penuh

NIM dan strategi platform Nvidia

  • Nvidia menambahkan produk baru bernama NIM (Nvidia Inference Microservice) ke langganan perangkat lunak Nvidia enterprise
  • NIM mempermudah inferensi, yaitu proses menjalankan perangkat lunak AI, pada GPU Nvidia yang sudah ada
    • Inferensi membutuhkan komputasi yang lebih rendah dibanding pelatihan awal model AI baru
    • Tujuannya adalah agar perusahaan tetap bisa memanfaatkan ratusan juta GPU Nvidia yang sudah mereka miliki
  • Sasaran utama NIM adalah perusahaan yang ingin menjalankan model AI mereka sendiri, alih-alih membeli hasil AI sebagai layanan dari perusahaan seperti OpenAI
  • Menghubungkan pelanggan pembeli server berbasis Nvidia ke langganan Nvidia enterprise merupakan strategi kuncinya
    • Biaya lisensinya adalah $4.500 per GPU per tahun
  • Deployment model dan cara pakai bagi pengembang

    • Nvidia akan bekerja sama dengan perusahaan AI seperti Microsoft dan Hugging Face untuk menyesuaikan model AI agar berjalan di seluruh chip Nvidia yang kompatibel
    • Pengembang dapat menggunakan NIM untuk menjalankan model secara efisien di server mereka sendiri atau di server Nvidia berbasis cloud tanpa proses setup yang panjang
    • Manuvir Das mengatakan caranya seperti mengganti satu baris pada kode yang sebelumnya memanggil OpenAI agar mengarah ke NIM yang diterima dari Nvidia
    • Nvidia menyatakan perangkat lunak ini membantu menjalankan AI bukan hanya di server cloud, tetapi juga pada laptop ber-GPU
  • Dari perusahaan chip menjadi platform perangkat lunak

    • NIM adalah produk yang memberi pelanggan alasan tambahan untuk tetap menggunakan chip Nvidia ketimbang chip pesaing
    • Nvidia tidak lagi hanya bertahan sebagai pemasok chip serba bisa, tetapi semakin mendekati penyedia platform tempat perusahaan lain dapat membangun perangkat lunak
    • Huang mengatakan, “Blackwell bukan nama chip, melainkan nama platform”
    • Das mengatakan bahwa di masa lalu produk komersial yang bisa dijual adalah GPU dan perangkat lunak berperan membantu pemanfaatan GPU, tetapi kini Nvidia memiliki bisnis perangkat lunak komersial

2 komentar

 
corelyai 2024-03-20
  • Konferensi pengembang Nvidia: memperkenalkan chip Blackwell dan teknologi masa depan
  • Nvidia memperkenalkan Blackwell, platform inovatif dengan 28 miliar transistor yang ditempatkan bersebelahan pada dua die untuk menciptakan satu chip raksasa yang mentransfer data 10 terabyte per detik, serta menawarkan kompatibilitas bentuk dan fungsi dengan Hopper.
  • Switch link MVY pada Blackwell, yang dibekali 50 miliar transistor, memungkinkan komunikasi antargPU dengan kecepatan tertinggi sehingga sistem AI exaflops dapat dibangun dalam satu rak.
  • Nvidia Blackwell mengumumkan kemitraan dengan AWS, Google, Oracle, dan Microsoft untuk mempercepat berbagai layanan AI dan mengintegrasikan teknologi Nvidia ke platform-platform tersebut.
  • Nvidia memperkenalkan AI Foundry yang bekerja sama dengan perusahaan seperti SAP, ServiceNow, Cohesity, Snowflake, dan Dell untuk membangun solusi AI generatif dan pabrik AI.
  • Dengan men-streaming Omniverse Cloud ke Vision Pro untuk mendukung integrasi dan alur kerja yang mulus di berbagai alat desain, Nvidia juga memperkenalkan Project Groot, Isaac Lab, dan Osmo untuk robot berbasis AI.
  • Robot bdx milik Disney yang ditenagai Jetson tampil khusus dan memperlihatkan kemampuan pembelajaran di Isaac Sim.

Ini adalah ringkasan isi video CNET oleh corely.ai (https://www.youtube.com/watch?v=bMIRhOXAjYk)

 
GN⁺ 2024-03-19
Komentar Hacker News
  • Dari keynote dan isi konferensinya, terlihat Nvidia sedang naik ke lapisan atas stack, seperti yang sering dilakukan vendor hardware yang bagus
    Tentu mereka akan terus membuat hardware yang lebih besar juga, tetapi poin utamanya adalah mereka sedang membuat NIM, semacam Docker untuk LLM. Mereka sedang membangun sistem kontainer yang bisa diunduh atau dibeli lalu dengan mudah dideploy ke hardware Nvidia, jadi menarik untuk melihat dampaknya pada startup AI

    • Sepertinya ini tidak akan banyak berpengaruh pada kebanyakan AI untuk konsumen. Soalnya UI dan kemudahan penggunaan sudah menjadi nilai jual utama
      Ancaman yang lebih besar adalah ketika fungsi inti bisnis masuk ke software arus utama. Sekarang iPhone bisa menghapus latar belakang sendiri, jadi permintaan untuk layanan hapus latar belakang berbayar hilang. Kalau produk AI bisa dengan mudah masuk sebagai salah satu fitur di aplikasi kerja yang sudah ada, maka bisnis itu pada dasarnya sedang meminjam waktu
    • Ada juga alternatif open source: https://github.com/geniusrise
    • Saya tidak mengikuti semua perkembangan di ranah AI, jadi penasaran startup AI seperti apa yang dimaksud di sini
      Apakah yang dimaksud adalah startup AI-as-a-Service yang menyediakan “infrastruktur”?
  • Arah bahwa “Nvidia berubah dari pemasok chip ala tentara bayaran menjadi lebih mirip penyedia platform seperti Microsoft atau Apple, tempat perusahaan lain bisa membuat software” masuk akal dari sudut pandang pertumbuhan
    Menjadi layanan platform untuk AI memang akan lebih menguntungkan bagi Nvidia, tetapi akan sulit menjaga keseimbangan dengan kemitraan yang sudah ada seperti AWS dan Microsoft. Ke depan sepertinya akan ada akuisisi atau solusi khusus untuk bersaing, dan untungnya bagi Nvidia, sebagian besar AI masih bergantung pada CUDA, jadi perkembangannya menarik untuk diikuti

    • Nvidia tampaknya sedang menyiapkan dunia di mana setengah pelanggannya, yaitu para hyperscaler, hanya memakai GPU dan CUDA, sementara sisa pelanggan berekor panjang memakai platform tingkat atas yang lebih menguntungkan
      Mereka tidak punya daya ungkit untuk memaksa pelanggan ke satu sisi, dan menjual GPU saja tentu lebih mudah, tetapi mereka tampaknya paham bahwa pelanggan canggih bisa pindah ke chip lain, sedangkan platform bisa mengunci pelanggan yang lebih kecil
    • Pada akhirnya saya rasa akan muncul gugatan antimonopoli dan tuntutan agar standar CUDA dibuka, lalu AMD akan menjadi pesaing
      Kalau Nvidia mau, mereka bisa membuka standar itu secara sukarela untuk menghindari gugatan semacam ini, dan menurut saya pribadi itu pilihan yang lebih bijak, tetapi hampir semua perusahaan dalam sejarah memilih litigasi ketimbang keterbukaan sukarela
    • AWS memang mendorong ARM dengan kuat, tetapi orang-orang tetap membeli komputasi x86/x64 dalam jumlah besar
      Meski AWS punya solusi hardware+software sendiri untuk jaringan saraf, untuk benar-benar keluar dari platform CUDA bisa butuh bertahun-tahun, bahkan mungkin puluhan tahun
    • Kalau GPU AMD/Intel punya performa setara Nvidia dan dipakai secara luas, Microsoft dan AWS pasti juga akan bermitra dengan mereka
      Microsoft juga bermitra dengan OpenAI, juga dengan Mistral. Tidak ada jaminan kenyamanan saat ini akan bertahan di masa depan, dan Nvidia sangat paham akan hal itu
  • FP4 itu apa, floating point 4-bit? Kalau begitu, grafik perbandingan 30x versus Hopper [0] agak menyesatkan
    [0] https://youtu.be/Y2F8yisiS6E?t=4698

    • FP4 adalah floating point 4-bit, dan dua kali lebih cepat daripada floating point 8-bit. Ada juga FP6, yang memang tidak lebih cepat dihitung daripada FP8, tetapi bisa memanfaatkan bandwidth memori dan penggunaan cache yang lebih baik dari format 6-bit
      Beberapa orang mengaitkannya dengan makalah tentang LLM 4-bit ini [1], dan salah satu penulisnya adalah karyawan Nvidia
      1: https://arxiv.org/pdf/2310.16836.pdf
    • Hanya sebagian menyesatkan. Dalam LLM, FP4 tidak cuma berguna setengah dari FP8
      Jika ada perangkat yang sangat unggul di FP4, maka itu akan dipakai, dan Anda bisa mendapatkan peningkatan kecepatan dengan kehilangan akurasi seminimal mungkin. Memang ada sedikit kreativitas ala pemasaran di sana, tetapi bukan berarti metrik untuk mengukur penggunaan nyata itu sepenuhnya salah
    • https://arxiv.org/pdf/2310.10537.pdf
      Sudah pernah dibahas juga di posting sebelumnya: https://news.ycombinator.com/item?id=37930663
    • Saya penasaran bagaimana 4-bit bisa cukup. Apakah perhitungan antara dilakukan dengan lebar yang lebih besar lalu diturunkan lagi ke FP4?
    • Betul. Ada pembahasan soal Transformer Engine yang sadar presisi, dan itu mungkin memang mempermudah penggunaan FP4, tetapi bukan berarti 30 kali lebih cepat dalam kondisi yang sama
      Pada dasarnya ini lebih mirip dua Hopper yang dipasang berdampingan di atas node proses yang sedikit lebih baik, jadi tidak terlalu mengejutkan, dan untuk kasus yang tidak memanfaatkan fitur baru atau memori yang lebih besar itu, peningkatan sekitar 2,5x terdengar lebih masuk akal
  • Mereka mengakuisisi Bright Cluster Manager beberapa tahun lalu, jadi siapa target akuisisi berikutnya? Terlihat seperti mereka ingin memberi pelanggan seluruh stack

    • Canonical tampak seperti target yang sudah matang. Selama beberapa tahun terakhir Canonical mencoba membesarkan Ubuntu dan alat-alat lain di dunia enterprise, tetapi tidak terlalu sukses, dan sebagian besar kit pengembangan Nvidia dibuat dengan Ubuntu sebagai pusatnya
    • Run:AI https://news.ycombinator.com/item?id=39738342
    • Mereka juga bisa mengakuisisi Anthropic atau Mistral untuk membuat AGI/ASI
  • Ini era ketika petaflop dua digit diproduksi massal
    “Kemampuan komputasi yang dibutuhkan untuk mereplikasi aktivitas relevan dari otak manusia telah diperkirakan oleh berbagai penulis dari 10^12 hingga 10^28 FLOPS.” Petaflop adalah 10^15. Gila memang

    • Saya akan senang kalau ini dipakai untuk merancang pembangkit listrik fusi yang layak. Kalau sebagian besar malah dipakai untuk penargetan iklan, itu akan sangat mengecewakan
  • Kasihan Masayoshi Son dari Softbank. Pada 2019 dia memegang saham Nvidia senilai 3,1 miliar dolar, yang kalau sekarang nilainya akan jadi 19 kali lipat, sekitar 60 miliar dolar
    Dia sangat optimistis pada AI dan robotika, tetapi terlalu jauh mendahului zamannya

    • Koreksi kecil: Masayoshi Son
  • Jadi, apakah yang dimaksud dengan “perusahaan platform” di sini adalah multi-chip?
    Secara logis masuk akal, karena memasukkan transistor sebanyak itu ke dalam satu die makin terasa tidak realistis

    • Saya tidak terlalu paham gambaran besar lini produknya, tapi melihat angka fisik dan konfigurasi yang dibanggakan Jensen, rasanya mereka pada dasarnya ingin memainkan permainan ala mainframe
      Arahnya adalah mengunci aplikasi tingkat tinggi agar berjalan di atas sasis proprieter, interkoneksi klaster proprieter, dan middleware proprieter. Ini mengingatkan pada akuisisi Mellanox
    • Maksudnya adalah semua chip utama yang dibutuhkan untuk pusat data skala besar, beserta sebagian besar lapisan perangkat lunak di atasnya
      Dari sisi hardware, ini mencakup GPU, NVLINK sebagai fabric GPU-GPU, CPU, NIC, InfiniBand sebagai fabric jaringan, dan switch. Lalu mereka juga berkontribusi dan mendorong orang membangun di atas berbagai lapisan software stack seperti CUDA, Riva, Megatron, dan Omniverse
    • Bukan, ini berarti rent-seeking
      Bayangkan jika AWS menjual semua komputer di dunia. Lalu strukturnya menjadi seperti sekarang: Anda hanya bisa menyewa dari mereka
  • Saya penasaran kapan industri ini akan mulai menangani masalah skalabilitas LLM. Dari sudut pandang Nvidia, tentu menguntungkan untuk terus merilis GPU yang lebih besar dan lebih baik, tetapi apa keuntungan bersama untuk semua orang?
    Sudah terbukti bahwa dengan sumber daya yang cukup, model bahasa yang bagus itu mungkin. Tantangannya sekarang adalah memasukkan model-model ini ke solusi yang tidak menuntut sumber daya dalam jumlah yang sulit dibayangkan untuk kasus penggunaan rata-rata

    • Pengembangan perangkat lunak yang boros itu mudah dan menjaga momentum pengembangan tetap berjalan. Selama pertumbuhan adalah raja, pendekatan yang cepat dan berantakan akan selalu mengalahkan sistem kecil yang dioptimalkan dengan baik
      Ini bukan hanya masalah AI, tetapi masalah semua perangkat lunak yang kita gunakan. Hanya ada dua kelompok yang mau mengoptimalkan dan menyesuaikan ke sistem yang lebih kecil: programmer yang bersemangat, dan orang yang dibayar untuk melakukan itu. Misalnya, tim perangkat lunak di perusahaan pembuat ponsel
  • Harga saham tidak berubah dalam perdagangan after-hours. Banyak yang berharap lonjakan besar setelah pengumuman besar ini

    • Harga saham bukan indikator jangka pendek yang baik untuk perkembangan Nvidia, atau perusahaan mana pun. Nvidia bekerja sangat baik
      Hanya saja sahamnya memang sangat overvalued, sampai terasa konyol
    • Dengan kapitalisasi pasar 2 triliun dolar, semuanya pada dasarnya sudah tercermin
    • Kalau ingin lonjakan seperti itu, orang mungkin menunggu panduan laba. Saat ini kondisinya sangat overbought, jadi saham ini kesulitan bergerak melampaui 1.000 dolar per lembar
      Untuk saat ini Microsoft dan OpenAI akan memakai chip ini, tetapi dalam jangka panjang mereka akan melihat ini, lalu mencoba membuat chip sendiri dan mengurangi ketergantungan pada Nvidia, serta bersiap pindah ketika kontraknya selesai
    • Nvidia bukan saham yang misterius. Kalau ada nilai tersembunyi di sahamnya, kemungkinan besar itu sudah tercermin
    • Bukan cuma itu, tenaganya juga habis bahkan saat sesi reguler. Bisa jadi kondisinya sudah terlalu panas sehingga berita apa pun sulit mendorongnya naik lebih jauh
  • Mereka mengklaim konsumsi daya turun 25 kali lipat, tapi bagaimana itu bisa benar? Ada yang tahu angka itu berasal dari mana?

    • Itu angka dari [1]. Pada dasarnya perbandingannya adalah rak H100 versus rak B8
      Tapi saya rasa bisa saja ada typo. Mungkin juga perbandingannya sudah termasuk liquid cooling versus pendinginan udara
      [1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
    • Apakah Anda membacanya di artikel yang ditautkan? Saya tidak menemukannya
      Mungkin maksudnya adalah gabungan peningkatan efisiensi dari kenaikan performa 5x, ditambah fakta bahwa sekarang bisa memakai 27 triliun parameter, bukan lagi 1,7 triliun, sehingga beban kerja yang sama bisa selesai dalam 1/25 waktu dan itu lalu disebut sebagai penurunan konsumsi daya. Seperti yang Anda katakan, saya juga skeptis bahwa konsumsi daya puncaknya sendiri benar-benar 25x lebih rendah