Cara menjalankan GPT-OSS-120B di GPU NVIDIA dengan kecepatan lebih dari 500 token per detik
(baseten.co)- LLM open source OpenAI, yakni GPT-OSS-120B, dioptimalkan di lingkungan GPU NVIDIA dengan kinerja pemrosesan lebih dari 500 token per detik
- Berbagai framework inference seperti TensorRT-LLM, vLLM, dan SGLang diuji secara paralel, dengan dukungan untuk arsitektur Hopper dan Blackwell
- Memperbaiki bug kompatibilitas, mengintegrasikan format respons baru seperti Harmony, serta menerapkan optimasi KV cache-aware routing dan speculative decoding berbasis Eagle
- Setelah membandingkan tensor parallelism dan expert parallelism, dipilih tensor parallelism untuk latensi rendah dan penggunaan backend TensorRT-LLM MoE di Blackwell
- Direncanakan optimasi tambahan, termasuk Speculative Decoding dengan model draft kecil, untuk peningkatan performa di masa depan
Ikhtisar
- Saat GPT-OSS-120B, model bahasa besar open source terbaru dari OpenAI, diumumkan, Baseten mengambil tantangan untuk mencapai implementasi kinerja tertinggi
- Baseten adalah mitra peluncuran resmi OpenAI
- Melalui data pengguna nyata yang dipublikasikan di OpenRouter, Baseten membuktikan kinerja yang lebih baik dibanding pesaing di lingkungan berbasis GPU NVIDIA
- Berkat Baseten Flexible Inference Stack dan keahlian tim model engineering, Baseten mampu menerapkan patch optimasi dengan cepat dalam rentang jam
- Dalam beberapa jam penulisan blog saja, throughput bertambah 100 token per detik sambil mempertahankan 100% uptime
Langkah 1: Menjalankan inference awal
- Titik awalnya adalah menjalankan baseline inference secepat mungkin
- Terinspirasi oleh GPU, beberapa engineer menjalankan eksperimen paralel untuk vLLM, SGLang, TensorRT-LLM secara bersamaan
- Berhasil menjalankan TensorRT-LLM dengan cepat karena performa terbaik
- Keberhasilan mendapatkan dukungan TensorRT-LLM untuk Hopper (yang memiliki jumlah GPU H100 terbanyak) dan Blackwell (B200 lebih cepat)
- Berkat fleksibilitas Baseten Inference Runtime, penanganan model arsitektur baru dan pergantian alat di dalam stack dilakukan dengan cepat
Langkah 2: Memperbaiki bug kompatibilitas
- Munculnya arsitektur model baru biasanya disertai bug integrasi yang sering terjadi saat menggabungkan framework
- GPT OSS menambahkan teknologi baru seperti format respons Harmony, sehingga muncul bug ketika diintegrasikan dengan framework yang sudah ada
- Untuk menjaga kecepatan dan akurasi secara bersamaan, dilakukan perbaikan dan pengujian berulang; perbaikan yang efektif disumbangkan ke open source
- Melalui kolaborasi komunitas open source global, berbagai jalur optimasi dan perbaikan bug dijalankan lebih cepat
Langkah 3: Mengoptimalkan konfigurasi model
- OpenAI menyatakan GPT OSS 120B bisa berjalan pada satu H100, tetapi pada praktiknya paralelisasi 4-8 GPU lebih menguntungkan untuk performa
- Tensor Parallelism unggul pada latensi, sedangkan Expert Parallelism unggul pada throughput sistem
- Baseten memilih Tensor Parallelism karena targetnya adalah optimasi latensi
- Di Blackwell, penerapan TensorRT-LLM MoE Backend meningkatkan performa kernel CUDA dibanding backend Triton sebelumnya
- Pengaturan yang dioptimalkan untuk masing-masing lingkungan Hopper dan Blackwell dipublikasikan, dan Model API menggunakan konfigurasi berbasis Blackwell
Optimasi performa tambahan
- Meskipun optimasi tahap pertama saja sudah mencapai throughput dan latensi tingkat SOTA, masih ada ruang besar untuk penyempurnaan
- Pembaruan utama berikutnya adalah penerapan Speculative Decoding
- Metode ini menggunakan model "draft" kecil yang lebih cepat untuk menghasilkan token prediksi, lalu model utama melakukan verifikasi
- Baseten merekomendasikan Eagle 3, tetapi mengoperasikan lebih dari 10 algoritme secara fleksibel di dalam stack inferensi sesuai skenario
- Speculative decoding memproses beberapa token sekaligus, sehingga mendukung peningkatan kecepatan yang lebih efisien
2 komentar
Aku juga berharap ada yang kasih aku satu H100 kecil yang imut..
Komentar Hacker News
Jadi saya mengutak-atik laci komponen di rumah; entah saya cari di mana, mengapa GPU H100 senilai US$25.000 tidak ada?
Saya mencoba GPT-OSS-120B di MacBook Pro (M4, RAM 128GB) saat di dalam pesawat terbang lintas Atlantik. Cepat hanya saat jendela konteks kecil dan jumlah total token rendah. Begitu melewati 10 ribu token, hampir semua proses jadi lama dan menumpuk antrean. MCPs, pencarian web, dan patch URL sudah sangat penting dalam pengalaman memakai LLM. Tanpa fitur-fitur ini, utilitas LLM menurun drastis. Alat coding CLI/TUI yang sudah dipersiapkan untuk mode offline (seperti opencode) tidak berjalan andal bersama model. Selain poin-poin yang juga banyak dibahas di komentar sebelumnya, ada aspek lain pada model OSS ini:
iogpu.wired_limit_mb. Default hanya sekitar 70% RAM, kira-kira 90GB, yang bisa dipakai core GPU. Kalau mau lebih dimanfaatkan, pengaturannya harus diubah.Beberapa insinyur mencoba vLLM, SGLang, dan TensorRT-LLM secara paralel. Banyak yang bilang TensorRT-LLM yang paling cepat, tapi biasanya juga yang paling susah disetel, tidak terlalu cepat mengadopsi arsitektur terbaru, dan merepotkan karena harus mengompilasi model langsung di stack hardware-driver-library yang sama dengan lingkungan production. Untuk sementara, multimodal sempat hampir tidak mungkin, bahkan model multimodal Llama yang terkenal pun tidak berjalan dengan benar. Saya mempertanyakan nilai praktisnya, karena contohnya menjalankan GPT-OSS-120B di H100 dengan vLLM berjalan lancar dan stabil pada 130~140 t/s. Dari judulnya terlihat seolah satu GPU bisa menghasilkan 500 t/s, padahal kenyataannya itu setting tensor parallel. Menarik juga, ada paket TensorRT-LLM terpisah untuk gpt-oss. TRT-LLM itu sendiri tool yang cukup membingungkan.
GPT-OSS 20B sangat mudah dipasang. Berkat Llama, saya bisa menjalankannya di Mac saya dalam 5 menit.
Saat membaca, saya baru tahu ternyata butuh pra-pemrosesan dan tuning yang sangat besar agar model bekerja dengan baik; saya pikir sebelumnya akan baik-baik saja dengan setelan default.
Di AI Action Plan Amerika, poin “mendorong AI open source dan open-weight” muncul tepat setelah poin “frontier AI melindungi kebebasan berekspresi dan nilai-nilai Amerika”. Mungkin tidak rasional, tapi membaca model OSS OpenAI pada titik ini terasa agak merinding. Namun saya tetap senang pengembang model OSS membahas soal hardware. Bagi mayoritas developer, hardware adalah hambatan masuk, jadi senang sekali ada diskusi di area ini.
Apakah ada situs yang jelas merekomendasikan model LLM mana yang berjalan baik per OS dan per GPU? Formula paling dapat diandalkan untuk mengestimasi VRAM dari pengalaman saya adalah parameter × (Precision/8) × 1,2 (Referensi).
Menyampaikan bahwa angka pasti seperti ukuran array sebenarnya dari GPT-OSS-120B ternyata sulit ditemukan. Kalau bahasanya bertipe statis, ukuran array bisa diperkirakan dengan sekilas, tapi saya ingin tahu bagaimana data selain bobot mengalir dan seberapa lebar output stream-nya. Di mana batas throughput ‘token output’ pada ethernet gigabit, jadi saya mencoba cari repositori GitHub gpt-oss, tapi tidak terlalu terlihat.
GPT-OSS lebih cepat di chip Blackwell berkat dukungan fp4. Saya sedang membuat engine training/inferensi dengan Rust dan menambahkan dukungan fp8, fp4 di cudarc serta candle. Sedang dikerjakan agar engine ini didukung di Mixlayer.