Cara menjalankan GPT-OSS-120B di GPU NVIDIA dengan kecepatan lebih dari 500 token per detik

(baseten.co)

7 poin oleh GN⁺ 2025-08-12 | Belum ada komentar. | Bagikan ke WhatsApp

LLM open source OpenAI, yakni GPT-OSS-120B, dioptimalkan di lingkungan GPU NVIDIA dengan kinerja pemrosesan lebih dari 500 token per detik
Berbagai framework inference seperti TensorRT-LLM, vLLM, dan SGLang diuji secara paralel, dengan dukungan untuk arsitektur Hopper dan Blackwell
Memperbaiki bug kompatibilitas, mengintegrasikan format respons baru seperti Harmony, serta menerapkan optimasi KV cache-aware routing dan speculative decoding berbasis Eagle
Setelah membandingkan tensor parallelism dan expert parallelism, dipilih tensor parallelism untuk latensi rendah dan penggunaan backend TensorRT-LLM MoE di Blackwell
Direncanakan optimasi tambahan, termasuk Speculative Decoding dengan model draft kecil, untuk peningkatan performa di masa depan

Ikhtisar

Saat GPT-OSS-120B, model bahasa besar open source terbaru dari OpenAI, diumumkan, Baseten mengambil tantangan untuk mencapai implementasi kinerja tertinggi
- Baseten adalah mitra peluncuran resmi OpenAI
Melalui data pengguna nyata yang dipublikasikan di OpenRouter, Baseten membuktikan kinerja yang lebih baik dibanding pesaing di lingkungan berbasis GPU NVIDIA
Berkat Baseten Flexible Inference Stack dan keahlian tim model engineering, Baseten mampu menerapkan patch optimasi dengan cepat dalam rentang jam
Dalam beberapa jam penulisan blog saja, throughput bertambah 100 token per detik sambil mempertahankan 100% uptime

Titik awalnya adalah menjalankan baseline inference secepat mungkin
Terinspirasi oleh GPU, beberapa engineer menjalankan eksperimen paralel untuk vLLM, SGLang, TensorRT-LLM secara bersamaan
Berhasil menjalankan TensorRT-LLM dengan cepat karena performa terbaik
Keberhasilan mendapatkan dukungan TensorRT-LLM untuk Hopper (yang memiliki jumlah GPU H100 terbanyak) dan Blackwell (B200 lebih cepat)
Berkat fleksibilitas Baseten Inference Runtime, penanganan model arsitektur baru dan pergantian alat di dalam stack dilakukan dengan cepat

Munculnya arsitektur model baru biasanya disertai bug integrasi yang sering terjadi saat menggabungkan framework
GPT OSS menambahkan teknologi baru seperti format respons Harmony, sehingga muncul bug ketika diintegrasikan dengan framework yang sudah ada
Untuk menjaga kecepatan dan akurasi secara bersamaan, dilakukan perbaikan dan pengujian berulang; perbaikan yang efektif disumbangkan ke open source
Melalui kolaborasi komunitas open source global, berbagai jalur optimasi dan perbaikan bug dijalankan lebih cepat

OpenAI menyatakan GPT OSS 120B bisa berjalan pada satu H100, tetapi pada praktiknya paralelisasi 4-8 GPU lebih menguntungkan untuk performa
Tensor Parallelism unggul pada latensi, sedangkan Expert Parallelism unggul pada throughput sistem
- Baseten memilih Tensor Parallelism karena targetnya adalah optimasi latensi
Di Blackwell, penerapan TensorRT-LLM MoE Backend meningkatkan performa kernel CUDA dibanding backend Triton sebelumnya
Pengaturan yang dioptimalkan untuk masing-masing lingkungan Hopper dan Blackwell dipublikasikan, dan Model API menggunakan konfigurasi berbasis Blackwell

Meskipun optimasi tahap pertama saja sudah mencapai throughput dan latensi tingkat SOTA, masih ada ruang besar untuk penyempurnaan
Pembaruan utama berikutnya adalah penerapan Speculative Decoding
- Metode ini menggunakan model "draft" kecil yang lebih cepat untuk menghasilkan token prediksi, lalu model utama melakukan verifikasi
- Baseten merekomendasikan Eagle 3, tetapi mengoperasikan lebih dari 10 algoritme secara fleksibel di dalam stack inferensi sesuai skenario
Speculative decoding memproses beberapa token sekaligus, sehingga mendukung peningkatan kecepatan yang lebih efisien