- LLM open source OpenAI, yakni GPT-OSS-120B, dioptimalkan di lingkungan GPU NVIDIA dengan kinerja pemrosesan lebih dari 500 token per detik
- Berbagai framework inference seperti TensorRT-LLM, vLLM, dan SGLang diuji secara paralel, dengan dukungan untuk arsitektur Hopper dan Blackwell
- Memperbaiki bug kompatibilitas, mengintegrasikan format respons baru seperti Harmony, serta menerapkan optimasi KV cache-aware routing dan speculative decoding berbasis Eagle
- Setelah membandingkan tensor parallelism dan expert parallelism, dipilih tensor parallelism untuk latensi rendah dan penggunaan backend TensorRT-LLM MoE di Blackwell
- Direncanakan optimasi tambahan, termasuk Speculative Decoding dengan model draft kecil, untuk peningkatan performa di masa depan
Ikhtisar
- Saat GPT-OSS-120B, model bahasa besar open source terbaru dari OpenAI, diumumkan, Baseten mengambil tantangan untuk mencapai implementasi kinerja tertinggi
- Baseten adalah mitra peluncuran resmi OpenAI
- Melalui data pengguna nyata yang dipublikasikan di OpenRouter, Baseten membuktikan kinerja yang lebih baik dibanding pesaing di lingkungan berbasis GPU NVIDIA
- Berkat Baseten Flexible Inference Stack dan keahlian tim model engineering, Baseten mampu menerapkan patch optimasi dengan cepat dalam rentang jam
- Dalam beberapa jam penulisan blog saja, throughput bertambah 100 token per detik sambil mempertahankan 100% uptime
Langkah 1: Menjalankan inference awal
- Titik awalnya adalah menjalankan baseline inference secepat mungkin
- Terinspirasi oleh GPU, beberapa engineer menjalankan eksperimen paralel untuk vLLM, SGLang, TensorRT-LLM secara bersamaan
- Berhasil menjalankan TensorRT-LLM dengan cepat karena performa terbaik
- Keberhasilan mendapatkan dukungan TensorRT-LLM untuk Hopper (yang memiliki jumlah GPU H100 terbanyak) dan Blackwell (B200 lebih cepat)
- Berkat fleksibilitas Baseten Inference Runtime, penanganan model arsitektur baru dan pergantian alat di dalam stack dilakukan dengan cepat
Langkah 2: Memperbaiki bug kompatibilitas
- Munculnya arsitektur model baru biasanya disertai bug integrasi yang sering terjadi saat menggabungkan framework
- GPT OSS menambahkan teknologi baru seperti format respons Harmony, sehingga muncul bug ketika diintegrasikan dengan framework yang sudah ada
- Untuk menjaga kecepatan dan akurasi secara bersamaan, dilakukan perbaikan dan pengujian berulang; perbaikan yang efektif disumbangkan ke open source
- Melalui kolaborasi komunitas open source global, berbagai jalur optimasi dan perbaikan bug dijalankan lebih cepat
Langkah 3: Mengoptimalkan konfigurasi model
- OpenAI menyatakan GPT OSS 120B bisa berjalan pada satu H100, tetapi pada praktiknya paralelisasi 4-8 GPU lebih menguntungkan untuk performa
- Tensor Parallelism unggul pada latensi, sedangkan Expert Parallelism unggul pada throughput sistem
- Baseten memilih Tensor Parallelism karena targetnya adalah optimasi latensi
- Di Blackwell, penerapan TensorRT-LLM MoE Backend meningkatkan performa kernel CUDA dibanding backend Triton sebelumnya
- Pengaturan yang dioptimalkan untuk masing-masing lingkungan Hopper dan Blackwell dipublikasikan, dan Model API menggunakan konfigurasi berbasis Blackwell
Optimasi performa tambahan
- Meskipun optimasi tahap pertama saja sudah mencapai throughput dan latensi tingkat SOTA, masih ada ruang besar untuk penyempurnaan
- Pembaruan utama berikutnya adalah penerapan Speculative Decoding
- Metode ini menggunakan model "draft" kecil yang lebih cepat untuk menghasilkan token prediksi, lalu model utama melakukan verifikasi
- Baseten merekomendasikan Eagle 3, tetapi mengoperasikan lebih dari 10 algoritme secara fleksibel di dalam stack inferensi sesuai skenario
- Speculative decoding memproses beberapa token sekaligus, sehingga mendukung peningkatan kecepatan yang lebih efisien
Belum ada komentar.