7 poin oleh GN⁺ 2025-08-12 | Belum ada komentar. | Bagikan ke WhatsApp
  • LLM open source OpenAI, yakni GPT-OSS-120B, dioptimalkan di lingkungan GPU NVIDIA dengan kinerja pemrosesan lebih dari 500 token per detik
  • Berbagai framework inference seperti TensorRT-LLM, vLLM, dan SGLang diuji secara paralel, dengan dukungan untuk arsitektur Hopper dan Blackwell
  • Memperbaiki bug kompatibilitas, mengintegrasikan format respons baru seperti Harmony, serta menerapkan optimasi KV cache-aware routing dan speculative decoding berbasis Eagle
  • Setelah membandingkan tensor parallelism dan expert parallelism, dipilih tensor parallelism untuk latensi rendah dan penggunaan backend TensorRT-LLM MoE di Blackwell
  • Direncanakan optimasi tambahan, termasuk Speculative Decoding dengan model draft kecil, untuk peningkatan performa di masa depan

Ikhtisar

  • Saat GPT-OSS-120B, model bahasa besar open source terbaru dari OpenAI, diumumkan, Baseten mengambil tantangan untuk mencapai implementasi kinerja tertinggi
    • Baseten adalah mitra peluncuran resmi OpenAI
  • Melalui data pengguna nyata yang dipublikasikan di OpenRouter, Baseten membuktikan kinerja yang lebih baik dibanding pesaing di lingkungan berbasis GPU NVIDIA
  • Berkat Baseten Flexible Inference Stack dan keahlian tim model engineering, Baseten mampu menerapkan patch optimasi dengan cepat dalam rentang jam
  • Dalam beberapa jam penulisan blog saja, throughput bertambah 100 token per detik sambil mempertahankan 100% uptime

Langkah 1: Menjalankan inference awal

  • Titik awalnya adalah menjalankan baseline inference secepat mungkin
  • Terinspirasi oleh GPU, beberapa engineer menjalankan eksperimen paralel untuk vLLM, SGLang, TensorRT-LLM secara bersamaan
  • Berhasil menjalankan TensorRT-LLM dengan cepat karena performa terbaik
  • Keberhasilan mendapatkan dukungan TensorRT-LLM untuk Hopper (yang memiliki jumlah GPU H100 terbanyak) dan Blackwell (B200 lebih cepat)
  • Berkat fleksibilitas Baseten Inference Runtime, penanganan model arsitektur baru dan pergantian alat di dalam stack dilakukan dengan cepat

Langkah 2: Memperbaiki bug kompatibilitas

  • Munculnya arsitektur model baru biasanya disertai bug integrasi yang sering terjadi saat menggabungkan framework
  • GPT OSS menambahkan teknologi baru seperti format respons Harmony, sehingga muncul bug ketika diintegrasikan dengan framework yang sudah ada
  • Untuk menjaga kecepatan dan akurasi secara bersamaan, dilakukan perbaikan dan pengujian berulang; perbaikan yang efektif disumbangkan ke open source
  • Melalui kolaborasi komunitas open source global, berbagai jalur optimasi dan perbaikan bug dijalankan lebih cepat

Langkah 3: Mengoptimalkan konfigurasi model

  • OpenAI menyatakan GPT OSS 120B bisa berjalan pada satu H100, tetapi pada praktiknya paralelisasi 4-8 GPU lebih menguntungkan untuk performa
  • Tensor Parallelism unggul pada latensi, sedangkan Expert Parallelism unggul pada throughput sistem
    • Baseten memilih Tensor Parallelism karena targetnya adalah optimasi latensi
  • Di Blackwell, penerapan TensorRT-LLM MoE Backend meningkatkan performa kernel CUDA dibanding backend Triton sebelumnya
  • Pengaturan yang dioptimalkan untuk masing-masing lingkungan Hopper dan Blackwell dipublikasikan, dan Model API menggunakan konfigurasi berbasis Blackwell

Optimasi performa tambahan

  • Meskipun optimasi tahap pertama saja sudah mencapai throughput dan latensi tingkat SOTA, masih ada ruang besar untuk penyempurnaan
  • Pembaruan utama berikutnya adalah penerapan Speculative Decoding
    • Metode ini menggunakan model "draft" kecil yang lebih cepat untuk menghasilkan token prediksi, lalu model utama melakukan verifikasi
    • Baseten merekomendasikan Eagle 3, tetapi mengoperasikan lebih dari 10 algoritme secara fleksibel di dalam stack inferensi sesuai skenario
  • Speculative decoding memproses beberapa token sekaligus, sehingga mendukung peningkatan kecepatan yang lebih efisien

Belum ada komentar.

Belum ada komentar.