7 poin oleh GN⁺ 2025-08-12 | 2 komentar | Bagikan ke WhatsApp
  • LLM open source OpenAI, yakni GPT-OSS-120B, dioptimalkan di lingkungan GPU NVIDIA dengan kinerja pemrosesan lebih dari 500 token per detik
  • Berbagai framework inference seperti TensorRT-LLM, vLLM, dan SGLang diuji secara paralel, dengan dukungan untuk arsitektur Hopper dan Blackwell
  • Memperbaiki bug kompatibilitas, mengintegrasikan format respons baru seperti Harmony, serta menerapkan optimasi KV cache-aware routing dan speculative decoding berbasis Eagle
  • Setelah membandingkan tensor parallelism dan expert parallelism, dipilih tensor parallelism untuk latensi rendah dan penggunaan backend TensorRT-LLM MoE di Blackwell
  • Direncanakan optimasi tambahan, termasuk Speculative Decoding dengan model draft kecil, untuk peningkatan performa di masa depan

Ikhtisar

  • Saat GPT-OSS-120B, model bahasa besar open source terbaru dari OpenAI, diumumkan, Baseten mengambil tantangan untuk mencapai implementasi kinerja tertinggi
    • Baseten adalah mitra peluncuran resmi OpenAI
  • Melalui data pengguna nyata yang dipublikasikan di OpenRouter, Baseten membuktikan kinerja yang lebih baik dibanding pesaing di lingkungan berbasis GPU NVIDIA
  • Berkat Baseten Flexible Inference Stack dan keahlian tim model engineering, Baseten mampu menerapkan patch optimasi dengan cepat dalam rentang jam
  • Dalam beberapa jam penulisan blog saja, throughput bertambah 100 token per detik sambil mempertahankan 100% uptime

Langkah 1: Menjalankan inference awal

  • Titik awalnya adalah menjalankan baseline inference secepat mungkin
  • Terinspirasi oleh GPU, beberapa engineer menjalankan eksperimen paralel untuk vLLM, SGLang, TensorRT-LLM secara bersamaan
  • Berhasil menjalankan TensorRT-LLM dengan cepat karena performa terbaik
  • Keberhasilan mendapatkan dukungan TensorRT-LLM untuk Hopper (yang memiliki jumlah GPU H100 terbanyak) dan Blackwell (B200 lebih cepat)
  • Berkat fleksibilitas Baseten Inference Runtime, penanganan model arsitektur baru dan pergantian alat di dalam stack dilakukan dengan cepat

Langkah 2: Memperbaiki bug kompatibilitas

  • Munculnya arsitektur model baru biasanya disertai bug integrasi yang sering terjadi saat menggabungkan framework
  • GPT OSS menambahkan teknologi baru seperti format respons Harmony, sehingga muncul bug ketika diintegrasikan dengan framework yang sudah ada
  • Untuk menjaga kecepatan dan akurasi secara bersamaan, dilakukan perbaikan dan pengujian berulang; perbaikan yang efektif disumbangkan ke open source
  • Melalui kolaborasi komunitas open source global, berbagai jalur optimasi dan perbaikan bug dijalankan lebih cepat

Langkah 3: Mengoptimalkan konfigurasi model

  • OpenAI menyatakan GPT OSS 120B bisa berjalan pada satu H100, tetapi pada praktiknya paralelisasi 4-8 GPU lebih menguntungkan untuk performa
  • Tensor Parallelism unggul pada latensi, sedangkan Expert Parallelism unggul pada throughput sistem
    • Baseten memilih Tensor Parallelism karena targetnya adalah optimasi latensi
  • Di Blackwell, penerapan TensorRT-LLM MoE Backend meningkatkan performa kernel CUDA dibanding backend Triton sebelumnya
  • Pengaturan yang dioptimalkan untuk masing-masing lingkungan Hopper dan Blackwell dipublikasikan, dan Model API menggunakan konfigurasi berbasis Blackwell

Optimasi performa tambahan

  • Meskipun optimasi tahap pertama saja sudah mencapai throughput dan latensi tingkat SOTA, masih ada ruang besar untuk penyempurnaan
  • Pembaruan utama berikutnya adalah penerapan Speculative Decoding
    • Metode ini menggunakan model "draft" kecil yang lebih cepat untuk menghasilkan token prediksi, lalu model utama melakukan verifikasi
    • Baseten merekomendasikan Eagle 3, tetapi mengoperasikan lebih dari 10 algoritme secara fleksibel di dalam stack inferensi sesuai skenario
  • Speculative decoding memproses beberapa token sekaligus, sehingga mendukung peningkatan kecepatan yang lebih efisien

2 komentar

 
jjw951215 2025-08-12

Aku juga berharap ada yang kasih aku satu H100 kecil yang imut..

 
GN⁺ 2025-08-12
Komentar Hacker News
  • widely-available H100 GPUs

    Jadi saya mengutak-atik laci komponen di rumah; entah saya cari di mana, mengapa GPU H100 senilai US$25.000 tidak ada?

    • Saya sudah mengecek langsung di halaman produk NVIDIA bahwa H100 memang diklasifikasikan sebagai GPU. Sekarang kita butuh nama yang lebih mudah membedakan antara ‘perangkat keras kelas konsumen yang utamanya untuk gaming tetapi hanya sangat terbatas untuk inferensi LLM’ dan ‘perangkat keras kelas profesional untuk keperluan bisnis, di mana pelatihan AI/LLM atau inferensi menjadi tujuan utamanya.’
    • Saya mencoba model 20B di Ollama dengan 8 kartu TitanX (tahun 2015). Ollama membagi rata total 15GB VRAM ke 8 kartu, dan laju token juga lebih cepat daripada kecepatan baca.
    • GPU semacam ini memang sangat mudah untuk disewa. Kalau tidak akan dijalankan 24/7 dalam waktu lama, menyewa hosting jauh lebih ekonomis dibanding membeli sendiri. Untuk keperluan pribadi, jarang perlu pakai kartu data-center kelas terbaru; Mac Studio atau Strix Halo pun cukup, meski kecepatannya lumayan lebih lambat.
    • Komentar ini bikin hari ini jadi menyenangkan. Ini memang perspektif dari sisi data center, dan perangkat keras paling cepat di laci saya mungkin iPhone 8 lama.
    • Klaim ‘tidak punya GPU US$25.000 di rumah’ memang benar artinya bisa didapatkan. Maksudnya bukan bahwa orang punya dana untuk membelinya, melainkan ada stoknya dan bisa didapat.
  • Saya mencoba GPT-OSS-120B di MacBook Pro (M4, RAM 128GB) saat di dalam pesawat terbang lintas Atlantik. Cepat hanya saat jendela konteks kecil dan jumlah total token rendah. Begitu melewati 10 ribu token, hampir semua proses jadi lama dan menumpuk antrean. MCPs, pencarian web, dan patch URL sudah sangat penting dalam pengalaman memakai LLM. Tanpa fitur-fitur ini, utilitas LLM menurun drastis. Alat coding CLI/TUI yang sudah dipersiapkan untuk mode offline (seperti opencode) tidak berjalan andal bersama model. Selain poin-poin yang juga banyak dibahas di komentar sebelumnya, ada aspek lain pada model OSS ini:

    • Dulu Wikipedia versi lama pun bisa dipakai secara lokal, jadi saya rasa nanti banyak data akan diekspos via MCP sehingga AI bisa melakukan pencarian lokal seperti ‘pencarian web’. 99% pencarian web terjadi hanya di situs yang sama 100~1000. Jadi secara agregat, menyimpan beberapa GB saja mungkin sudah cukup dan isu hak cipta tetap ada.
    • Penasaran pakai Ollama, LMStudio, atau llama.cpp tweet ggerganov
    • Penasaran bagaimana kalian menyetel iogpu.wired_limit_mb. Default hanya sekitar 70% RAM, kira-kira 90GB, yang bisa dipakai core GPU. Kalau mau lebih dimanfaatkan, pengaturannya harus diubah.
    • Saya pakai prosesor M2 Max. Percakapan pendek sempat dapat lebih dari 60 token/detik, tetapi saat makin panjang turun sampai 30. Saya penasaran apa penyebab penurunan ini. Sepertinya bukan masalah thermal throttling.
    • Saya pikir ini kombinasi antara prefill compute-bound (ketika rasio bandwidth/operasi CPU tinggi) dan decode. Bahkan dengan 10 ribu konteks, time-to-first-token tetap di bawah 0,5 detik.
  • Beberapa insinyur mencoba vLLM, SGLang, dan TensorRT-LLM secara paralel. Banyak yang bilang TensorRT-LLM yang paling cepat, tapi biasanya juga yang paling susah disetel, tidak terlalu cepat mengadopsi arsitektur terbaru, dan merepotkan karena harus mengompilasi model langsung di stack hardware-driver-library yang sama dengan lingkungan production. Untuk sementara, multimodal sempat hampir tidak mungkin, bahkan model multimodal Llama yang terkenal pun tidak berjalan dengan benar. Saya mempertanyakan nilai praktisnya, karena contohnya menjalankan GPT-OSS-120B di H100 dengan vLLM berjalan lancar dan stabil pada 130~140 t/s. Dari judulnya terlihat seolah satu GPU bisa menghasilkan 500 t/s, padahal kenyataannya itu setting tensor parallel. Menarik juga, ada paket TensorRT-LLM terpisah untuk gpt-oss. TRT-LLM itu sendiri tool yang cukup membingungkan.

    • Kalau mencoba TRT-LLM, dari sisi DX tantangan pengembangnya banyak. Untuk multimodal, saya masih banyak menggunakan vLLM. Namun untuk trafik berukuran besar dan latensi rendah seperti trafik yang kami layanan, benchmark selalu menunjukkan TRT-LLM terbaik, jadi kami cukup banyak investasi di tooling ini.
  • GPT-OSS 20B sangat mudah dipasang. Berkat Llama, saya bisa menjalankannya di Mac saya dalam 5 menit.

    • Kalau CPU-nya cukup, 120B juga tidak sulit dijalankan. Untuk server inferensi LLM berbasis CPU di rumah, cukup unduh file GGUF, git pull, lalu rebuild llama-server, langsung jadi. 40 t/s didapat tanpa tuning, dan 50 t/s kalau tuning sedikit. Sayangnya, sudah banyak model yang lebih baik dibanding 120B sehingga tidak wajib dijalankan. ggerganov dan tim llama.cpp memang hebat karena membuat LLM bisa dipakai di lingkungan komputasi pribadi.
    • Banyak yang bilang setting LLM itu sulit. Bukankah kita bisa minta LLM yang atur itu sendiri? Kalau hal sesederhana itu pun tidak bisa, apa gunanya LLM?
    • Kemarin saya coba dan di semua sesi terus-menerus keluar informasi yang salah faktanya. Kecepatan dan kemudahannya baik, tapi kalau mengorbankan akurasi jadi tidak ada makna.
    • Kalau memori cukup, 120B memang sangat mudah berjalan.
  • Saat membaca, saya baru tahu ternyata butuh pra-pemrosesan dan tuning yang sangat besar agar model bekerja dengan baik; saya pikir sebelumnya akan baik-baik saja dengan setelan default.

    • Menurut saya, perusahaan besar sebaiknya lebih aktif berkolaborasi dengan pengembang mesin inferensi yang populer sebelum merilis LLM agar LLM mereka juga didukung. Mungkin karena semuanya masih eksperimental, tapi para pengembang benar-benar berusaha agar LLM bisa dipakai juga di hardware berbiaya rendah.
  • Di AI Action Plan Amerika, poin “mendorong AI open source dan open-weight” muncul tepat setelah poin “frontier AI melindungi kebebasan berekspresi dan nilai-nilai Amerika”. Mungkin tidak rasional, tapi membaca model OSS OpenAI pada titik ini terasa agak merinding. Namun saya tetap senang pengembang model OSS membahas soal hardware. Bagi mayoritas developer, hardware adalah hambatan masuk, jadi senang sekali ada diskusi di area ini.

    • Poin “frontier AI melindungi kebebasan dan nilai-nilai Amerika” juga disebutkan, dan mohon maaf ya karena saya masih dalam tahap menyusun opini. Model AI selalu membawa worldview, dan saya justru lebih suka worldview Barat. Banyak preseden bahwa ini juga membuat masyarakat yang lebih baik. Setidaknya, model sebaiknya mendokumentasikan worldview-nya sendiri dan tetap konsisten, supaya tidak diam-diam mengarahkan cara berpikir pengguna secara terselubung melalui social engineering.
  • Apakah ada situs yang jelas merekomendasikan model LLM mana yang berjalan baik per OS dan per GPU? Formula paling dapat diandalkan untuk mengestimasi VRAM dari pengalaman saya adalah parameter × (Precision/8) × 1,2 (Referensi).

    • Saya sempat coba bikin kalkulator serupa, tapi di lapangan ada terlalu banyak variabel (seperti trafik simultan). Formula itu kira-kira benar, tetapi kalau trafik bersamaan tinggi, aman jika dikalikan dua.
    • Di Hugging Face, kalau masukin spesifikasi hardware/software, ada fitur yang menampilkan ketersediaan model di masing-masing halaman detail model (pengaturan huggingface).
    • Internet saya juga bagus, jadi cara tercepat tetap mengunduh file bobot model lalu menjalankannya di beberapa runner (llama.cpp, LM Studio, vLLM, SGLang, dan lain-lain). Karena variabelnya terlalu banyak—runner, implementasi, hardware—kalau sampai sekarang tidak ada kalkulator yang benar-benar pas dengan pengalaman nyata. Cara paling pas adalah langsung dicoba.
    • Terima kasih untuk semua masukannya. Kalau perhitungannya sulit, mungkin akan berguna kalau komunitas membangun situs DB yang bereksperimen dan berbagi tentang runner, hardware, model, parameter, quantization, apakah bisa berjalan, dan metrik seperti tokens/s. Kalau bisa difilter per kombinasi hardware/runner, itu sangat praktis.
  • Menyampaikan bahwa angka pasti seperti ukuran array sebenarnya dari GPT-OSS-120B ternyata sulit ditemukan. Kalau bahasanya bertipe statis, ukuran array bisa diperkirakan dengan sekilas, tapi saya ingin tahu bagaimana data selain bobot mengalir dan seberapa lebar output stream-nya. Di mana batas throughput ‘token output’ pada ethernet gigabit, jadi saya mencoba cari repositori GitHub gpt-oss, tapi tidak terlalu terlihat.

    • Ingin tahu contoh aplikasi apa yang melakukan stream processing pada semua token berurutan (sambil tetap sampling token sesuai protokol). Harus juga diingat, biasanya agar tata bahasa memenuhi syarat, logit perlu diproses sebelum sampling dan token dikembalikan agar bisa masuk inferensi berikutnya.
    • Di config model Hugging Face ada 2.880 nilai (pengali dtype).
  • GPT-OSS lebih cepat di chip Blackwell berkat dukungan fp4. Saya sedang membuat engine training/inferensi dengan Rust dan menambahkan dukungan fp8, fp4 di cudarc serta candle. Sedang dikerjakan agar engine ini didukung di Mixlayer.

    • Saya pengguna RTX Pro 6000 dan penasaran apakah saat ini inferensi gpt-oss-120b sudah memungkinkan. PR-nya kelihatan sudah di-merge, tapi saya penasaran apakah benar-benar bisa dijalankan.