22 poin oleh newgrit1004 2026-03-23 | Belum ada komentar. | Bagikan ke WhatsApp

Halo, saya ingin membagikan library fusi kernel Triton yang dibuat untuk mengatasi bottleneck inferensi pada model Qwen3-TTS 1.7B dan berhasil memperoleh peningkatan kecepatan sekitar 5x.

1. Mengapa dibuat? (Latar belakang)
Bagi yang pernah menggunakan audio TTS di lingkungan kerja, pasti tahu bahwa model probabilistik (stochastic) seperti Qwen3-TTS menghasilkan output yang berbeda setiap kali dibuat (intonasi, tone, dan sebagainya).

Pada akhirnya, di penggunaan nyata strategi multi-generasi menjadi hal yang wajib: menghasilkan beberapa kandidat audio dengan cepat lalu memilih yang paling natural. Namun, dengan kecepatan sebelumnya, pipeline kerja terasa terlalu lambat, sehingga saya memutuskan melakukan optimasi sendiri. Lewat optimasi ini, dalam waktu yang sebelumnya hanya cukup untuk membuat 1 hasil, kini bisa menghasilkan 5 kandidat.

2. Bagaimana dibuat? (Claude Code + pengujian ketat)
Sejujurnya, saya sudah tahu betapa kuatnya OpenAI Triton sebagai library optimasi kernel, tetapi saya belum pernah menulis kode kernel secara langsung. Karena itu, sebagian besar kode kernel dalam proyek ini ditulis dengan bantuan Claude Code.

Sebagai gantinya, untuk menutupi kurangnya pengalaman saya dalam implementasi Triton dan menjamin keandalan model 100%, alih-alih fokus menulis kode, saya mencurahkan seluruh energi untuk melakukan pengujian yang benar-benar ketat.

  • Saya menulis 90 unit test untuk menjamin hasil matematis yang sepenuhnya identik dengan model asli.
  • Pada layer checkpoint utama maupun output akhir, semuanya mencapai Cosine Similarity > 0.997.

3. Poin engineering dan hasil
Terinspirasi dari Liger Kernel milik LinkedIn, saya memfusi 4 operasi yang menjadi bottleneck saat inferensi (RMSNorm, M-RoPE, Norm+Residual, SwiGLU) menjadi kernel Triton.

[Benchmark performa - berdasarkan RTX 5090]

  • Base (PyTorch): 3,902 ms
  • Hybrid (Faster+Triton): 919 ms (~peningkatan kecepatan 4.7x)
    (※ Mode Hybrid adalah hasil menggabungkan fusi kernel Triton ini ke faster-qwen3-tts berbasis CUDA Graph.)

4. Penutup
Saat ini pengujian baru selesai dilakukan di lingkungan RTX 5090 milik pribadi saya. Jika ada yang memakai perangkat lain seperti kelas server (A100, H100) atau RTX 4090, lalu sempat mencobanya dan memberikan feedback lewat GitHub atau komentar, itu akan sangat membantu.

Terima kasih sudah membaca tulisan panjang ini!

Belum ada komentar.

Belum ada komentar.