6 poin oleh newgrit1004 2026-04-05 | Belum ada komentar. | Bagikan ke WhatsApp

Halo. Berkat dukungan dan minat yang diberikan pada proyek optimasi kernel Triton Qwen3-TTS sebelumnya, saya membagikan proyek open-source kedua.

Ini adalah node kustom ComfyUI yang mempercepat inferensi model generasi gambar populer, Z-Image S3-DiT (6.15B), hingga 20–30%, yang saat ini mencatat lebih dari 3,6 juta unduhan per bulan di HuggingFace.

1. Mengapa dibuat? (Latar belakang dan fitur)
Saat ini sudah ada Nunchaku(SVDQuant) sebagai alat untuk mempercepat Z-Image, tetapi alat tersebut hanya mendukung model Z-Image 'Turbo'. Saya merasa dibutuhkan solusi akselerasi level kernel untuk model Base.

Selain itu, dari sudut pandang pengguna, harus mengunduh lagi model terkuantisasi berukuran puluhan GB (seperti GGUF) adalah beban yang besar. Karena itu, saya membuatnya agar model BF16 safetensors yang sudah digunakan dapat langsung dikuantisasi saat runtime (On-the-fly Quantization) dan tetap dipakai apa adanya.

  • Bisa dipasang dengan satu klik melalui ComfyUI Manager atau dengan mudah lewat pip install. (Tidak ada stres karena build CUDA kustom yang merepotkan atau pencocokan versi.)
  • Cukup menambahkan 1 node ke workflow yang sudah ada, dan sepenuhnya kompatibel dengan LoRA serta ControlNet.

2. Benchmark performa (RTX 5090, basis 30 steps)

  • T2I Baseline: 18.9s → Triton + INT8: 15.3s (peningkatan kecepatan 1.24x)
  • LoRA Baseline: 19.0s → LoRA + Triton + INT8: 14.6s (peningkatan kecepatan 1.30x)
  • Penghematan VRAM: total 23GB → 19.5GB (turun sekitar 3.5GB)

3. Meninjau langsung preservasi kualitas dengan mata sendiri (tanpa cherry-picking)
Pada proyek TTS sebelumnya, untuk memeriksa hasil Anda harus repot mengunduh dan mendengarkan audio secara langsung, tetapi kali ini perbandingan kualitas bisa dilakukan seketika di web.

Tidak ada cherry-picking apa pun untuk perbandingan performa. Karena karakteristik kernel fusion dan kuantisasi, memang ada perubahan halus pada tingkat piksel, tetapi komposisi keseluruhan dan kualitas detail tetap terjaga dengan sangat baik. Silakan periksa sendiri gambar perbandingan asli untuk semua skenario pada tautan di bawah ini.

4. Poin engineering
Untuk kode kernel kali ini juga saya banyak memanfaatkan bantuan Claude Code, sementara saya memfokuskan seluruh energi pada benchmarking yang ketat dan verifikasi kualitas.

  • Penerapan 6 kernel fusion Triton (RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D)
  • Melalui W8A8 + Hadamard Rotation (berbasis NeurIPS 2024 QuaRot / ConvRot), outlier didistribusikan agar kualitas kuantisasi semaksimal mungkin tetap terjaga

5. Pratinjau pembaruan proyek sebelumnya
Sebagai tambahan, proyek qwen3-tts-triton yang sebelumnya saya rilis juga akan segera saya bawa ke node kustom ComfyUI. (pembaruan v0.2.0: pengurangan pelafalan yang terdengar blur melalui hybrid Triton+PyTorch, penerapan TurboQuant, penggantian alat evaluasi Cohere, dan lain-lain)

Saat ini pengujian telah selesai di lingkungan pribadi saya (RTX 5090). Jika Anda mencobanya di GPU seri 30/40 atau lingkungan lain, lalu memberikan masukan melalui issue GitHub atau komentar, itu akan sangat membantu. Terima kasih!

Belum ada komentar.

Belum ada komentar.