- Mengubah jaringan saraf mendalam menjadi kode C++ CUDA (GPU NVIDIA) / HIP (GPU AMD) untuk inferensi cepat
- Pada model-model utama seperti ResNet, BERT, VisionTransformer, dan Stable Diffusion, performanya mendekati performa roofline fp16 TensorCore/MatrixCore
- Open source yang terpadu, terbuka, dan fleksibel
- Kompatibilitas mundur yang sangat baik (tanpa dependensi pada library/runtime pihak ketiga). Setiap model dikompilasi sebagai biner portabel
- Horizontal Fusion / Vertical Fusion / Memory Fusion
- Berfungsi dengan atau tanpa PyTorch
Belum ada komentar.