- Menjalankan hampir semua model bahasa besar open source menggunakan vLLM dan scheduler GPU autoscaling buatan sendiri
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, dan lainnya
- Bekerja cukup dengan menempelkan tautan repositori Hugging Face tanpa konfigurasi khusus: semua repo full-weight dan 4-bit AWQ
- Dapat menggunakan hingga 8 GPU Nvidia A100 80Gb
- Gratis selama periode beta. Setelah beta berakhir pun, layanan ini akan berjalan secara multi-tenant sehingga harganya akan lebih baik dibanding harga GPU cloud utama
2 komentar
Saya tadinya bingung bagaimana cara mencoba llama 405b, tapi ternyata cepat dan kualitasnya juga bagus.
vLLM: Serving LLM yang mudah, cepat, dan murah dengan PagedAttention