5 poin oleh xguru 2024-07-29 | 2 komentar | Bagikan ke WhatsApp
  • Menjalankan hampir semua model bahasa besar open source menggunakan vLLM dan scheduler GPU autoscaling buatan sendiri
    • Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, dan lainnya
  • Bekerja cukup dengan menempelkan tautan repositori Hugging Face tanpa konfigurasi khusus: semua repo full-weight dan 4-bit AWQ
  • Dapat menggunakan hingga 8 GPU Nvidia A100 80Gb
  • Gratis selama periode beta. Setelah beta berakhir pun, layanan ini akan berjalan secara multi-tenant sehingga harganya akan lebih baik dibanding harga GPU cloud utama

2 komentar

 
wedding 2024-07-30

Saya tadinya bingung bagaimana cara mencoba llama 405b, tapi ternyata cepat dan kualitasnya juga bagus.