glhf - Menjalankan (hampir) semua model bahasa

xguru · 2024-07-29T10:06:01+09:00

Menjalankan hampir semua model bahasa besar open source menggunakan vLLM dan scheduler GPU autoscaling buatan sendiri Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, dan lainnya Bekerja cukup dengan menempelkan tautan repositori Hugging Face tanpa konfigurasi khusus: semua repo full-weight dan 4-bit AWQ Dapat menggunakan hingga 8 GPU Nvidia A100 80Gb Gratis selama periode beta. Setelah beta berakhir pun, layanan ini akan berjalan secara multi-tenant sehingga harganya akan lebih baik dibanding harga GPU cloud utama

(glhf.chat)

5 poin oleh xguru 2024-07-29 | 2 komentar | Bagikan ke WhatsApp

Menjalankan hampir semua model bahasa besar open source menggunakan vLLM dan scheduler GPU autoscaling buatan sendiri
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, dan lainnya
Bekerja cukup dengan menempelkan tautan repositori Hugging Face tanpa konfigurasi khusus: semua repo full-weight dan 4-bit AWQ
Dapat menggunakan hingga 8 GPU Nvidia A100 80Gb
Gratis selama periode beta. Setelah beta berakhir pun, layanan ini akan berjalan secara multi-tenant sehingga harganya akan lebih baik dibanding harga GPU cloud utama

2 komentar

wedding 2024-07-30

Saya tadinya bingung bagaimana cara mencoba llama 405b, tapi ternyata cepat dan kualitasnya juga bagus.

xguru 2024-07-29

vLLM: Serving LLM yang mudah, cepat, dan murah dengan PagedAttention

glhf - Menjalankan (hampir) semua model bahasa

Bacaan terkait

2 komentar