Biaya self-hosting model Llama-3 8B-Instruct
(blog.lytix.co)- Berapa biaya untuk melakukan hosting sendiri model bahasa besar (LLM)?
- Jika model Llama-3 8B-Instruct di-hosting di EKS, biayanya sekitar $17 per 1 juta token
- Untuk pekerjaan yang sama, jika menggunakan ChatGPT biayanya $1 per 1 juta token
- Jika melakukan self-hosting dengan perangkat keras sendiri, biaya per 1 juta token bisa turun menjadi di bawah $0.01, dan butuh sekitar 5,5 tahun untuk mencapai titik impas
- Dihitung berdasarkan 4x GPU NVidia Tesla T4 dan biaya perangkat keras lainnya ($3800) + biaya bulanan (listrik dan lain-lain) $100
Proses menentukan perangkat keras yang optimal
-
Lingkungan pengujian: Semua pengujian dijalankan di klaster EKS
-
Percobaan pertama: Instance AWS
g4dn.2xlargeyang menggunakan GPU Nvidia Tesla T4.- Spesifikasi: 1 NVidia Tesla T4, memori 32GB, 8 vCPU.
- Hasil: Tidak dapat menjalankan Llama 3 versi parameter 8B maupun 70B.
- Masalah: Terjadi OOM (Out of Memory) dan waktu respons memakan sekitar 10 menit.
-
Percobaan kedua: Instance AWS
g4dn.16xlargeyang menggunakan 4 GPU Nvidia Tesla T4.- Spesifikasi: 4 NVidia Tesla T4, memori 192GB, 48 vCPU.
- Hasil: Waktu respons turun menjadi di bawah 10 detik.
Implementasi awal
- Metode implementasi: Menyalin dan menggunakan kode Llama-3 dari Hugging Face.
- Perhitungan biaya:
- Biaya penggunaan instance
g5dn.12xlarge: $3.912 per jam. - Jika dihitung sebagai biaya bulanan, biaya menjadi sekitar $167.17 per 1 juta token.
- Biaya ChatGPT 3.5 Turbo: $1 per 1 juta token.
- Biaya penggunaan instance
Pemecahan masalah
- Identifikasi masalah: Menyadari bahwa metode sebelumnya salah, lalu menggunakan
vLLM. - Hasil perbaikan:
- Memasang
raydanvllmuntuk hosting server API. - Menggunakan semua 4 GPU dengan opsi
—tensor-parallel-size 4. - Hasil: Waktu respons meningkat drastis menjadi 2044ms.
- Dalam perhitungan biaya, biayanya menjadi sekitar $17 per 1 juta token.
- Memasang
Pendekatan alternatif
- Hosting dengan perangkat keras sendiri:
- Perangkat keras yang dibutuhkan: 4x GPU NVidia Tesla T4, sekitar $700 di eBay.
- Dengan biaya lain-lain, total biaya instalasi sekitar $3,800.
- Biaya energi bulanan sekitar $50.
- Total biaya bulanan dihitung sekitar $100.
- Butuh sekitar 66 bulan (5,5 tahun) untuk mencapai titik impas.
Kesimpulan
- Kelebihan: Hosting dengan perangkat keras sendiri dapat menghemat biaya.
- Kekurangan: Perlu pengelolaan perangkat keras dan penskalaan
- Karena asumsi utilisasi 100% tidak realistis, penilaian perlu disesuaikan dengan kondisi nyata.
4 komentar
Ini bukan untuk membangun model,
hanya melakukan inferensi dengan Llama 8B, jadi perangkatnya berlebihan.
GPU 24G (3090 atau 4090) sudah cukup (2–3 juta), dan biaya listrik bulanan sekitar 30 ribu won juga sudah memadai.
Setelah ditulis, ternyata sudah ada di bawah ya haha
5,5 tahun itu lama juga..
Apakah 8B bisa digunakan untuk sesuatu yang lebih dari sekadar level mainan?
Komentar Hacker News