Biaya self-hosting model Llama-3 8B-Instruct

xguru · 2024-06-17T10:08:01+09:00

Berapa biaya untuk melakukan hosting sendiri model bahasa besar (LLM)? Jika model Llama-3 8B-Instruct di-hosting di EKS, biayanya sekitar $17 per 1 juta token Untuk pekerjaan yang sama, jika menggunakan ChatGPT biayanya $1 per 1 juta token Jika melakukan self-hosting dengan perangkat keras sendiri, biaya per 1 juta token bisa turun menjadi di bawah $0.01, dan butuh sekitar 5,5 tahun untuk mencapai titik impas Dihitung berdasarkan 4x GPU NVidia Tesla T4 dan biaya perangkat keras lainnya ($3800) + biaya bulanan (listrik dan lain-lain) $100 Proses menentukan perangkat keras yang optimal Lingkungan pengujian: Semua pengujian dijalankan di klaster EKS Percobaan pertama: Instance AWS g4dn.2xlarge yang menggunakan GPU Nvidia Tesla T4. Spesifikasi: 1 NVidia Tesla T4, memori 32GB, 8 vCPU. Hasil: Tidak dapat menjalankan Llama 3 versi parameter 8B maupun 70B. Masalah: Terjadi OOM (Out of Memory) dan waktu respons memakan sekitar 10 menit. Percobaan kedua: Instance AWS g4dn.16xlarge yang menggunakan 4 GPU Nvidia Tesla T4. Spesifikasi: 4 NVidia Tesla T4, memori 192GB, 48 vCPU. Hasil: Waktu respons turun menjadi di bawah 10 detik. Implementasi awal Metode implementasi: Menyalin dan menggunakan kode Llama-3 dari Hugging Face. Perhitungan biaya: Biaya penggunaan instance g5dn.12xlarge: $3.912 per jam. Jika dihitung sebagai biaya bulanan, biaya menjadi sekitar $167.17 per 1 juta token. Biaya ChatGPT 3.5 Turbo: $1 per 1 juta token. Pemecahan masalah Identifikasi masalah: Menyadari bahwa metode sebelumnya salah, lalu menggunakan vLLM. Hasil perbaikan: Memasang ray dan vllm untuk hosting server API. Menggunakan semua 4 GPU dengan opsi —tensor-parallel-size 4. Hasil: Waktu respons meningkat drastis menjadi 2044ms. Dalam perhitungan biaya, biayanya menjadi sekitar $17 per 1 juta token. Pendekatan alternatif Hosting dengan perangkat keras sendiri: Perangkat keras yang dibutuhkan: 4x GPU NVidia Tesla T4, sekitar $700 di eBay. Dengan biaya lain-lain, total biaya instalasi sekitar $3,800. Biaya energi bulanan sekitar $50. Total biaya bulanan dihitung sekitar $100. Butuh sekitar 66 bulan (5,5 tahun) untuk mencapai titik impas. Kesimpulan Kelebihan: Hosting dengan perangkat keras sendiri dapat menghemat biaya. Kekurangan: Perlu pengelolaan perangkat keras dan penskalaan Karena asumsi utilisasi 100% tidak realistis, penilaian perlu disesuaikan dengan kondisi nyata.

(blog.lytix.co)

15 poin oleh xguru 2024-06-17 | 4 komentar | Bagikan ke WhatsApp

Berapa biaya untuk melakukan hosting sendiri model bahasa besar (LLM)?
Jika model Llama-3 8B-Instruct di-hosting di EKS, biayanya sekitar $17 per 1 juta token
Untuk pekerjaan yang sama, jika menggunakan ChatGPT biayanya $1 per 1 juta token
Jika melakukan self-hosting dengan perangkat keras sendiri, biaya per 1 juta token bisa turun menjadi di bawah $0.01, dan butuh sekitar 5,5 tahun untuk mencapai titik impas
- Dihitung berdasarkan 4x GPU NVidia Tesla T4 dan biaya perangkat keras lainnya ($3800) + biaya bulanan (listrik dan lain-lain) $100

Proses menentukan perangkat keras yang optimal

Lingkungan pengujian: Semua pengujian dijalankan di klaster EKS
Percobaan pertama: Instance AWS g4dn.2xlarge yang menggunakan GPU Nvidia Tesla T4.
- Spesifikasi: 1 NVidia Tesla T4, memori 32GB, 8 vCPU.
- Hasil: Tidak dapat menjalankan Llama 3 versi parameter 8B maupun 70B.
- Masalah: Terjadi OOM (Out of Memory) dan waktu respons memakan sekitar 10 menit.
Percobaan kedua: Instance AWS g4dn.16xlarge yang menggunakan 4 GPU Nvidia Tesla T4.
- Spesifikasi: 4 NVidia Tesla T4, memori 192GB, 48 vCPU.
- Hasil: Waktu respons turun menjadi di bawah 10 detik.

Implementasi awal

Metode implementasi: Menyalin dan menggunakan kode Llama-3 dari Hugging Face.
Perhitungan biaya:
- Biaya penggunaan instance g5dn.12xlarge: $3.912 per jam.
- Jika dihitung sebagai biaya bulanan, biaya menjadi sekitar $167.17 per 1 juta token.
- Biaya ChatGPT 3.5 Turbo: $1 per 1 juta token.

Pemecahan masalah

Identifikasi masalah: Menyadari bahwa metode sebelumnya salah, lalu menggunakan vLLM.
Hasil perbaikan:
- Memasang ray dan vllm untuk hosting server API.
- Menggunakan semua 4 GPU dengan opsi —tensor-parallel-size 4.
- Hasil: Waktu respons meningkat drastis menjadi 2044ms.
- Dalam perhitungan biaya, biayanya menjadi sekitar $17 per 1 juta token.

Pendekatan alternatif

Hosting dengan perangkat keras sendiri:
- Perangkat keras yang dibutuhkan: 4x GPU NVidia Tesla T4, sekitar $700 di eBay.
- Dengan biaya lain-lain, total biaya instalasi sekitar $3,800.
- Biaya energi bulanan sekitar $50.
- Total biaya bulanan dihitung sekitar $100.
- Butuh sekitar 66 bulan (5,5 tahun) untuk mencapai titik impas.

Kesimpulan

Kelebihan: Hosting dengan perangkat keras sendiri dapat menghemat biaya.
Kekurangan: Perlu pengelolaan perangkat keras dan penskalaan
- Karena asumsi utilisasi 100% tidak realistis, penilaian perlu disesuaikan dengan kondisi nyata.

4 komentar

iolothebard 2024-06-17

Ini bukan untuk membangun model,
hanya melakukan inferensi dengan Llama 8B, jadi perangkatnya berlebihan.
GPU 24G (3090 atau 4090) sudah cukup (2–3 juta), dan biaya listrik bulanan sekitar 30 ribu won juga sudah memadai.
Setelah ditulis, ternyata sudah ada di bawah ya haha

wedding 2024-06-17

5,5 tahun itu lama juga..

ragingwind 2024-06-17

Apakah 8B bisa digunakan untuk sesuatu yang lebih dari sekadar level mainan?

xguru 2024-06-17

Komentar Hacker News

Jika melakukan self-hosting hardware alih-alih menggunakan AWS, biayanya bisa turun drastis.
- Menggunakan 4 NVidia Tesla T4 memerlukan biaya sekitar $3,800.
- Untuk model Llama 3 8b, satu GPU 3090 atau 4090 sudah cukup.
- Membeli GPU di eBay bisa menghemat biaya.
Model Llama 8B di AWS Bedrock dihargai $0.40 per 1M token input dan $0.60 per token output, lebih murah dibanding model OpenAI.
- Waktu dan biaya untuk membangun serta memelihara server juga harus diperhitungkan.
Harga Jetstream + Maxtext
- Harga kontrak 3 tahun dengan TPU v5e adalah $0.25 per 1M token.
- Harga on-demand sekitar $0.45 per 1M token.
- Detail lebih lanjut bisa dilihat di sesi Google Next 2024.
Perkiraan penurunan nilai pasar NVIDIA
- Kinerja LLM mulai stagnan, dan seiring LLM menjadi komoditas, nilai pasar NVIDIA bisa menurun.
- Permintaan komputasi untuk pelatihan juga akan turun lebih cepat dari perkiraan.
Masalah dalam analisis biaya
- Menjalankan dengan batch size 1 menyebabkan kesalahan besar dalam analisis biaya.
- Biayanya 100 hingga 1000 kali lebih mahal dibanding biaya yang ditagihkan penyedia API.
Biaya menjalankan model 8B
- 3090 dan sistem dasar sudah cukup untuk menjalankan model 8B.
- Selisih biaya antara OpenAI dan AWS sangat besar ($1 vs $17).
- Dalam praktiknya AWS bisa jadi lebih murah.
Masalah dalam memahami biaya
- Memahami biaya berdasarkan satu permintaan sinkron tunggal itu tidak tepat.
- ChatGPT memproses banyak permintaan secara paralel.
- Permintaan yang lebih besar, permintaan serentak, dan queueing permintaan dapat sangat menurunkan biaya.
Biaya akses LLM
- Biaya untuk mengakses LLM sangat murah.
- Dibanding kemajuan teknologinya, biayanya rendah sehingga para teknolog seharusnya senang.
T4 adalah kartu yang sudah berusia 6 tahun, jadi lebih tepat jika dibandingkan dengan 3090, 4090, A10, A100, dan sebagainya.