Angka yang Harus Diketahui Semua Pengembang LLM

kuroneko · 2023-05-18T10:45:09+09:00

Ringkasan angka-angka penting saat menggunakan LLM. Dengan memasukkan "singkat" ke dalam prompt, biaya dapat dihemat 40~90%. Dibandingkan GPT-4, GPT-3.5 Turbo 50 kali lebih murah. Untuk pencarian vektor, menggunakan embedding OpenAI 20 kali lebih murah dibanding GPT-3.5 Turbo. Melatih LLM sekelas LLaMa membutuhkan biaya satu juta dolar. Ukuran memori per GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB Biasanya diperlukan memori sebesar 2 kali ukuran model - 7B = 14GB Model embedding biasanya menggunakan memori di bawah 1GB Pemrosesan batch untuk permintaan LLM dapat membuatnya lebih dari 10 kali lebih cepat. Model 13B memerlukan sekitar 1MB per token, sehingga pemrosesan batch sangat meningkatkan kebutuhan memori.

(github.com/ray-project)

42 poin oleh kuroneko 2023-05-18 | 2 komentar | Bagikan ke WhatsApp

Ringkasan angka-angka penting saat menggunakan LLM.
Dengan memasukkan "singkat" ke dalam prompt, biaya dapat dihemat 40~90%.
Dibandingkan GPT-4, GPT-3.5 Turbo 50 kali lebih murah.
Untuk pencarian vektor, menggunakan embedding OpenAI 20 kali lebih murah dibanding GPT-3.5 Turbo.
Melatih LLM sekelas LLaMa membutuhkan biaya satu juta dolar.
Ukuran memori per GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
Biasanya diperlukan memori sebesar 2 kali ukuran model - 7B = 14GB
Model embedding biasanya menggunakan memori di bawah 1GB
Pemrosesan batch untuk permintaan LLM dapat membuatnya lebih dari 10 kali lebih cepat.
Model 13B memerlukan sekitar 1MB per token, sehingga pemrosesan batch sangat meningkatkan kebutuhan memori.

2 komentar

xguru 2023-05-18

Saya sudah banyak mencoba menulis dengan singkat, tapi sepertinya saya juga harus sekali mencoba memasukkan "be consise" seperti yang dibicarakan di tulisan itu.

wedding 2023-05-20

Sepertinya perlu juga mencoba mengombinasikannya dengan let's think step by step.

Angka yang Harus Diketahui Semua Pengembang LLM

Bacaan terkait

2 komentar