- Ringkasan angka-angka penting saat menggunakan LLM.
- Dengan memasukkan "singkat" ke dalam prompt, biaya dapat dihemat 40~90%.
- Dibandingkan GPT-4, GPT-3.5 Turbo 50 kali lebih murah.
- Untuk pencarian vektor, menggunakan embedding OpenAI 20 kali lebih murah dibanding GPT-3.5 Turbo.
- Melatih LLM sekelas LLaMa membutuhkan biaya satu juta dolar.
- Ukuran memori per GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- Biasanya diperlukan memori sebesar 2 kali ukuran model - 7B = 14GB
- Model embedding biasanya menggunakan memori di bawah 1GB
- Pemrosesan batch untuk permintaan LLM dapat membuatnya lebih dari 10 kali lebih cepat.
- Model 13B memerlukan sekitar 1MB per token, sehingga pemrosesan batch sangat meningkatkan kebutuhan memori.
2 komentar
Saya sudah banyak mencoba menulis dengan singkat, tapi sepertinya saya juga harus sekali mencoba memasukkan "be consise" seperti yang dibicarakan di tulisan itu.
Sepertinya perlu juga mencoba mengombinasikannya dengan
let's think step by step.