42 poin oleh kuroneko 2023-05-18 | 2 komentar | Bagikan ke WhatsApp
  • Ringkasan angka-angka penting saat menggunakan LLM.
  • Dengan memasukkan "singkat" ke dalam prompt, biaya dapat dihemat 40~90%.
  • Dibandingkan GPT-4, GPT-3.5 Turbo 50 kali lebih murah.
  • Untuk pencarian vektor, menggunakan embedding OpenAI 20 kali lebih murah dibanding GPT-3.5 Turbo.
  • Melatih LLM sekelas LLaMa membutuhkan biaya satu juta dolar.
  • Ukuran memori per GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
  • Biasanya diperlukan memori sebesar 2 kali ukuran model - 7B = 14GB
  • Model embedding biasanya menggunakan memori di bawah 1GB
  • Pemrosesan batch untuk permintaan LLM dapat membuatnya lebih dari 10 kali lebih cepat.
  • Model 13B memerlukan sekitar 1MB per token, sehingga pemrosesan batch sangat meningkatkan kebutuhan memori.

2 komentar

 
xguru 2023-05-18

Saya sudah banyak mencoba menulis dengan singkat, tapi sepertinya saya juga harus sekali mencoba memasukkan "be consise" seperti yang dibicarakan di tulisan itu.

 
wedding 2023-05-20

Sepertinya perlu juga mencoba mengombinasikannya dengan let's think step by step.