9 poin oleh xguru 2023-07-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • LLM open source 7B parameter yang mendukung panjang konteks 8k
  • Selain MPT-7B, model ini dilatih selama 3 hari menggunakan data 500B token pada 256 NVidia H100
  • Tiga model dirilis: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
  • Dapat digunakan untuk keperluan komersial
  • Mendukung input 8k dengan ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
  • Pelatihan dan inferensi cepat dengan FlashAttention dan FasterTrasformer

Belum ada komentar.

Belum ada komentar.