MosaicML merilis model MPT-7B-8K
(mosaicml.com)- LLM open source 7B parameter yang mendukung panjang konteks 8k
- Selain MPT-7B, model ini dilatih selama 3 hari menggunakan data 500B token pada 256 NVidia H100
- Tiga model dirilis: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
- Dapat digunakan untuk keperluan komersial
- Mendukung input 8k dengan ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
- Pelatihan dan inferensi cepat dengan FlashAttention dan FasterTrasformer
Belum ada komentar.