MosaicML merilis model MPT-7B-8K

xguru · 2023-07-21T10:02:02+09:00

LLM open source 7B parameter yang mendukung panjang konteks 8k Selain MPT-7B, model ini dilatih selama 3 hari menggunakan data 500B token pada 256 NVidia H100 Tiga model dirilis: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat Dapat digunakan untuk keperluan komersial Mendukung input 8k dengan ALiBi (Attention with Linear Biases Enables Input Length Extrapolation) Pelatihan dan inferensi cepat dengan FlashAttention dan FasterTrasformer

(mosaicml.com)

9 poin oleh xguru 2023-07-21 | Belum ada komentar. | Bagikan ke WhatsApp

LLM open source 7B parameter yang mendukung panjang konteks 8k
Selain MPT-7B, model ini dilatih selama 3 hari menggunakan data 500B token pada 256 NVidia H100
Tiga model dirilis: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
Dapat digunakan untuk keperluan komersial
Mendukung input 8k dengan ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
Pelatihan dan inferensi cepat dengan FlashAttention dan FasterTrasformer

MosaicML merilis model MPT-7B-8K

Bacaan terkait

Belum ada komentar.