- Rilis bobot dan arsitektur model Mixture-of-Experts berparameter 314B (314 miliar)
- Raw Base Model dari tahap pra-pelatihan Grok-1 yang selesai pada Oktober 2023
- Ini berarti model tersebut belum di-fine-tune untuk tugas tertentu seperti percakapan
- Detail model
- Model dasar yang dilatih pada data teks dalam jumlah besar tanpa di-fine-tune untuk tugas tertentu
- Model mixture-of-experts berparameter 314B dengan 25% bobot yang diaktifkan untuk token yang diberikan
- Dilatih dari nol oleh xAI pada Oktober 2023 menggunakan stack pelatihan kustom di atas JAX dan Rust
Cara menggunakan repositori Grok-1
- Repositori Grok-1 yang menyertakan contoh kode JAX digunakan untuk memuat dan menjalankan model open-weight Grok-1.
- Unduh checkpoint dan letakkan direktori
ckpt-0 di dalam direktori checkpoint, lalu jalankan pip install -r requirements.txt dan python run.py untuk menguji kode.
- Skrip akan memuat checkpoint dan menghasilkan sampel dari model untuk input uji.
- Karena ukuran model sangat besar (314B parameter), diperlukan mesin dengan memori GPU yang memadai.
- Implementasi layer MoE (Mixture of Experts) di repositori ini tidak efisien, dan dipilih untuk menghindari kernel kustom demi memverifikasi akurasi model.
Unduh bobot
- Bobot dapat diunduh menggunakan klien torrent dan tautan berikut:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
Lisensi
- Kode dan bobot Grok-1 yang disertakan dalam rilis ini dilisensikan di bawah lisensi Apache 2.0.
- Lisensi hanya berlaku untuk file sumber di repositori ini dan bobot model Grok-1.
Opini GN⁺
- Grok-1 adalah model dengan parameter sangat besar yang memberi peluang bagus bagi peneliti atau insinyur machine learning untuk bereksperimen menggunakan sumber daya komputasi berkinerja tinggi.
- Dengan menggunakan lisensi open source Apache 2.0, komunitas dapat secara bebas menggunakan, memodifikasi, dan mendistribusikan model ini, yang dapat mendorong kolaborasi dan inovasi.
- Karena ukuran model sangat besar, eksperimen nyata dengan model ini memerlukan sumber daya komputasi yang signifikan, yang dapat membatasi aksesibilitas.
- Implementasi layer MoE yang tidak efisien mungkin berguna untuk tujuan penelitian, tetapi untuk diterapkan pada produk atau layanan nyata, perlu dicari implementasi yang lebih optimal.
- Proyek open source lain dengan fungsi serupa antara lain TensorFlow dari Google dan PyTorch dari Facebook, yang juga dapat digunakan untuk bereksperimen dengan model skala besar.
1 komentar
Komentar Hacker News
Model 8x86B tampaknya merupakan model terbuka terbesar sejauh ini. Akan menarik untuk mengetahui berapa banyak token yang digunakan untuk melatih model ini.
Apa alasan orang ingin menggunakan model ini alih-alih alternatif open source seperti Mistral?
Apakah ini model besar pertama yang mendukung FP8 native? Sepertinya itu akan menjadi keuntungan besar ketika perangkat keras mendukungnya, jadi saya penasaran mengapa belum ada yang melakukannya sampai sekarang.
Bahasa apa saja yang didukung model ini?
Postingan blog: Grok-OS
Postingan blog yang diumumkan tahun lalu: Grok
Kapan kita mencapai batas atas atau titik penurunan hasil dalam hal jumlah parameter dan mixture of experts?
Apakah ada model card di suatu tempat? Saya ingin tahu model ini dilatih dengan apa.
Poin halus: Musk mengatakan "open source", tetapi yang didapat justru "open weight" (meski begitu tetap sangat dihargai karena lebih baik daripada tidak ada sama sekali).
Repositori lainnya hanya fork dari Qdrant.