xAI merilis bobot model dasar dan arsitektur jaringan Grok-1 LLM

(github.com/xai-org)

6 poin oleh GN⁺ 2024-03-18 | 1 komentar | Bagikan ke WhatsApp

Rilis bobot dan arsitektur model Mixture-of-Experts berparameter 314B (314 miliar)
Raw Base Model dari tahap pra-pelatihan Grok-1 yang selesai pada Oktober 2023
- Ini berarti model tersebut belum di-fine-tune untuk tugas tertentu seperti percakapan
Detail model
- Model dasar yang dilatih pada data teks dalam jumlah besar tanpa di-fine-tune untuk tugas tertentu
- Model mixture-of-experts berparameter 314B dengan 25% bobot yang diaktifkan untuk token yang diberikan
- Dilatih dari nol oleh xAI pada Oktober 2023 menggunakan stack pelatihan kustom di atas JAX dan Rust

Cara menggunakan repositori Grok-1

Repositori Grok-1 yang menyertakan contoh kode JAX digunakan untuk memuat dan menjalankan model open-weight Grok-1.
Unduh checkpoint dan letakkan direktori ckpt-0 di dalam direktori checkpoint, lalu jalankan pip install -r requirements.txt dan python run.py untuk menguji kode.
Skrip akan memuat checkpoint dan menghasilkan sampel dari model untuk input uji.
Karena ukuran model sangat besar (314B parameter), diperlukan mesin dengan memori GPU yang memadai.
Implementasi layer MoE (Mixture of Experts) di repositori ini tidak efisien, dan dipilih untuk menghindari kernel kustom demi memverifikasi akurasi model.

Unduh bobot

Bobot dapat diunduh menggunakan klien torrent dan tautan berikut: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Lisensi

Kode dan bobot Grok-1 yang disertakan dalam rilis ini dilisensikan di bawah lisensi Apache 2.0.
Lisensi hanya berlaku untuk file sumber di repositori ini dan bobot model Grok-1.

Opini GN⁺

Grok-1 adalah model dengan parameter sangat besar yang memberi peluang bagus bagi peneliti atau insinyur machine learning untuk bereksperimen menggunakan sumber daya komputasi berkinerja tinggi.
Dengan menggunakan lisensi open source Apache 2.0, komunitas dapat secara bebas menggunakan, memodifikasi, dan mendistribusikan model ini, yang dapat mendorong kolaborasi dan inovasi.
Karena ukuran model sangat besar, eksperimen nyata dengan model ini memerlukan sumber daya komputasi yang signifikan, yang dapat membatasi aksesibilitas.
Implementasi layer MoE yang tidak efisien mungkin berguna untuk tujuan penelitian, tetapi untuk diterapkan pada produk atau layanan nyata, perlu dicari implementasi yang lebih optimal.
Proyek open source lain dengan fungsi serupa antara lain TensorFlow dari Google dan PyTorch dari Facebook, yang juga dapat digunakan untuk bereksperimen dengan model skala besar.

1 komentar

GN⁺ 2024-03-18

Komentar Hacker News

Model 8x86B tampaknya merupakan model terbuka terbesar sejauh ini. Akan menarik untuk mengetahui berapa banyak token yang digunakan untuk melatih model ini.
- Ini adalah model dasar yang dilatih dengan data teks skala besar, dan tidak di-fine-tune untuk tugas tertentu.
- Versi yang sempat dipratinjau di Twitter diduga adalah model instruction-tuned yang berperilaku berbeda dari bobot mentahnya.
Apa alasan orang ingin menggunakan model ini alih-alih alternatif open source seperti Mistral?
Apakah ini model besar pertama yang mendukung FP8 native? Sepertinya itu akan menjadi keuntungan besar ketika perangkat keras mendukungnya, jadi saya penasaran mengapa belum ada yang melakukannya sampai sekarang.
Bahasa apa saja yang didukung model ini?
Postingan blog: Grok-OS
- Dari 314B parameter, 86B diaktifkan.
- 2 dari 8 mixture of experts diaktifkan.
- Bobot dan arsitekturnya tersedia di bawah lisensi Apache 2.0.
Postingan blog yang diumumkan tahun lalu: Grok
- Mencakup benchmark yang membandingkannya dengan Claude 2, GPT-3.5, dan GPT-4.
- Memiliki kemampuan yang mirip dengan GPT-3.5, Mixtral, dan Qwen-1.5-72B, tetapi jauh lebih besar daripada model open-weight.
Kapan kita mencapai batas atas atau titik penurunan hasil dalam hal jumlah parameter dan mixture of experts?
Apakah ada model card di suatu tempat? Saya ingin tahu model ini dilatih dengan apa.
Poin halus: Musk mengatakan "open source", tetapi yang didapat justru "open weight" (meski begitu tetap sangat dihargai karena lebih baik daripada tidak ada sama sekali).
Repositori lainnya hanya fork dari Qdrant.

xAI merilis bobot model dasar dan arsitektur jaringan Grok-1 LLM

Cara menggunakan repositori Grok-1

Unduh bobot

Lisensi

Opini GN⁺

Bacaan terkait

1 komentar

Komentar Hacker News