6 poin oleh GN⁺ 2024-03-18 | 1 komentar | Bagikan ke WhatsApp
  • Rilis bobot dan arsitektur model Mixture-of-Experts berparameter 314B (314 miliar)
  • Raw Base Model dari tahap pra-pelatihan Grok-1 yang selesai pada Oktober 2023
    • Ini berarti model tersebut belum di-fine-tune untuk tugas tertentu seperti percakapan
  • Detail model
    • Model dasar yang dilatih pada data teks dalam jumlah besar tanpa di-fine-tune untuk tugas tertentu
    • Model mixture-of-experts berparameter 314B dengan 25% bobot yang diaktifkan untuk token yang diberikan
    • Dilatih dari nol oleh xAI pada Oktober 2023 menggunakan stack pelatihan kustom di atas JAX dan Rust

Cara menggunakan repositori Grok-1

  • Repositori Grok-1 yang menyertakan contoh kode JAX digunakan untuk memuat dan menjalankan model open-weight Grok-1.
  • Unduh checkpoint dan letakkan direktori ckpt-0 di dalam direktori checkpoint, lalu jalankan pip install -r requirements.txt dan python run.py untuk menguji kode.
  • Skrip akan memuat checkpoint dan menghasilkan sampel dari model untuk input uji.
  • Karena ukuran model sangat besar (314B parameter), diperlukan mesin dengan memori GPU yang memadai.
  • Implementasi layer MoE (Mixture of Experts) di repositori ini tidak efisien, dan dipilih untuk menghindari kernel kustom demi memverifikasi akurasi model.

Unduh bobot

  • Bobot dapat diunduh menggunakan klien torrent dan tautan berikut: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Lisensi

  • Kode dan bobot Grok-1 yang disertakan dalam rilis ini dilisensikan di bawah lisensi Apache 2.0.
  • Lisensi hanya berlaku untuk file sumber di repositori ini dan bobot model Grok-1.

Opini GN⁺

  • Grok-1 adalah model dengan parameter sangat besar yang memberi peluang bagus bagi peneliti atau insinyur machine learning untuk bereksperimen menggunakan sumber daya komputasi berkinerja tinggi.
  • Dengan menggunakan lisensi open source Apache 2.0, komunitas dapat secara bebas menggunakan, memodifikasi, dan mendistribusikan model ini, yang dapat mendorong kolaborasi dan inovasi.
  • Karena ukuran model sangat besar, eksperimen nyata dengan model ini memerlukan sumber daya komputasi yang signifikan, yang dapat membatasi aksesibilitas.
  • Implementasi layer MoE yang tidak efisien mungkin berguna untuk tujuan penelitian, tetapi untuk diterapkan pada produk atau layanan nyata, perlu dicari implementasi yang lebih optimal.
  • Proyek open source lain dengan fungsi serupa antara lain TensorFlow dari Google dan PyTorch dari Facebook, yang juga dapat digunakan untuk bereksperimen dengan model skala besar.

1 komentar

 
GN⁺ 2024-03-18
Komentar Hacker News
  • Model 8x86B tampaknya merupakan model terbuka terbesar sejauh ini. Akan menarik untuk mengetahui berapa banyak token yang digunakan untuk melatih model ini.

    • Ini adalah model dasar yang dilatih dengan data teks skala besar, dan tidak di-fine-tune untuk tugas tertentu.
    • Versi yang sempat dipratinjau di Twitter diduga adalah model instruction-tuned yang berperilaku berbeda dari bobot mentahnya.
  • Apa alasan orang ingin menggunakan model ini alih-alih alternatif open source seperti Mistral?

  • Apakah ini model besar pertama yang mendukung FP8 native? Sepertinya itu akan menjadi keuntungan besar ketika perangkat keras mendukungnya, jadi saya penasaran mengapa belum ada yang melakukannya sampai sekarang.

  • Bahasa apa saja yang didukung model ini?

  • Postingan blog: Grok-OS

    • Dari 314B parameter, 86B diaktifkan.
    • 2 dari 8 mixture of experts diaktifkan.
    • Bobot dan arsitekturnya tersedia di bawah lisensi Apache 2.0.
  • Postingan blog yang diumumkan tahun lalu: Grok

    • Mencakup benchmark yang membandingkannya dengan Claude 2, GPT-3.5, dan GPT-4.
    • Memiliki kemampuan yang mirip dengan GPT-3.5, Mixtral, dan Qwen-1.5-72B, tetapi jauh lebih besar daripada model open-weight.
  • Kapan kita mencapai batas atas atau titik penurunan hasil dalam hal jumlah parameter dan mixture of experts?

  • Apakah ada model card di suatu tempat? Saya ingin tahu model ini dilatih dengan apa.

  • Poin halus: Musk mengatakan "open source", tetapi yang didapat justru "open weight" (meski begitu tetap sangat dihargai karena lebih baik daripada tidak ada sama sekali).

  • Repositori lainnya hanya fork dari Qdrant.