3 poin oleh GN⁺ 2024-07-11 | 1 komentar | Bagikan ke WhatsApp
  • Termasuk kode pelatihan MobileLLM yang diperkenalkan dalam makalah ICML 2024, "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases"
  • Penelitian ini mempertimbangkan secara komprehensif berbagai elemen desain untuk memperoleh LLM berkualitas tinggi dengan parameter kurang dari 1 miliar
  • MobileLLM dibangun dengan mengintegrasikan (1) fungsi aktivasi SwiGLU, (2) arsitektur dalam dan ramping, (3) berbagi embedding, dan (4) grouped-query attention
  • MobileLLM-125M/350M mencapai peningkatan akurasi masing-masing sebesar 2.7%/4.3% pada tugas penalaran commonsense zero-shot dibanding model SoTA 125M/350M sebelumnya
  • Pada versi yang diperbarui, model MobileLLM-600M/1B/1.5B diperluas ke model yang lebih besar dan menunjukkan hasil SoTA

Ringkasan GN⁺

  • MobileLLM menyajikan filosofi desain yang dioptimalkan untuk model bahasa berkualitas tinggi dengan parameter di bawah 1 miliar
  • Kinerjanya ditingkatkan dengan mengintegrasikan elemen seperti fungsi aktivasi SwiGLU, arsitektur dalam dan ramping, berbagi embedding, serta grouped-query attention
  • Mencapai akurasi yang lebih tinggi pada tugas penalaran commonsense zero-shot dibanding model yang sudah ada
  • Penelitian ini memberikan kontribusi penting bagi use case model bahasa pada perangkat mobile dan embedded
  • Proyek dengan fungsi serupa mencakup GPT-neo, OPT, dan BLOOM

1 komentar

 
GN⁺ 2024-07-11
Opini Hacker News
  • Model MobileLLM-125M/350M menunjukkan peningkatan akurasi 2,7%/4,3% dibanding model SoTA 125M/350M sebelumnya

    • Model kecil memang sedikit membaik, tetapi masih belum cukup untuk penggunaan seperti model online
    • Disebutkan bahwa tidak ada masalah dengan kemajuan yang bertahap
  • Disebutkan bahwa model 1.5B parameter mencapai kemajuan yang cukup besar

    • Bertanya-tanya mengapa tidak menggunakan model yang lebih besar
    • Disebutkan bahwa model efisien yang cocok untuk perangkat keras seukuran RPi bisa menjadi game changer
    • Disebutkan bahwa model TinyLlama 7B nyaris bisa dijalankan
  • Bertanya apakah Apple Watch memiliki kemampuan perangkat keras untuk menjalankan inferensi model kecil

    • Menanyakan apakah akun pengembang diperlukan
  • Bertanya apakah ini harus terbatas hanya pada perangkat mobile

    • Jika tidak terlalu boros sumber daya, ini bisa membuat dialog NPC dalam game lebih menarik
    • Akan lebih baik jika bisa disesuaikan agar memengaruhi perilaku atau tindakan NPC
  • Disebutkan bahwa saat ini diperlukan STT di perangkat seperti wake-word

    • Sedang mencari model dengan WER terendah yang bisa dijalankan di RPi 4B
    • Sedang melihat openWakeWord
    • Disebutkan bahwa ini diperlukan untuk sistem inventaris DIY
  • Sedang mencari aplikasi yang bisa dijalankan di iPhone

    • Saat ini hanya tahu aplikasi MLC, dan itu pun hanya memiliki 3 model lama
  • Bertanya seberapa jauh bagian "lebih dalam dan lebih tipis" bisa didorong

    • Disebutkan bahwa jika FFN muat di cache L2, performanya akan meningkat
  • Bertanya apakah metode seperti distilasi bisa membantu

  • Disebutkan bahwa model kecil tampaknya mendapatkan pengurangan ukuran terbesar melalui berbagi/pengikatan bobot antara linear head dan token embedding

    • Setelah itu, penasaran apakah ada riset tentang cara mengurangi ukuran lebih lanjut
  • Bertanya apakah model ini juga bisa digunakan untuk melatih model di PC Windows

    • Disebutkan bahwa tidak memiliki banyak RAM
  • Menarik, tetapi penasaran use case apa yang ada selain pelengkapan otomatis yang lebih baik