- Termasuk kode pelatihan MobileLLM yang diperkenalkan dalam makalah ICML 2024, "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases"
- Penelitian ini mempertimbangkan secara komprehensif berbagai elemen desain untuk memperoleh LLM berkualitas tinggi dengan parameter kurang dari 1 miliar
- MobileLLM dibangun dengan mengintegrasikan (1) fungsi aktivasi SwiGLU, (2) arsitektur dalam dan ramping, (3) berbagi embedding, dan (4) grouped-query attention
- MobileLLM-125M/350M mencapai peningkatan akurasi masing-masing sebesar 2.7%/4.3% pada tugas penalaran commonsense zero-shot dibanding model SoTA 125M/350M sebelumnya
- Pada versi yang diperbarui, model MobileLLM-600M/1B/1.5B diperluas ke model yang lebih besar dan menunjukkan hasil SoTA
Ringkasan GN⁺
- MobileLLM menyajikan filosofi desain yang dioptimalkan untuk model bahasa berkualitas tinggi dengan parameter di bawah 1 miliar
- Kinerjanya ditingkatkan dengan mengintegrasikan elemen seperti fungsi aktivasi SwiGLU, arsitektur dalam dan ramping, berbagi embedding, serta grouped-query attention
- Mencapai akurasi yang lebih tinggi pada tugas penalaran commonsense zero-shot dibanding model yang sudah ada
- Penelitian ini memberikan kontribusi penting bagi use case model bahasa pada perangkat mobile dan embedded
- Proyek dengan fungsi serupa mencakup GPT-neo, OPT, dan BLOOM
1 komentar
Opini Hacker News
Model MobileLLM-125M/350M menunjukkan peningkatan akurasi 2,7%/4,3% dibanding model SoTA 125M/350M sebelumnya
Disebutkan bahwa model 1.5B parameter mencapai kemajuan yang cukup besar
Bertanya apakah Apple Watch memiliki kemampuan perangkat keras untuk menjalankan inferensi model kecil
Bertanya apakah ini harus terbatas hanya pada perangkat mobile
Disebutkan bahwa saat ini diperlukan STT di perangkat seperti wake-word
Sedang mencari aplikasi yang bisa dijalankan di iPhone
Bertanya seberapa jauh bagian "lebih dalam dan lebih tipis" bisa didorong
Bertanya apakah metode seperti distilasi bisa membantu
Disebutkan bahwa model kecil tampaknya mendapatkan pengurangan ukuran terbesar melalui berbagi/pengikatan bobot antara linear head dan token embedding
Bertanya apakah model ini juga bisa digunakan untuk melatih model di PC Windows
Menarik, tetapi penasaran use case apa yang ada selain pelengkapan otomatis yang lebih baik