Gemma 2: Peningkatan model bahasa terbuka berukuran praktis
(ai.google.dev)Poin utama:
Gemma 2 adalah keluarga baru model bahasa terbuka ringan mutakhir dengan rentang 200 juta hingga 27 miliar parameter.
Model 9 miliar dan 27 miliar parameter tersedia sekarang, sedangkan model 2 miliar akan segera dirilis.
Peningkatan teknis utama:
- Penggunaan bergantian local-global attention
- Grouped-query attention
- Pelatihan distilasi pengetahuan untuk model kecil
Model-model ini menunjukkan performa terbaik dibanding ukurannya, dan kompetitif dengan model yang 2-3 kali lebih besar.
Arsitektur model:
- Arsitektur transformer khusus decoder
- Panjang konteks 8192 token
- Penggunaan bergantian local sliding window (4096 token) dan lapisan global attention
- Grouped-query attention (GQA)
- RMSNorm untuk normalisasi layer
Pelatihan:
- Model 27 miliar dilatih dengan 13 triliun token
- Model 9 miliar dilatih dengan 8 triliun token
- Model 2,6 miliar dilatih dengan 2 triliun token
- Sumber data: dokumen web, kode, artikel ilmiah
- Distilasi pengetahuan digunakan untuk model 2,6 miliar dan 9 miliar
Performa:
- Melampaui model terbuka sebanding pada benchmark
- Kompetitif dengan beberapa model yang lebih besar
- Hasil kuat pada tugas tanya jawab, penalaran, matematika, sains, dan coding
Keamanan & tanggung jawab:
- Menjalankan pengujian keamanan ekstensif dan prosedur deployment yang bertanggung jawab
- Menerapkan kebijakan keamanan dan langkah mitigasi saat pelatihan
- Menyediakan toolkit AI generatif yang bertanggung jawab untuk developer
6 komentar
Apakah akan tiba saatnya kita bisa menjalankan LLM hanya dengan CPU?
Jika ukurannya sekitar 20B, model ini cukup bisa dijalankan hanya dengan CPU. Mulai 60B ke atas biasanya sudah berat atau sering tidak jalan dengan baik. (Pelatihan adalah ranah yang berbeda lagi.) Coba pakai ollama sekali.
Saya sama sekali belum punya gambaran tentang spesifikasi yang dibutuhkan, jadi terima kasih atas sarannya. Sepertinya laptop Intel generasi ke-11 masih belum memadai, jadi saya mungkin harus menjalankannya di server virtualisasi atau semacamnya.
Cukup instal LM Studio.
Alasan saya mengatakan itu terasa terlalu berat untuk laptop adalah karena penggunaan CPU mencapai 100% di semua core dan panasnya tinggi, jadi saya merasa tidak nyaman digunakan. LM Studio memang punya UI prompt sehingga kegunaannya bagus, tetapi sepertinya tidak akan bisa memenuhi kenyamanan penggunaan.
Eh..? Itu sudah dilakukan kok;;