- Tim riset proyek DataComp for Language Models milik Apple merilis keluarga model DCLM terbuka di Hugging Face
- Paket ini mencakup dua model utama dengan parameter 7B dan 1.4B
- Model berparameter 7 miliar (7B) menunjukkan performa yang baik dalam benchmark, melampaui Mistral-7B dan mendekati model terbuka utama lain seperti Llama 3 dan Gemma
- Proyek ini menjadi benar-benar open source dengan merilis bobot model, kode pelatihan, dan dataset pra-pelatihan
DCLM(DataComp for Language Models)
- Proyek DataComp dapat dijelaskan sebagai upaya kolaboratif untuk merancang dataset berkualitas tinggi guna melatih model AI, khususnya di domain multimodal
- Melalui eksperimen, ditemukan bahwa penyaringan berbasis model, di mana model machine learning (ML) secara otomatis memfilter dan memilih data berkualitas tinggi dari dataset yang lebih besar, dapat menjadi kunci untuk membangun set pelatihan berkualitas tinggi
- Dataset hasilnya, DCLM-Baseline, digunakan untuk melatih dari nol model bahasa Inggris transformer decoder-only DCLM baru dengan 7 miliar dan 1,4 miliar parameter
- Model 7 miliar dilatih dengan 2,5 triliun token menggunakan resep pra-pelatihan berbasis framework OpenLM, dan memberikan akurasi 5-shot sebesar 63,7% pada MMLU
- Ini merupakan peningkatan 6,6 poin persentase dibanding MAP-Neo, model bahasa open data state-of-the-art sebelumnya, sambil menggunakan komputasi 40% lebih sedikit untuk pelatihan
Model yang kuat dan lebih kecil
- Versi model 1,4 miliar (1.4B) juga menunjukkan performa yang mengesankan pada pengujian MMLU, Core, dan Extended
- Pada uji MMLU 5-shot, model ini mencatat 41,9%, yang jauh lebih tinggi dibanding model lain di kategori ini, termasuk SmolLM yang baru-baru ini dirilis oleh Hugging Face
- Saat ini model yang lebih besar tersedia di bawah Apple Sample Code License, sementara model yang lebih kecil dirilis di bawah Apache 2.0 yang mengizinkan penggunaan komersial, distribusi, dan modifikasi
- Library HF juga memiliki versi instruction-tuned dari model 7 miliar parameter
- Perlu dicatat bahwa ini adalah riset awal yang menekankan efektivitas kurasi data
- Model ini bukan untuk perangkat Apple dan dapat menunjukkan bias tertentu pada data pelatihan uji atau memunculkan respons yang berbahaya
3 komentar
Karena efeknya akan maksimal jika dipasang di iPhone
Samsung juga berfokus pada on-device
Apple merilis 8 model bahasa AI kecil yang ditujukan untuk penggunaan di perangkat
Apple tampaknya terus fokus pada model kecil untuk AI on-device. Saya ingin sekali cepat-cepat mencobanya.
Mulai tahun depan sepertinya kita sudah bisa benar-benar mencobanya, hehe