Apple pamerkan kemampuan AI terbuka: model baru yang dirilis menunjukkan performa lebih baik daripada Mistral

xguru · 2024-07-23T10:51:01+09:00

Tim riset proyek DataComp for Language Models milik Apple merilis keluarga model DCLM terbuka di Hugging Face Paket ini mencakup dua model utama dengan parameter 7B dan 1.4B Model berparameter 7 miliar (7B) menunjukkan performa yang baik dalam benchmark, melampaui Mistral-7B dan mendekati model terbuka utama lain seperti Llama 3 dan Gemma Proyek ini menjadi benar-benar open source dengan merilis bobot model, kode pelatihan, dan dataset pra-pelatihan DCLM(DataComp for Language Models) Proyek DataComp dapat dijelaskan sebagai upaya kolaboratif untuk merancang dataset berkualitas tinggi guna melatih model AI, khususnya di domain multimodal Melalui eksperimen, ditemukan bahwa penyaringan berbasis model, di mana model machine learning (ML) secara otomatis memfilter dan memilih data berkualitas tinggi dari dataset yang lebih besar, dapat menjadi kunci untuk membangun set pelatihan berkualitas tinggi Dataset hasilnya, DCLM-Baseline, digunakan untuk melatih dari nol model bahasa Inggris transformer decoder-only DCLM baru dengan 7 miliar dan 1,4 miliar parameter Model 7 miliar dilatih dengan 2,5 triliun token menggunakan resep pra-pelatihan berbasis framework OpenLM, dan memberikan akurasi 5-shot sebesar 63,7% pada MMLU Ini merupakan peningkatan 6,6 poin persentase dibanding MAP-Neo, model bahasa open data state-of-the-art sebelumnya, sambil menggunakan komputasi 40% lebih sedikit untuk pelatihan Model yang kuat dan lebih kecil Versi model 1,4 miliar (1.4B) juga menunjukkan performa yang mengesankan pada pengujian MMLU, Core, dan Extended Pada uji MMLU 5-shot, model ini mencatat 41,9%, yang jauh lebih tinggi dibanding model lain di kategori ini, termasuk SmolLM yang baru-baru ini dirilis oleh Hugging Face Saat ini model yang lebih besar tersedia di bawah Apple Sample Code License, sementara model yang lebih kecil dirilis di bawah Apache 2.0 yang mengizinkan penggunaan komersial, distribusi, dan modifikasi Library HF juga memiliki versi instruction-tuned dari model 7 miliar parameter Perlu dicatat bahwa ini adalah riset awal yang menekankan efektivitas kurasi data Model ini bukan untuk perangkat Apple dan dapat menunjukkan bias tertentu pada data pelatihan uji atau memunculkan respons yang berbahaya

(venturebeat.com)

4 poin oleh xguru 2024-07-23 | 3 komentar | Bagikan ke WhatsApp

Tim riset proyek DataComp for Language Models milik Apple merilis keluarga model DCLM terbuka di Hugging Face
Paket ini mencakup dua model utama dengan parameter 7B dan 1.4B
Model berparameter 7 miliar (7B) menunjukkan performa yang baik dalam benchmark, melampaui Mistral-7B dan mendekati model terbuka utama lain seperti Llama 3 dan Gemma
Proyek ini menjadi benar-benar open source dengan merilis bobot model, kode pelatihan, dan dataset pra-pelatihan

DCLM(DataComp for Language Models)

Proyek DataComp dapat dijelaskan sebagai upaya kolaboratif untuk merancang dataset berkualitas tinggi guna melatih model AI, khususnya di domain multimodal
Melalui eksperimen, ditemukan bahwa penyaringan berbasis model, di mana model machine learning (ML) secara otomatis memfilter dan memilih data berkualitas tinggi dari dataset yang lebih besar, dapat menjadi kunci untuk membangun set pelatihan berkualitas tinggi
Dataset hasilnya, DCLM-Baseline, digunakan untuk melatih dari nol model bahasa Inggris transformer decoder-only DCLM baru dengan 7 miliar dan 1,4 miliar parameter
Model 7 miliar dilatih dengan 2,5 triliun token menggunakan resep pra-pelatihan berbasis framework OpenLM, dan memberikan akurasi 5-shot sebesar 63,7% pada MMLU
Ini merupakan peningkatan 6,6 poin persentase dibanding MAP-Neo, model bahasa open data state-of-the-art sebelumnya, sambil menggunakan komputasi 40% lebih sedikit untuk pelatihan

Model yang kuat dan lebih kecil

Versi model 1,4 miliar (1.4B) juga menunjukkan performa yang mengesankan pada pengujian MMLU, Core, dan Extended
Pada uji MMLU 5-shot, model ini mencatat 41,9%, yang jauh lebih tinggi dibanding model lain di kategori ini, termasuk SmolLM yang baru-baru ini dirilis oleh Hugging Face
Saat ini model yang lebih besar tersedia di bawah Apple Sample Code License, sementara model yang lebih kecil dirilis di bawah Apache 2.0 yang mengizinkan penggunaan komersial, distribusi, dan modifikasi
Library HF juga memiliki versi instruction-tuned dari model 7 miliar parameter
Perlu dicatat bahwa ini adalah riset awal yang menekankan efektivitas kurasi data
- Model ini bukan untuk perangkat Apple dan dapat menunjukkan bias tertentu pada data pelatihan uji atau memunculkan respons yang berbahaya

3 komentar

j2sus91 2024-07-23

Karena efeknya akan maksimal jika dipasang di iPhone
Samsung juga berfokus pada on-device

xguru 2024-07-23

Apple merilis 8 model bahasa AI kecil yang ditujukan untuk penggunaan di perangkat

Apple tampaknya terus fokus pada model kecil untuk AI on-device. Saya ingin sekali cepat-cepat mencobanya.

godrm 2024-07-23

Mulai tahun depan sepertinya kita sudah bisa benar-benar mencobanya, hehe

Apple pamerkan kemampuan AI terbuka: model baru yang dirilis menunjukkan performa lebih baik daripada Mistral

DCLM(DataComp for Language Models)

Model yang kuat dan lebih kecil

Bacaan terkait

3 komentar