2 poin oleh brainer 2024-04-25 | 1 komentar | Bagikan ke WhatsApp

• OpenELM diperkenalkan sebagai model bahasa terbuka mutakhir yang mendorong reproduktibilitas dan transparansi di bidang model bahasa besar. Dengan menggunakan strategi penskalaan per lapisan, OpenELM mengalokasikan parameter secara efisien di dalam setiap lapisan model transformer untuk meningkatkan akurasi. Sebagai contoh, dengan anggaran sekitar 1 miliar parameter, OpenELM melampaui OLMo sebesar 2,36% sambil hanya memerlukan setengah dari token pra-pelatihan.

• Berbeda dari praktik sebelumnya yang hanya menyediakan bobot model dan kode inferensi, OpenELM menawarkan framework komprehensif untuk melatih dan mengevaluasi model bahasa menggunakan kumpulan data yang tersedia secara publik. Ini mencakup log pelatihan, beberapa checkpoint, dan konfigurasi pra-pelatihan. Selain itu, disediakan kode untuk mengonversi model ke pustaka MLX guna inferensi dan fine-tuning di perangkat Apple.

• Peluncuran OpenELM bertujuan memberdayakan komunitas riset terbuka dengan menyediakan akses ke framework pelatihan dan inferensi yang lengkap, sehingga mendorong upaya riset terbuka di masa depan. Kode sumber, bobot model pra-terlatih, dan resep pelatihan tersedia dengan mudah, bersama akses model di Hugging Face.

1 komentar

 
cosine20 2024-04-25

Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU

Melihat reaksi di sekitarnya, tampaknya banyak yang mengatakan MMLU-nya terlalu rendah dan dataset yang digunakan untuk pelatihan agak lawas.
Ada juga yang bilang jangan-jangan ini sengaja dijadikan open source karena model lama...