RedPajama merilis model 7B dengan performa lebih baik daripada model LLM 7B terbuka lain di benchmark HELM

ninebow · 2023-06-07T01:01:15+09:00

Perkenalan 3 model RedPajama-INCITE-7B Merilis 3 model 7B, termasuk model RedPajama-INCITE-7B-Instruct yang menunjukkan performa lebih baik dibanding model 7B terbuka yang sudah ada berdasarkan benchmark HELM Model RedPajama-INCITE-7B-Instruct Versi tuning Instruct dari model yang sudah ada Dilatih menggunakan P3 (BigScience) dan Natural Instruction (AI2) Model terbuka dengan skor tertinggi di benchmark HELM, ideal untuk berbagai tugas Model RedPajama-INCITE-7B-Chat Dilatih hanya menggunakan data open source seperti Dolly2 dan OASST ➡️ dapat digunakan secara komersial (+ Bukan hanya model Chat, seluruh keluarga model RedPajama-INCITE juga dapat digunakan secara komersial) Dirilis bersama skrip pelatihan untuk fine-tuning :arrow_forward: dapat langsung digunakan di OpenChatKit Mendukung RedPajama.cpp (fork dari LLaMA.cpp) - dapat dijalankan di CPU Bekerja sama dengan proyek seperti MLC LLM ➡️ ke depannya akan dibuat agar bisa berjalan di beragam perangkat keras Model RedPajama-INCITE-7B-Base Menggunakan arsitektur yang sama dengan model Pythia dari EleutherAI, dilatih dengan dataset RedPajama-Data-1T Dapat diunduh dari togethercomputer/RedPajama-INCITE-7B-Base di 🤗HuggingFace Berdasarkan benchmark HELM, performanya sekitar 4 poin di bawah LLaMA-7B dan sekitar 1,3 poin di bawah Falcon-7B/MPT-7B Performa lebih rendah hanya pada tugas yang menghitung selisih probabilitas antara jawaban benar/salah dengan menggunakan logprob Pada tugas yang menghasilkan jawaban secara langsung dan mengukur kualitasnya, performanya serupa Karena hasil LM Harness juga menggunakan logprob, performanya juga tampak lebih rendah dengan pola yang serupa Rencana ke depan (RedPajama2) Sedang mengembangkan RedPajama2, dataset baru berisi 2~3T token, dengan rencana berikut: Akan menyeimbangkan campuran data menggunakan teknik seperti DoReMi Menggunakan data seperti Pile v1 dari Eleuther.ai dan Pile v2 dari CarperAI untuk melengkapi keberagaman dan skala Memproses lebih banyak data CommonCrawl Menjelajahi berbagai strategi deduplikasi data selain pendekatan dalam makalah LLaMA Menambahkan lebih dari 150B token kode untuk meningkatkan kualitas tugas coding dan penalaran

(together.xyz)

15 poin oleh ninebow 2023-06-07 | 3 komentar | Bagikan ke WhatsApp

Perkenalan 3 model RedPajama-INCITE-7B

Merilis 3 model 7B, termasuk model RedPajama-INCITE-7B-Instruct yang menunjukkan performa lebih baik dibanding model 7B terbuka yang sudah ada berdasarkan benchmark HELM

Model RedPajama-INCITE-7B-Instruct

Versi tuning Instruct dari model yang sudah ada
Dilatih menggunakan P3 (BigScience) dan Natural Instruction (AI2)
Model terbuka dengan skor tertinggi di benchmark HELM, ideal untuk berbagai tugas

Model RedPajama-INCITE-7B-Chat

Dilatih hanya menggunakan data open source seperti Dolly2 dan OASST ➡️ dapat digunakan secara komersial
- (+ Bukan hanya model Chat, seluruh keluarga model RedPajama-INCITE juga dapat digunakan secara komersial)
Dirilis bersama skrip pelatihan untuk fine-tuning :arrow_forward: dapat langsung digunakan di OpenChatKit
Mendukung RedPajama.cpp (fork dari LLaMA.cpp) - dapat dijalankan di CPU
Bekerja sama dengan proyek seperti MLC LLM ➡️ ke depannya akan dibuat agar bisa berjalan di beragam perangkat keras

Model RedPajama-INCITE-7B-Base

Menggunakan arsitektur yang sama dengan model Pythia dari EleutherAI, dilatih dengan dataset RedPajama-Data-1T
Dapat diunduh dari togethercomputer/RedPajama-INCITE-7B-Base di 🤗HuggingFace
Berdasarkan benchmark HELM, performanya sekitar 4 poin di bawah LLaMA-7B dan sekitar 1,3 poin di bawah Falcon-7B/MPT-7B
- Performa lebih rendah hanya pada tugas yang menghitung selisih probabilitas antara jawaban benar/salah dengan menggunakan logprob
- Pada tugas yang menghasilkan jawaban secara langsung dan mengukur kualitasnya, performanya serupa
- Karena hasil LM Harness juga menggunakan logprob, performanya juga tampak lebih rendah dengan pola yang serupa

Rencana ke depan (RedPajama2)

Sedang mengembangkan RedPajama2, dataset baru berisi 2~3T token, dengan rencana berikut:
- Akan menyeimbangkan campuran data menggunakan teknik seperti DoReMi
- Menggunakan data seperti Pile v1 dari Eleuther.ai dan Pile v2 dari CarperAI untuk melengkapi keberagaman dan skala
- Memproses lebih banyak data CommonCrawl
- Menjelajahi berbagai strategi deduplikasi data selain pendekatan dalam makalah LLaMA
- Menambahkan lebih dari 150B token kode untuk meningkatkan kualitas tugas coding dan penalaran

3 komentar

ninebow 2023-06-07

Ah.. ada salah ketik di judulnya T_T
@xguru, apakah judulnya bisa diubah dari HEML menjadi HELM? T_T

moderator 2023-06-08

Sudah saya perbaiki!