Guanaco - Kompetisi fine-tuning LLM senilai $1M (130 juta won)

xguru · 2023-05-11T10:03:02+09:00

Tantangan komunitas terbuka pertama di dunia di mana pengguna menilai model yang diunggah Season 1 Episode 1 dimulai pada 10 Juni dengan hadiah $250k selama 12 minggu Format kompetisi Chai Reward Model (GPT-2), yang dilatih langsung dengan 170 juta sinyal buatan pengguna, dirilis sebagai open source Model ini dapat digunakan untuk evaluasi offline atau diintegrasikan sebagai bagian dari pipeline RLHF Karena pelatihan model bahasa membutuhkan biaya besar, berbagai model dasar akan diuji agar siapa pun dapat ikut serta dalam kompetisi Untuk model yang diunggah, classifier AI Safety internal akan memeriksa apakah model tersebut layak untuk diterapkan, lalu dibuka untuk A/B testing oleh pengguna Dievaluasi oleh lebih dari sekitar 1 juta pengguna nyata

Tantangan komunitas terbuka pertama di dunia di mana pengguna menilai model yang diunggah
Season 1 Episode 1 dimulai pada 10 Juni dengan hadiah $250k selama 12 minggu
Format kompetisi
- Chai Reward Model (GPT-2), yang dilatih langsung dengan 170 juta sinyal buatan pengguna, dirilis sebagai open source
- Model ini dapat digunakan untuk evaluasi offline atau diintegrasikan sebagai bagian dari pipeline RLHF
- Karena pelatihan model bahasa membutuhkan biaya besar, berbagai model dasar akan diuji agar siapa pun dapat ikut serta dalam kompetisi
- Untuk model yang diunggah, classifier AI Safety internal akan memeriksa apakah model tersebut layak untuk diterapkan, lalu dibuka untuk A/B testing oleh pengguna
- Dievaluasi oleh lebih dari sekitar 1 juta pengguna nyata

Guanaco - Kompetisi fine-tuning LLM senilai $1M (130 juta won)

Bacaan terkait

1 komentar