- Tantangan komunitas terbuka pertama di dunia di mana pengguna menilai model yang diunggah
- Season 1 Episode 1 dimulai pada 10 Juni dengan hadiah $250k selama 12 minggu
- Format kompetisi
- Chai Reward Model (GPT-2), yang dilatih langsung dengan 170 juta sinyal buatan pengguna, dirilis sebagai open source
- Model ini dapat digunakan untuk evaluasi offline atau diintegrasikan sebagai bagian dari pipeline RLHF
- Karena pelatihan model bahasa membutuhkan biaya besar, berbagai model dasar akan diuji agar siapa pun dapat ikut serta dalam kompetisi
- Untuk model yang diunggah, classifier AI Safety internal akan memeriksa apakah model tersebut layak untuk diterapkan, lalu dibuka untuk A/B testing oleh pengguna
- Dievaluasi oleh lebih dari sekitar 1 juta pengguna nyata
1 komentar
Gambar llama yang terlihat seperti gabungan Super Saiyan dan Fusion itu cukup mengesankan.