- Berbasis model LLaMA
- Pengumpulan data supervised
- Fine-tuning supervised
- Pelatihan model reward
- Fine-tuning Reinforcement Learning
- Konten yang disertakan
- Demo interaktif yang berjalan online
- Open source kode pelatihan RLHF lengkap yang mencakup model 7B/13B
- Dataset bilingual 104k dalam bahasa Mandarin/Inggris
- Kuantisasi 4-bit untuk model 7B. Hanya memerlukan memori GPU 4GB
- Termasuk bobot model. Dapat direproduksi dengan mudah di satu server
- Model/dataset/optimisasi berskala besar dan lainnya juga akan terus ditambahkan
Belum ada komentar.