- Anda dapat menjalankan inferensi model Llama 2 kecil dalam C murni.
- Kode ini memungkinkan pelatihan arsitektur LLM Llama 2 di PyTorch dan penyimpanan bobotnya sebagai file biner mentah.
- Setelah itu, bobot dapat dimuat ke dalam file C.
- File C dapat menjalankan model berukuran cukup besar dengan kecepatan yang sangat tinggi.
- Proyek ini dibuat sebagai proyek akhir pekan, bukan pustaka siap produksi.
- Anda dapat mengunduh model yang telah dipra-latih dan menjalankannya di C.
- Kode C melakukan streaming token mentah, dan dapat diubah menjadi teks dengan pembungkus sederhana.
- Kode C berjalan dengan kecepatan sekitar 100 token/detik di M1 MacBook Air.
- Keluaran kode C adalah teks yang dihasilkan berdasarkan model.
- Proyek ini berfokus pada aplikasi tertentu dan melatih arsitektur yang sama dari nol.
- Anda dapat mengunduh source dataset, melakukan pra-tokenisasi, lalu melatih model.
- Anda dapat menyesuaikan hyperparameter untuk membuat model yang lebih baik.
- Skrip inferensi PyTorch juga dapat dijalankan untuk perbandingan.
- Anda dapat melakukan pengujian terperinci dengan skrip uji yang disediakan.
- Proyek ini memerlukan file model.bin dan model.ckpt dari pelatihan PyTorch.
- Teks tersebut menyebutkan beberapa hal yang masih harus dikerjakan dan pertanyaan.
- Proyek ini tersedia dengan lisensi MIT.
1 komentar
Komentar Hacker News