1 poin oleh GN⁺ 2023-07-24 | 1 komentar | Bagikan ke WhatsApp
  • Anda dapat menjalankan inferensi model Llama 2 kecil dalam C murni.
  • Kode ini memungkinkan pelatihan arsitektur LLM Llama 2 di PyTorch dan penyimpanan bobotnya sebagai file biner mentah.
  • Setelah itu, bobot dapat dimuat ke dalam file C.
  • File C dapat menjalankan model berukuran cukup besar dengan kecepatan yang sangat tinggi.
  • Proyek ini dibuat sebagai proyek akhir pekan, bukan pustaka siap produksi.
  • Anda dapat mengunduh model yang telah dipra-latih dan menjalankannya di C.
  • Kode C melakukan streaming token mentah, dan dapat diubah menjadi teks dengan pembungkus sederhana.
  • Kode C berjalan dengan kecepatan sekitar 100 token/detik di M1 MacBook Air.
  • Keluaran kode C adalah teks yang dihasilkan berdasarkan model.
  • Proyek ini berfokus pada aplikasi tertentu dan melatih arsitektur yang sama dari nol.
  • Anda dapat mengunduh source dataset, melakukan pra-tokenisasi, lalu melatih model.
  • Anda dapat menyesuaikan hyperparameter untuk membuat model yang lebih baik.
  • Skrip inferensi PyTorch juga dapat dijalankan untuk perbandingan.
  • Anda dapat melakukan pengujian terperinci dengan skrip uji yang disediakan.
  • Proyek ini memerlukan file model.bin dan model.ckpt dari pelatihan PyTorch.
  • Teks tersebut menyebutkan beberapa hal yang masih harus dikerjakan dan pertanyaan.
  • Proyek ini tersedia dengan lisensi MIT.

1 komentar

 
GN⁺ 2023-07-24
Komentar Hacker News
  • Andrej menerima gaji dari OpenAI sambil membantu Apple, Facebook, dan gerakan open source.
  • Checkpoint aslinya berjalan lebih cepat dari perkiraan di MacBook Air M1.
  • Model 44M baru sedang dilatih.
  • Model Llama berjalan di browser melalui Emscripten.
  • LLM berbasis lokal adalah teknologi yang menarik untuk membangun web app untuk inferensi lokal.
  • Kodenya dibangun dengan rapi menggunakan WASI SDK dan berjalan di runtime Wasm.
  • Detail lebih lanjut dapat dilihat di Twitter Andrej.
  • Kebutuhan memori yang diperlukan untuk menjalankan jaringan saraf turut dibahas.
  • Terungkap bahwa Llama-2 tidak dapat digunakan untuk pekerjaan kreatif.
  • Industri kemungkinan akan beralih ke source code terpisah untuk setiap model yang dirilis.
  • Daya tarik pendekatan "dalam satu file" atau "header-only" turut dibahas.
  • Ada komentar jenaka tentang membuat pengujian yang lebih baik untuk mengurangi yolo.