- Artikel ini memperkenalkan Petals, teknologi baru yang memungkinkan pengguna menjalankan large language models (LLM) di rumah dengan cara mirip BitTorrent.
- Petals mendukung berbagai LLM dan turunannya, termasuk Llama 2 (70B), Falcon (180B), BLOOM (176B).
- Teknologi ini bekerja dengan memuat sebagian model ke perangkat pengguna, lalu terhubung ke jaringan pengguna lain yang menyediakan bagian sisanya.
- Menyediakan kecepatan inferensi single-batch sebesar 6 token/detik untuk Llama 2 dan 4 token/detik untuk Falcon. Kecepatan ini cukup untuk chatbot dan aplikasi interaktif.
- Petals melampaui API LLM klasik dengan memungkinkan pengguna memakai metode fine-tuning dan sampling apa pun, menjalankan jalur kustom melalui model, atau melihat hidden states.
- Petals menggabungkan fleksibilitas PyTorch dan ๐ค Transformers dengan kemudahan API.
- Pengguna dapat mencoba Petals di Google Colab dan melihat dokumentasinya di GitHub.
- Artikel ini mencantumkan para kontributor utama proyek dan menyediakan tautan untuk berkontribusi GPU.
- Pengguna dapat mengikuti pengembangan Petals melalui Discord atau langganan email.
- Proyek ini merupakan bagian dari lokakarya riset BigScience.
1 komentar
Opini Hacker News