2 poin oleh GNโบ 2023-09-18 | 1 komentar | Bagikan ke WhatsApp
  • Artikel ini memperkenalkan Petals, teknologi baru yang memungkinkan pengguna menjalankan large language models (LLM) di rumah dengan cara mirip BitTorrent.
  • Petals mendukung berbagai LLM dan turunannya, termasuk Llama 2 (70B), Falcon (180B), BLOOM (176B).
  • Teknologi ini bekerja dengan memuat sebagian model ke perangkat pengguna, lalu terhubung ke jaringan pengguna lain yang menyediakan bagian sisanya.
  • Menyediakan kecepatan inferensi single-batch sebesar 6 token/detik untuk Llama 2 dan 4 token/detik untuk Falcon. Kecepatan ini cukup untuk chatbot dan aplikasi interaktif.
  • Petals melampaui API LLM klasik dengan memungkinkan pengguna memakai metode fine-tuning dan sampling apa pun, menjalankan jalur kustom melalui model, atau melihat hidden states.
  • Petals menggabungkan fleksibilitas PyTorch dan ๐Ÿค— Transformers dengan kemudahan API.
  • Pengguna dapat mencoba Petals di Google Colab dan melihat dokumentasinya di GitHub.
  • Artikel ini mencantumkan para kontributor utama proyek dan menyediakan tautan untuk berkontribusi GPU.
  • Pengguna dapat mengikuti pengembangan Petals melalui Discord atau langganan email.
  • Proyek ini merupakan bagian dari lokakarya riset BigScience.

1 komentar

 
GNโบ 2023-09-18
Opini Hacker News
  • Artikel tentang metode baru untuk menjalankan model bahasa besar (LLM) di rumah dengan cara yang mirip BitTorrent
  • Bobot model dibagi menjadi beberapa lapisan di banyak mesin yang bekerja sama untuk melakukan inferensi atau fine-tuning
  • Sebuah proyek bernama Ollama sedang dikembangkan untuk meng-host bobot model di registry Docker agar bobot yang benar selalu diunduh setiap kali diperlukan
  • Dengan penggunaan kuantisasi/QLORA, model besar dapat dijalankan pada perangkat keras konsumen dengan kecepatan yang dapat diterima, sambil menghindari latensi akibat paralelisme antarserver lain
  • Fine-tuning model besar seperti 70B bersifat menantang dan membutuhkan sumber daya mahal, sehingga muncul usulan kontribusi kolektif "llama training horde"
  • Ada kekhawatiran tentang kerentanan sistem, di mana peserta jahat dapat mengubah output atau mengembalikan hasil sampah untuk mengganggu sistem
  • Petals, yang merupakan bagian dari proyek ini, memungkinkan pengguna berbagi GPU dan berkontribusi pada kode sehingga memberikan pengalaman coding yang lebih umum
  • Sistem ini dapat menyediakan sejumlah token terdistribusi, sehingga bisa memberi keuntungan bagi pengguna perangkat dengan spesifikasi rendah
  • Proyek ini tampak sebagai pengubah permainan yang potensial, dengan menyediakan aksesibilitas bagi lebih banyak pengembang di bidang ini
  • Petals menjalankan sistem insentif terpusat yang mirip AI Horde kudos, meski dalam aspek lain merupakan sistem terdistribusi. Insentif ini tidak dapat ditukar menjadi uang dan dimaksudkan untuk digunakan di dalam sistem
  • Beberapa pengguna mengalami masalah versi dependensi saat mencoba berbagi GPU
  • Ada usulan untuk menggunakan "token" untuk siklus GPU, serta ide mengikuti pergerakan matahari guna memaksimalkan penggunaan energi PV surya