3 poin oleh GN⁺ 2025-02-17 | 1 komentar | Bagikan ke WhatsApp
  • Proyek ini membagikan hasil tentang cara menjalankan model Deepseek R1 Distill 8B Q40 pada perangkat Raspberry Pi 5 8GB.
  • Beberapa unit Raspberry Pi digunakan untuk mengevaluasi dan memprediksi performa model.
  • Hasil evaluasi dan prediksi
    • 2 x Raspberry Pi 5 8GB
      • Evaluasi: 7,70 token per detik
      • Prediksi: 3,54 token per detik
    • 4 x Raspberry Pi 5 8GB
      • Evaluasi: 11,68 token per detik
      • Prediksi: 6,43 token per detik
  • Informasi lain
    • Pengujian dilakukan saat jaringan dalam keadaan tertutup.
    • Performa pada lingkungan klaster yang menggunakan beberapa perangkat turut diuji.

1 komentar

 
GN⁺ 2025-02-17
Komentar Hacker News
  • Pengumuman menjalankan 'Deepseek R1' di Raspberry Pi selalu mengikuti pola yang sama, yaitu menjalankan llama atau qwen yang dimodifikasi dengan teknik distilasi Deepseek
    • Demo menunjukkan pertanyaan "diselesaikan" dalam kurang dari 500 token
    • Perlu dicatat bahwa kecepatan seperti ini tidak dapat dicapai saat menangani model "thinking" pada panjang konteks yang berguna di dunia nyata (8-16k token)
    • Bahkan epyc dengan banyak channel akan turun menjadi sekitar 2-4 t/s setelah panjang konteks sekitar 4096
  • Dengan £320 Anda bisa membeli 4 unit Pi5, tetapi jika menemukan 3080 12GB bekas, kemungkinan Anda bisa mendapatkan kecepatan token lebih dari 10 kali lipat
  • Hal yang menarik di sini adalah inferensi llama bisa dijalankan secara terdistribusi di beberapa komputer
    • Ini adalah klaster Beowulf modern
  • Saya belum memahami bagaimana beberapa Raspberry Pi digunakan secara paralel. Semoga ada yang bisa mengarahkan saya ke penjelasan soal ini
  • Jika Anda ingin mencoba model ini di Mac, Anda bisa menjalankannya dengan plugin llm-mlx baru seperti berikut
    • brew install llm atau pipx install llm atau uv tool install llm
    • llm install llm-mlx
    • llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
    • llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
    • Saat saya baru saja mencobanya, saya mendapatkan performa 22 token/detik
  • Saya penasaran kapan semua teknologi AI baru ini bisa di-"apt-get install"
  • Saya penasaran apakah menambah memori akan membantu. Baru-baru ini RPi 5 dengan RAM 16GB telah dirilis
  • Produk berbasis LLM seperti Alexa atau Google Home seharusnya membutuhkan LLM yang berjalan lokal, bukan terhubung ke cloud. Saya tidak tahu mengapa itu belum ada, atau mengapa belum ada yang mengerjakannya