21 poin oleh GN⁺ 2024-07-17 | 1 komentar | Bagikan ke WhatsApp
  • Lupakan GPU NVIDIA yang mahal, gabungkan perangkat yang sudah ada seperti iPhone, iPad, Android, Mac, dan Linux untuk dimanfaatkan sebagai satu GPU yang kuat
  • Mendukung LLaMA dan berbagai model lainnya
  • Dengan "dynamic model partitioning", model dibagi secara optimal berdasarkan topologi jaringan saat ini dan sumber daya perangkat yang tersedia
    • Memungkinkan menjalankan model yang lebih besar daripada yang bisa dijalankan di satu perangkat saja
  • Menemukan perangkat lain melalui penemuan perangkat otomatis
  • Menyediakan API yang kompatibel dengan ChatGPT
  • Setiap perangkat terhubung dengan cara p2p, bukan struktur Master-Worker (strategi partisi default adalah ring memory weighted partitioning)
  • Dukungan mesin inferensi:
    • ✅ MLX
    • ✅ tinygrad
    • 🚧 llama.cpp
  • Mendukung modul jaringan:
    • ✅ GRPC
    • 🚧 Radio
    • 🚧 Bluetooth
  • Masalah yang diketahui
    • Karena library berkembang sangat cepat, implementasi iOS tertinggal dibanding Python
    • Dalam jangka panjang, direncanakan pendekatan terpadu agar tidak perlu mempertahankan implementasi terpisah

Ringkasan GN⁺

  • exo adalah perangkat lunak eksperimental yang dapat mengintegrasikan berbagai perangkat menjadi satu klaster AI yang kuat
  • Menyediakan berbagai fitur seperti penemuan perangkat otomatis dan partisi model dinamis sehingga dapat menjalankan model yang lebih besar daripada di satu perangkat
  • Menyediakan API yang kompatibel dengan ChatGPT sehingga model dapat dijalankan dengan mudah
  • Sedang mendorong pendekatan terpadu untuk mengatasi masalah implementasi iOS yang tertinggal

1 komentar

 
GN⁺ 2024-07-17
Pendapat Hacker News
  • Membutuhkan mlx, pustaka khusus Apple Silicon. Katanya berjalan di "iPhone, iPad, Android, Mac, Linux, pretty much any device", tetapi diragukan apakah itu benar-benar pernah diuji
  • Sedang memikirkan cara agar sistem yang dioptimalkan untuk jaringan lokal ini bisa dipakai dengan mudah secara crowdsourcing. Mencari cara agar semua orang di kantor bisa ikut ke jaringan dengan mudah, atau berkontribusi pada model spesifik domain dengan memindai kode QR
  • Ide ini bagus dan ramah pengguna. Ada potensi untuk mengubah banyak perangkat lama menjadi sesuatu yang berguna. Tetapi akan lebih baik jika disertai hasil tentang tok, latensi, dan konfigurasi contoh
  • Pernah menjalankan paddler dari GitHub di Windows untuk load balancing pada dua perangkat. Ini akan berguna untuk menjalankan Llama 400B di beberapa perangkat. Namun dukungan Windows masih belum ada
  • Fitur ini memungkinkan menjalankan model yang lebih besar daripada yang bisa dijalankan di satu perangkat. Namun penjelasan tentang cara kerjanya masih kurang. Misalnya, jika sebagian layer jaringan saraf ada di deviceA dan layer lain ada di deviceB, maka setiap kali token dibuat, data keluaran layer terakhir dari deviceA harus dikirim ke deviceB
  • Komputasi swarm seharusnya menjadi standar untuk semua komputasi. Terlalu banyak CPU yang tidak terpakai di semua perangkat yang kita miliki
  • Ini tidak akan berhasil karena bottleneck jaringan. Data sebesar gigabita harus ditransfer. Jadi dibutuhkan internet yang bagus (lebih dari 20mb/s) dan perangkat yang bagus. Sistem ini kemungkinan hanya akan berakhir sebagai demo keren di Twitter. Semoga saya dibuktikan salah
  • Cloud tidak bisa dikalahkan dari sisi komputasi/harga, tetapi berpindah ke lokal bisa menyelesaikan masalah privasi. Dunia membutuhkan amendemen kedua untuk komputasi
  • Dulu tertarik menjalankan model secara lokal di Mac, PC, dan sebagainya. Tetapi sekarang merasa sebagian besar komputasi AI yang berguna akan terjadi di cloud. Kita bisa menjalankan model Llama3 yang lambat di jaringan rumah, tetapi tidak ada alasan kuat melakukannya jika bisa menjalankannya lebih murah atau gratis di layanan cloud. Apple memang mendorong model AI lokal, tetapi ada kekhawatiran serius tentang dampaknya terhadap performa baterai
  • Klaster besar melaporkan bahwa overhead komunikasi dengan jaringan RDMA menjadi bottleneck, jadi saya penasaran bagaimana mungkin sistem ini tidak mengalami bottleneck besar di jaringan rumah