Exo - Menjalankan Klaster AI Sendiri dengan Perangkat Rumah Tangga

Lupakan GPU NVIDIA yang mahal, gabungkan perangkat yang sudah ada seperti iPhone, iPad, Android, Mac, dan Linux untuk dimanfaatkan sebagai satu GPU yang kuat
Mendukung LLaMA dan berbagai model lainnya
Dengan "dynamic model partitioning", model dibagi secara optimal berdasarkan topologi jaringan saat ini dan sumber daya perangkat yang tersedia
- Memungkinkan menjalankan model yang lebih besar daripada yang bisa dijalankan di satu perangkat saja
Menemukan perangkat lain melalui penemuan perangkat otomatis
Menyediakan API yang kompatibel dengan ChatGPT
Setiap perangkat terhubung dengan cara p2p, bukan struktur Master-Worker (strategi partisi default adalah ring memory weighted partitioning)
Dukungan mesin inferensi:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
Mendukung modul jaringan:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
Masalah yang diketahui
- Karena library berkembang sangat cepat, implementasi iOS tertinggal dibanding Python
- Dalam jangka panjang, direncanakan pendekatan terpadu agar tidak perlu mempertahankan implementasi terpisah

Ringkasan GN⁺

exo adalah perangkat lunak eksperimental yang dapat mengintegrasikan berbagai perangkat menjadi satu klaster AI yang kuat
Menyediakan berbagai fitur seperti penemuan perangkat otomatis dan partisi model dinamis sehingga dapat menjalankan model yang lebih besar daripada di satu perangkat
Menyediakan API yang kompatibel dengan ChatGPT sehingga model dapat dijalankan dengan mudah
Sedang mendorong pendekatan terpadu untuk mengatasi masalah implementasi iOS yang tertinggal

1 komentar

GN⁺ 2024-07-17

Pendapat Hacker News

Membutuhkan mlx, pustaka khusus Apple Silicon. Katanya berjalan di "iPhone, iPad, Android, Mac, Linux, pretty much any device", tetapi diragukan apakah itu benar-benar pernah diuji
Sedang memikirkan cara agar sistem yang dioptimalkan untuk jaringan lokal ini bisa dipakai dengan mudah secara crowdsourcing. Mencari cara agar semua orang di kantor bisa ikut ke jaringan dengan mudah, atau berkontribusi pada model spesifik domain dengan memindai kode QR
Ide ini bagus dan ramah pengguna. Ada potensi untuk mengubah banyak perangkat lama menjadi sesuatu yang berguna. Tetapi akan lebih baik jika disertai hasil tentang tok, latensi, dan konfigurasi contoh
Pernah menjalankan paddler dari GitHub di Windows untuk load balancing pada dua perangkat. Ini akan berguna untuk menjalankan Llama 400B di beberapa perangkat. Namun dukungan Windows masih belum ada
Fitur ini memungkinkan menjalankan model yang lebih besar daripada yang bisa dijalankan di satu perangkat. Namun penjelasan tentang cara kerjanya masih kurang. Misalnya, jika sebagian layer jaringan saraf ada di deviceA dan layer lain ada di deviceB, maka setiap kali token dibuat, data keluaran layer terakhir dari deviceA harus dikirim ke deviceB
Komputasi swarm seharusnya menjadi standar untuk semua komputasi. Terlalu banyak CPU yang tidak terpakai di semua perangkat yang kita miliki
Ini tidak akan berhasil karena bottleneck jaringan. Data sebesar gigabita harus ditransfer. Jadi dibutuhkan internet yang bagus (lebih dari 20mb/s) dan perangkat yang bagus. Sistem ini kemungkinan hanya akan berakhir sebagai demo keren di Twitter. Semoga saya dibuktikan salah
Cloud tidak bisa dikalahkan dari sisi komputasi/harga, tetapi berpindah ke lokal bisa menyelesaikan masalah privasi. Dunia membutuhkan amendemen kedua untuk komputasi
Dulu tertarik menjalankan model secara lokal di Mac, PC, dan sebagainya. Tetapi sekarang merasa sebagian besar komputasi AI yang berguna akan terjadi di cloud. Kita bisa menjalankan model Llama3 yang lambat di jaringan rumah, tetapi tidak ada alasan kuat melakukannya jika bisa menjalankannya lebih murah atau gratis di layanan cloud. Apple memang mendorong model AI lokal, tetapi ada kekhawatiran serius tentang dampaknya terhadap performa baterai
Klaster besar melaporkan bahwa overhead komunikasi dengan jaringan RDMA menjadi bottleneck, jadi saya penasaran bagaimana mungkin sistem ini tidak mengalami bottleneck besar di jaringan rumah

Exo - Menjalankan Klaster AI Sendiri dengan Perangkat Rumah Tangga

Ringkasan GN⁺

Bacaan terkait

1 komentar

Pendapat Hacker News