- Lupakan GPU NVIDIA yang mahal, gabungkan perangkat yang sudah ada seperti iPhone, iPad, Android, Mac, dan Linux untuk dimanfaatkan sebagai satu GPU yang kuat
- Mendukung LLaMA dan berbagai model lainnya
- Dengan "dynamic model partitioning", model dibagi secara optimal berdasarkan topologi jaringan saat ini dan sumber daya perangkat yang tersedia
- Memungkinkan menjalankan model yang lebih besar daripada yang bisa dijalankan di satu perangkat saja
- Menemukan perangkat lain melalui penemuan perangkat otomatis
- Menyediakan API yang kompatibel dengan ChatGPT
- Setiap perangkat terhubung dengan cara p2p, bukan struktur Master-Worker (strategi partisi default adalah ring memory weighted partitioning)
- Dukungan mesin inferensi:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- Mendukung modul jaringan:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- Masalah yang diketahui
- Karena library berkembang sangat cepat, implementasi iOS tertinggal dibanding Python
- Dalam jangka panjang, direncanakan pendekatan terpadu agar tidak perlu mempertahankan implementasi terpisah
Ringkasan GN⁺
- exo adalah perangkat lunak eksperimental yang dapat mengintegrasikan berbagai perangkat menjadi satu klaster AI yang kuat
- Menyediakan berbagai fitur seperti penemuan perangkat otomatis dan partisi model dinamis sehingga dapat menjalankan model yang lebih besar daripada di satu perangkat
- Menyediakan API yang kompatibel dengan ChatGPT sehingga model dapat dijalankan dengan mudah
- Sedang mendorong pendekatan terpadu untuk mengatasi masalah implementasi iOS yang tertinggal
1 komentar
Pendapat Hacker News
mlx, pustaka khusus Apple Silicon. Katanya berjalan di "iPhone, iPad, Android, Mac, Linux, pretty much any device", tetapi diragukan apakah itu benar-benar pernah diujipaddlerdari GitHub di Windows untuk load balancing pada dua perangkat. Ini akan berguna untuk menjalankan Llama 400B di beberapa perangkat. Namun dukungan Windows masih belum ada