Cactus - Ollama untuk smartphone

(github.com/cactus-compute)

22 poin oleh xguru 2025-08-05 | Belum ada komentar. | Bagikan ke WhatsApp

Framework lintas platform yang memungkinkan model GGUF dijalankan langsung di berbagai perangkat (smartphone, laptop, TV, kamera, dll.)
- Mendukung model GGUF apa pun yang disediakan di Huggingface; seperti Qwen, Gemma, Llama, DeepSeek, dan lainnya
- Mendeploy dan menjalankan model LLM/VLM/TTS langsung di dalam aplikasi
Mendukung Flutter, React-Native, Kotlin Multiplatform, dan dapat menjalankan berbagai jenis model secara on-device seperti teks, visi, embedding, dan model TTS
Mendukung mulai dari FP32 hingga model terkuantisasi 2-bit, sehingga memungkinkan efisiensi tinggi dan operasi berdaya rendah di lingkungan mobile
Mendukung chat template (Jinja2), token streaming, fallback otomatis cloud-lokal, Speech-To-Text, dan lainnya
Backend Cactus ditulis dalam C/C++, sehingga dapat berjalan langsung di hampir semua lingkungan seperti mobile, PC, embedded, dan IoT
Pada smartphone terbaru, Gemma3 1B Q4 berjalan dengan kecepatan 20~50 token/detik, dan Qwen3 4B Q4 pada 7~18 token/detik
Model yang direkomendasikan dapat diunduh dari HuggingFace Cactus-Compute

Poin pemanfaatan dan keunggulan

Berbeda dari framework LLM on-device yang sudah ada, solusi ini mendukung banyak platform secara terpadu, sehingga memudahkan implementasi arsitektur hybrid lokal-cloud
Memungkinkan pemanfaatan LLM/VLM/TTS terbaru di perangkat mobile dengan performa tinggi dan konsumsi daya rendah
Cocok untuk berbagai skenario B2C/B2B seperti pemrosesan data privat di dalam aplikasi/layanan, AI offline, dan pengurangan biaya