- Framework lintas platform yang memungkinkan model GGUF dijalankan langsung di berbagai perangkat (smartphone, laptop, TV, kamera, dll.)
- Mendukung model GGUF apa pun yang disediakan di Huggingface; seperti Qwen, Gemma, Llama, DeepSeek, dan lainnya
- Mendeploy dan menjalankan model LLM/VLM/TTS langsung di dalam aplikasi
- Mendukung Flutter, React-Native, Kotlin Multiplatform, dan dapat menjalankan berbagai jenis model secara on-device seperti teks, visi, embedding, dan model TTS
- Mendukung mulai dari FP32 hingga model terkuantisasi 2-bit, sehingga memungkinkan efisiensi tinggi dan operasi berdaya rendah di lingkungan mobile
- Mendukung chat template (Jinja2), token streaming, fallback otomatis cloud-lokal, Speech-To-Text, dan lainnya
- Backend Cactus ditulis dalam C/C++, sehingga dapat berjalan langsung di hampir semua lingkungan seperti mobile, PC, embedded, dan IoT
- Pada smartphone terbaru, Gemma3 1B Q4 berjalan dengan kecepatan 20~50 token/detik, dan Qwen3 4B Q4 pada 7~18 token/detik
- Model yang direkomendasikan dapat diunduh dari HuggingFace Cactus-Compute
Poin pemanfaatan dan keunggulan
- Berbeda dari framework LLM on-device yang sudah ada, solusi ini mendukung banyak platform secara terpadu, sehingga memudahkan implementasi arsitektur hybrid lokal-cloud
- Memungkinkan pemanfaatan LLM/VLM/TTS terbaru di perangkat mobile dengan performa tinggi dan konsumsi daya rendah
- Cocok untuk berbagai skenario B2C/B2B seperti pemrosesan data privat di dalam aplikasi/layanan, AI offline, dan pengurangan biaya
Belum ada komentar.