- Alat yang dirancang untuk menjalankan LLM sepenuhnya secara offline di lingkungan lokal, tersedia dalam bentuk biner tunggal 4.8MB yang 142 kali lebih kecil daripada Ollama
- 100% kompatibel dengan OpenAI API, sehingga dapat langsung dihubungkan dengan alat pengembang yang sudah ada seperti Python, Node.js, VSCode Copilot, Cursor, Continue.dev, dan lainnya
- Struktur zero-config yang langsung berfungsi segera setelah instalasi
- Pencarian model otomatis dari Hugging Face, Ollama, direktori lokal, dan lainnya
- Mendukung penetapan port otomatis serta fitur deteksi adaptor LoRA
- Fitur inferensi hibrida CPU/GPU berbasis MOE(Mixture of Experts) memungkinkan model besar 70B ke atas berjalan di PC biasa
- Tetap berjalan stabil di lingkungan dengan VRAM terbatas melalui CPU offloading dan distribusi layer cerdas
- Kontrol terperinci tersedia melalui opsi
--cpu-moe dan --n-cpu-moe
- Mendukung berbagai backend untuk akselerasi GPU seperti CUDA, Vulkan, OpenCL, MLX(Apple Silicon)
- Terdeteksi otomatis saat runtime, dan akan otomatis beralih ke CPU jika GPU tidak tersedia
- Arsitektur asinkron berbasis Rust + Tokio menghadirkan performa tinggi dan stabilitas memori
- Menggunakan backend llama.cpp sehingga kompatibel dengan model GGUF
- Termasuk cache LRU, load balancing otomatis, pemantauan terintegrasi Prometheus, dan lainnya
- Dirancang dengan fokus pada keamanan dan privasi
- Data dan kode tidak keluar dari lingkungan lokal
- Tidak memerlukan API key, paket berbayar, atau biaya token
- Disediakan gratis selamanya dengan lisensi MIT: “FREE now, FREE forever”
Belum ada komentar.