57 poin oleh xguru 2025-10-30 | Belum ada komentar. | Bagikan ke WhatsApp
  • Alat yang dirancang untuk menjalankan LLM sepenuhnya secara offline di lingkungan lokal, tersedia dalam bentuk biner tunggal 4.8MB yang 142 kali lebih kecil daripada Ollama
  • 100% kompatibel dengan OpenAI API, sehingga dapat langsung dihubungkan dengan alat pengembang yang sudah ada seperti Python, Node.js, VSCode Copilot, Cursor, Continue.dev, dan lainnya
  • Struktur zero-config yang langsung berfungsi segera setelah instalasi
    • Pencarian model otomatis dari Hugging Face, Ollama, direktori lokal, dan lainnya
    • Mendukung penetapan port otomatis serta fitur deteksi adaptor LoRA
  • Fitur inferensi hibrida CPU/GPU berbasis MOE(Mixture of Experts) memungkinkan model besar 70B ke atas berjalan di PC biasa
    • Tetap berjalan stabil di lingkungan dengan VRAM terbatas melalui CPU offloading dan distribusi layer cerdas
    • Kontrol terperinci tersedia melalui opsi --cpu-moe dan --n-cpu-moe
  • Mendukung berbagai backend untuk akselerasi GPU seperti CUDA, Vulkan, OpenCL, MLX(Apple Silicon)
    • Terdeteksi otomatis saat runtime, dan akan otomatis beralih ke CPU jika GPU tidak tersedia
  • Arsitektur asinkron berbasis Rust + Tokio menghadirkan performa tinggi dan stabilitas memori
    • Menggunakan backend llama.cpp sehingga kompatibel dengan model GGUF
    • Termasuk cache LRU, load balancing otomatis, pemantauan terintegrasi Prometheus, dan lainnya
  • Dirancang dengan fokus pada keamanan dan privasi
    • Data dan kode tidak keluar dari lingkungan lokal
    • Tidak memerlukan API key, paket berbayar, atau biaya token
  • Disediakan gratis selamanya dengan lisensi MIT: “FREE now, FREE forever”

Belum ada komentar.

Belum ada komentar.