Shimmy - Server OpenAI API ringan berfokus pada privasi pribadi yang dapat menggantikan Ollama

xguru · 2025-10-30T09:31:02+09:00

Alat yang dirancang untuk menjalankan LLM sepenuhnya secara offline di lingkungan lokal, tersedia dalam bentuk biner tunggal 4.8MB yang 142 kali lebih kecil daripada Ollama 100% kompatibel dengan OpenAI API, sehingga dapat langsung dihubungkan dengan alat pengembang yang sudah ada seperti Python, Node.js, VSCode Copilot, Cursor, Continue.dev, dan lainnya Struktur zero-config yang langsung berfungsi segera setelah instalasi Pencarian model otomatis dari Hugging Face, Ollama, direktori lokal, dan lainnya Mendukung penetapan port otomatis serta fitur deteksi adaptor LoRA Fitur inferensi hibrida CPU/GPU berbasis MOE(Mixture of Experts) memungkinkan model besar 70B ke atas berjalan di PC biasa Tetap berjalan stabil di lingkungan dengan VRAM terbatas melalui CPU offloading dan distribusi layer cerdas Kontrol terperinci tersedia melalui opsi --cpu-moe dan --n-cpu-moe Mendukung berbagai backend untuk akselerasi GPU seperti CUDA, Vulkan, OpenCL, MLX(Apple Silicon) Terdeteksi otomatis saat runtime, dan akan otomatis beralih ke CPU jika GPU tidak tersedia Arsitektur asinkron berbasis Rust + Tokio menghadirkan performa tinggi dan stabilitas memori Menggunakan backend llama.cpp sehingga kompatibel dengan model GGUF Termasuk cache LRU, load balancing otomatis, pemantauan terintegrasi Prometheus, dan lainnya Dirancang dengan fokus pada keamanan dan privasi Data dan kode tidak keluar dari lingkungan lokal Tidak memerlukan API key, paket berbayar, atau biaya token Disediakan gratis selamanya dengan lisensi MIT: “FREE now, FREE forever”

(github.com/Michael-A-Kuykendall)

57 poin oleh xguru 2025-10-30 | 5 komentar | Bagikan ke WhatsApp

Alat yang dirancang untuk menjalankan LLM sepenuhnya secara offline di lingkungan lokal, tersedia dalam bentuk biner tunggal 4.8MB yang 142 kali lebih kecil daripada Ollama
100% kompatibel dengan OpenAI API, sehingga dapat langsung dihubungkan dengan alat pengembang yang sudah ada seperti Python, Node.js, VSCode Copilot, Cursor, Continue.dev, dan lainnya
Struktur zero-config yang langsung berfungsi segera setelah instalasi
- Pencarian model otomatis dari Hugging Face, Ollama, direktori lokal, dan lainnya
- Mendukung penetapan port otomatis serta fitur deteksi adaptor LoRA
Fitur inferensi hibrida CPU/GPU berbasis MOE(Mixture of Experts) memungkinkan model besar 70B ke atas berjalan di PC biasa
- Tetap berjalan stabil di lingkungan dengan VRAM terbatas melalui CPU offloading dan distribusi layer cerdas
- Kontrol terperinci tersedia melalui opsi --cpu-moe dan --n-cpu-moe
Mendukung berbagai backend untuk akselerasi GPU seperti CUDA, Vulkan, OpenCL, MLX(Apple Silicon)
- Terdeteksi otomatis saat runtime, dan akan otomatis beralih ke CPU jika GPU tidak tersedia
Arsitektur asinkron berbasis Rust + Tokio menghadirkan performa tinggi dan stabilitas memori
- Menggunakan backend llama.cpp sehingga kompatibel dengan model GGUF
- Termasuk cache LRU, load balancing otomatis, pemantauan terintegrasi Prometheus, dan lainnya
Dirancang dengan fokus pada keamanan dan privasi
- Data dan kode tidak keluar dari lingkungan lokal
- Tidak memerlukan API key, paket berbayar, atau biaya token
Disediakan gratis selamanya dengan lisensi MIT: “FREE now, FREE forever”

5 komentar

nextstep 2025-11-01

Saya sudah mencoba mengujinya dalam bahasa Korea, Inggris, Mandarin, hingga Jepang, dan untuk saat ini tampaknya ada masalah dalam pemrosesan bahasa Jepang.

woung717 2025-11-01

Kalau backend-nya tetap llama.cpp, apa itu masih bisa disebut dependency-free...

tsboard 2025-10-30

Wow, ini benar-benar keren banget, gila... harus langsung saya coba.

kimjoin2 2025-10-30

wow

mssmss 2025-10-30

Claude dan Copilot tercantum bersama di contributor.

Shimmy - Server OpenAI API ringan berfokus pada privasi pribadi yang dapat menggantikan Ollama

Bacaan terkait

5 komentar