- Alat yang dapat menemukan model yang benar-benar bisa dijalankan pada RAM·CPU·GPU sistem Anda untuk ratusan model LLM dan penyedia, cukup dengan satu perintah
- Memberi skor tiap model berdasarkan kualitas, kecepatan, kecocokan, dan konteks untuk menandai apakah model dapat dijalankan, serta mendukung TUI (terminal UI) dan mode CLI
- Mendukung multi-GPU, struktur MoE, kuantisasi dinamis, estimasi kecepatan, dan integrasi dengan runtime lokal (Ollama, llama.cpp, MLX)
- Menganalisis mode eksekusi (GPU, CPU+GPU, CPU) dan tingkat kecocokan (Perfect, Good, Marginal, Too Tight) untuk tiap model guna menyarankan kombinasi terbaik
- Menyediakan otomatisasi pemilihan model berbasis hardware bagi developer yang ingin memanfaatkan LLM secara efisien di lingkungan lokal
Ringkasan fitur utama
- llmfit adalah alat berbasis terminal yang mendeteksi spesifikasi hardware sistem dan mengevaluasi apakah model LLM benar-benar dapat dijalankan
- Membaca informasi RAM, CPU, dan GPU lalu menghitung skor kualitas, kecepatan, kecocokan, dan konteks untuk tiap model
- Hasil ditampilkan dalam bentuk TUI interaktif atau CLI tradisional
- Mendukung multi-GPU, Mixture-of-Experts(MoE), pemilihan kuantisasi dinamis, estimasi kecepatan, dan integrasi runtime lokal
- Mendukung Ollama, llama.cpp, dan MLX sebagai runtime lokal, dengan deteksi otomatis model yang terpasang serta kemampuan unduh
- Melalui mode Plan, alat ini dapat menghitung balik kebutuhan hardware minimum dan yang direkomendasikan untuk model tertentu
- Berjalan di berbagai platform seperti macOS, Linux, Windows, dan Ascend
Instalasi dan menjalankan
- Di macOS/Linux, instal dengan perintah
brew install llmfit atau curl -fsSL https://llmfit.axjns.dev/install.sh | sh
- Di Windows, instalasi tersedia melalui
cargo install llmfit
- Saat dijalankan, perintah
llmfit akan membuka TUI dan menampilkan spesifikasi sistem serta daftar model
- Dalam mode CLI, tersedia berbagai subperintah seperti
llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json, dan lainnya
Cara kerja
- Deteksi hardware: menggunakan
sysinfo, nvidia-smi, rocm-smi, system_profiler, dan lainnya untuk mengumpulkan informasi RAM·CPU·GPU
- Database model: mengambil ratusan model dari HuggingFace API dan menyimpannya ke
data/hf_models.json
- Mencakup model utama seperti Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite, dan lainnya
- Kuantisasi dinamis: menelusuri tingkat Q8_0~Q2_K dan otomatis memilih kuantisasi kualitas tertinggi yang masih muat dalam memori yang tersedia
- Estimasi kecepatan: memakai rumus berbasis bandwidth memori GPU
(bandwidth_GB_s / model_size_GB) × 0.55
- Tabel bandwidth bawaan tersedia untuk sekitar 80 jenis GPU
- Analisis kecocokan: mengevaluasi kelayakan eksekusi dan margin memori untuk mode GPU·CPU+GPU·CPU
Antarmuka pengguna
- Tombol kontrol TUI:
f untuk filter kecocokan, a untuk filter ketersediaan, s untuk mengubah kriteria pengurutan
p untuk masuk ke mode Plan, d untuk mengunduh model, t untuk mengganti tema
- Dalam mode Plan, pengguna dapat mengubah panjang konteks, kuantisasi, kecepatan token target, dan menghitung kebutuhan VRAM/RAM/CPU
- Tema: menyediakan 6 tema warna bawaan, termasuk Default, Dracula, Solarized, Nord, Monokai, dan Gruvbox
Runtime dan fitur integrasi
- Integrasi Ollama: terhubung ke instance Ollama lokal atau jarak jauh (variabel lingkungan
OLLAMA_HOST) untuk mendeteksi dan mengunduh model yang terpasang
- Integrasi llama.cpp: mengunduh file GGUF dari HuggingFace ke cache lokal dan menandai status instalasi
- Integrasi MLX: mendukung cache model dan koneksi server untuk Apple Silicon
- Integrasi OpenClaw: melalui skill
llmfit-advisor, agen OpenClaw dapat merekomendasikan dan mengatur model yang sesuai dengan hardware secara otomatis
Manajemen database model
- Skrip
scripts/scrape_hf_models.py secara otomatis membuat daftar model dari HuggingFace API
- Perintah
make update-models digunakan untuk memperbarui data dan membangun ulang biner
- Model diklasifikasikan ke dalam kategori seperti umum, coding, reasoning, multimodal, chat, embedding, dan lainnya
- Cache sumber GGUF (
data/gguf_sources_cache.json) menyimpan jalur unduh selama 7 hari
Dukungan platform
- Linux/macOS(Apple Silicon): didukung penuh
- Windows: mendukung deteksi RAM·CPU serta GPU NVIDIA(
nvidia-smi)
- Jika deteksi GPU gagal, VRAM dapat ditentukan secara manual dengan opsi
--memory=
Lisensi
1 komentar
Komentar Hacker News
Proyek ini terlihat cukup keren dan berguna, tetapi akan lebih baik jika berbentuk situs web
Menjalankan file eksekusi terasa memberatkan. Menurut saya fitur seperti ini sepenuhnya bisa dibuat di web
Menurut penjelasan di GitHub, alat ini perlu membaca kapasitas RAM, jumlah GPU, dan jenis backend (CUDA, Metal, dll.) di level sistem
Karena batasan sandbox di browser, JavaScript tidak bisa mengakses informasi semacam ini secara langsung
Untuk membuat versi web, pengguna perlu mengunggah laporan macOS
.spxatau laporan Linuxinxi, atau memilih konfigurasi hardware secara manualPendekatan ini memang kurang praktis, tetapi punya kelebihan karena bisa menguji kombinasi hardware virtual
Sebenarnya saya rasa orang yang menjalankan model lokal jarang ada yang tidak tahu hardware miliknya sendiri
Proyek ini benar-benar luar biasa
Sebenarnya yang dibutuhkan hanya ukuran LLM dan bandwidth memori
Dengan rumus sederhana, kita bisa menilai apakah model itu cocok atau tidak
Misalnya, untuk menjalankan model 32B dalam 4bit, dibutuhkan setidaknya 16GB VRAM
Jika dihitung dengan
tok/s = memory_bandwidth / llm_size, RTX3090 (960GB/s) menghasilkan sekitar 60 tok/sUntuk model MoE, jumlah parameter aktiflah yang menentukan kecepatan
Jika ditambah ruang aman sekitar 10%, hasil estimasinya jadi lebih realistis
Jika memuat parameter model dengan
mmap, performa bisa ditingkatkan tanpa penurunan berarti selama RAM mencukupiSecara visual ini keren, tetapi di mesin saya Qwen 3.5 berjalan baik, sementara alat ini mengatakan tidak bisa
Pada akhirnya alat seperti ini sepertinya hanya bisa dipakai sebagai referensi kasar
Jika memakai tuning kustom seperti Unsloth, pada praktiknya lebih banyak model yang bisa dijalankan
Model baru muncul terlalu cepat sehingga sepertinya juga tidak mudah dirawat
Cara seperti ini dalam jangka panjang bisa memperpendek umur disk
Idenya bagus, tetapi model yang direkomendasikan agak ketinggalan zaman
Di M4 MacBook Pro saya (RAM 128GB), alat ini merekomendasikan Qwen 2.5 atau Starcoder 2
Seperti yang sudah disebut beberapa orang, ini lebih baik dibuat sebagai situs web daripada alat CLI
Cukup masukkan spesifikasi CPU, RAM, dan GPU ke formulir, lalu lakukan perhitungannya
Saya tidak paham kenapa harus diunduh lalu dijalankan
Akan lebih baik kalau cukup memasukkan spesifikasi lewat dropdown lalu melihat hasilnya
Untuk sebagian besar kasus alat ini sudah cukup baik, tetapi untuk kasus seperti AMD iGPU yang tidak didukung ROCm, model masih bisa dijalankan dengan basis Vulkan
Dengan pengaturan driver untuk memanfaatkan RAM sistem seperti VRAM, model yang tadinya tidak mungkin dimuat jadi bisa dijalankan
Ini sangat berguna khususnya untuk layer offload atau model MoE terkuantisasi
Claude juga bisa memberi rekomendasi model yang cukup bagus jika kita memasukkan spesifikasi sistem
Saya tidak yakin informasinya benar-benar terbaru. Saya mengujinya berdasarkan Ollama dan LM Studio
Saya biasanya menyuruh Claude atau Codex menjalankan beberapa model secara berurutan lewat Ollama, lalu mengevaluasi performanya secara otomatis
Dalam sekitar 30 menit, saya bisa menemukan model yang paling cocok untuk sistem saya