llmfit - alat terminal yang menemukan model LLM yang cocok dengan hardware Anda dan mengoptimalkannya secara otomatis

(github.com/AlexsJones)

28 poin oleh GN⁺ 2026-03-03 | 1 komentar | Bagikan ke WhatsApp

Alat yang dapat menemukan model yang benar-benar bisa dijalankan pada RAM·CPU·GPU sistem Anda untuk ratusan model LLM dan penyedia, cukup dengan satu perintah
Memberi skor tiap model berdasarkan kualitas, kecepatan, kecocokan, dan konteks untuk menandai apakah model dapat dijalankan, serta mendukung TUI (terminal UI) dan mode CLI
Mendukung multi-GPU, struktur MoE, kuantisasi dinamis, estimasi kecepatan, dan integrasi dengan runtime lokal (Ollama, llama.cpp, MLX)
Menganalisis mode eksekusi (GPU, CPU+GPU, CPU) dan tingkat kecocokan (Perfect, Good, Marginal, Too Tight) untuk tiap model guna menyarankan kombinasi terbaik
Menyediakan otomatisasi pemilihan model berbasis hardware bagi developer yang ingin memanfaatkan LLM secara efisien di lingkungan lokal

Ringkasan fitur utama

llmfit adalah alat berbasis terminal yang mendeteksi spesifikasi hardware sistem dan mengevaluasi apakah model LLM benar-benar dapat dijalankan
- Membaca informasi RAM, CPU, dan GPU lalu menghitung skor kualitas, kecepatan, kecocokan, dan konteks untuk tiap model
- Hasil ditampilkan dalam bentuk TUI interaktif atau CLI tradisional
Mendukung multi-GPU, Mixture-of-Experts(MoE), pemilihan kuantisasi dinamis, estimasi kecepatan, dan integrasi runtime lokal
Mendukung Ollama, llama.cpp, dan MLX sebagai runtime lokal, dengan deteksi otomatis model yang terpasang serta kemampuan unduh
Melalui mode Plan, alat ini dapat menghitung balik kebutuhan hardware minimum dan yang direkomendasikan untuk model tertentu
Berjalan di berbagai platform seperti macOS, Linux, Windows, dan Ascend

Instalasi dan menjalankan

Di macOS/Linux, instal dengan perintah brew install llmfit atau curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Di Windows, instalasi tersedia melalui cargo install llmfit
Saat dijalankan, perintah llmfit akan membuka TUI dan menampilkan spesifikasi sistem serta daftar model
Dalam mode CLI, tersedia berbagai subperintah seperti llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json, dan lainnya

Cara kerja

Deteksi hardware: menggunakan sysinfo, nvidia-smi, rocm-smi, system_profiler, dan lainnya untuk mengumpulkan informasi RAM·CPU·GPU
Database model: mengambil ratusan model dari HuggingFace API dan menyimpannya ke data/hf_models.json
- Mencakup model utama seperti Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite, dan lainnya
Kuantisasi dinamis: menelusuri tingkat Q8_0~Q2_K dan otomatis memilih kuantisasi kualitas tertinggi yang masih muat dalam memori yang tersedia
Estimasi kecepatan: memakai rumus berbasis bandwidth memori GPU (bandwidth_GB_s / model_size_GB) × 0.55
- Tabel bandwidth bawaan tersedia untuk sekitar 80 jenis GPU
Analisis kecocokan: mengevaluasi kelayakan eksekusi dan margin memori untuk mode GPU·CPU+GPU·CPU

Antarmuka pengguna

Tombol kontrol TUI:
- f untuk filter kecocokan, a untuk filter ketersediaan, s untuk mengubah kriteria pengurutan
- p untuk masuk ke mode Plan, d untuk mengunduh model, t untuk mengganti tema
Dalam mode Plan, pengguna dapat mengubah panjang konteks, kuantisasi, kecepatan token target, dan menghitung kebutuhan VRAM/RAM/CPU
Tema: menyediakan 6 tema warna bawaan, termasuk Default, Dracula, Solarized, Nord, Monokai, dan Gruvbox

Runtime dan fitur integrasi

Integrasi Ollama: terhubung ke instance Ollama lokal atau jarak jauh (variabel lingkungan OLLAMA_HOST) untuk mendeteksi dan mengunduh model yang terpasang
Integrasi llama.cpp: mengunduh file GGUF dari HuggingFace ke cache lokal dan menandai status instalasi
Integrasi MLX: mendukung cache model dan koneksi server untuk Apple Silicon
Integrasi OpenClaw: melalui skill llmfit-advisor, agen OpenClaw dapat merekomendasikan dan mengatur model yang sesuai dengan hardware secara otomatis

Manajemen database model

Skrip scripts/scrape_hf_models.py secara otomatis membuat daftar model dari HuggingFace API
Perintah make update-models digunakan untuk memperbarui data dan membangun ulang biner
Model diklasifikasikan ke dalam kategori seperti umum, coding, reasoning, multimodal, chat, embedding, dan lainnya
Cache sumber GGUF (data/gguf_sources_cache.json) menyimpan jalur unduh selama 7 hari

Dukungan platform

Linux/macOS(Apple Silicon): didukung penuh
Windows: mendukung deteksi RAM·CPU serta GPU NVIDIA(nvidia-smi)
Jika deteksi GPU gagal, VRAM dapat ditentukan secara manual dengan opsi --memory=

Lisensi

Lisensi MIT

1 komentar

GN⁺ 2026-03-03

Komentar Hacker News

Proyek ini terlihat cukup keren dan berguna, tetapi akan lebih baik jika berbentuk situs web
Menjalankan file eksekusi terasa memberatkan. Menurut saya fitur seperti ini sepenuhnya bisa dibuat di web
- Alat ini bergantung pada deteksi hardware, jadi ada keterbatasan jika dibuat di web
  Menurut penjelasan di GitHub, alat ini perlu membaca kapasitas RAM, jumlah GPU, dan jenis backend (CUDA, Metal, dll.) di level sistem
  Karena batasan sandbox di browser, JavaScript tidak bisa mengakses informasi semacam ini secara langsung
  Untuk membuat versi web, pengguna perlu mengunggah laporan macOS .spx atau laporan Linux inxi, atau memilih konfigurasi hardware secara manual
  Pendekatan ini memang kurang praktis, tetapi punya kelebihan karena bisa menguji kombinasi hardware virtual
- Hugging Face juga menyediakan fitur serupa, tetapi informasi hardware harus dimasukkan manual
  Sebenarnya saya rasa orang yang menjalankan model lokal jarang ada yang tidak tahu hardware miliknya sendiri
- Baru-baru ini saya melihat situs whatmodelscanirun.com, sepertinya layak dijadikan referensi
- Hugging Face juga sudah punya fitur bawaan seperti ini
- Ada juga situs basis data model LLM berbasis komunitas, inferbench.com. Situs itu membagikan informasi seperti kecepatan token dan konfigurasi
Proyek ini benar-benar luar biasa
Sebenarnya yang dibutuhkan hanya ukuran LLM dan bandwidth memori
Dengan rumus sederhana, kita bisa menilai apakah model itu cocok atau tidak
Misalnya, untuk menjalankan model 32B dalam 4bit, dibutuhkan setidaknya 16GB VRAM
Jika dihitung dengan tok/s = memory_bandwidth / llm_size, RTX3090 (960GB/s) menghasilkan sekitar 60 tok/s
Untuk model MoE, jumlah parameter aktiflah yang menentukan kecepatan
Jika ditambah ruang aman sekitar 10%, hasil estimasinya jadi lebih realistis
- KV cache mudah di-swap karena jumlah penulisan per token rendah
  Jika memuat parameter model dengan mmap, performa bisa ditingkatkan tanpa penurunan berarti selama RAM mencukupi
- Ini aturan praktis yang bagus. Hanya saja, dalam banyak kasus ukuran context window membuat penggunaan RAM meningkat secara eksponensial
- Saya belum tahu rumus ini, terima kasih sudah membagikannya
Secara visual ini keren, tetapi di mesin saya Qwen 3.5 berjalan baik, sementara alat ini mengatakan tidak bisa
Pada akhirnya alat seperti ini sepertinya hanya bisa dipakai sebagai referensi kasar
Jika memakai tuning kustom seperti Unsloth, pada praktiknya lebih banyak model yang bisa dijalankan
Model baru muncul terlalu cepat sehingga sepertinya juga tidak mudah dirawat
- Mungkin ada kemungkinan terjadi swap antara disk dan RAM
  Cara seperti ini dalam jangka panjang bisa memperpendek umur disk
Idenya bagus, tetapi model yang direkomendasikan agak ketinggalan zaman
Di M4 MacBook Pro saya (RAM 128GB), alat ini merekomendasikan Qwen 2.5 atau Starcoder 2
Seperti yang sudah disebut beberapa orang, ini lebih baik dibuat sebagai situs web daripada alat CLI
Cukup masukkan spesifikasi CPU, RAM, dan GPU ke formulir, lalu lakukan perhitungannya
Saya tidak paham kenapa harus diunduh lalu dijalankan
Akan lebih baik kalau cukup memasukkan spesifikasi lewat dropdown lalu melihat hasilnya
Untuk sebagian besar kasus alat ini sudah cukup baik, tetapi untuk kasus seperti AMD iGPU yang tidak didukung ROCm, model masih bisa dijalankan dengan basis Vulkan
Dengan pengaturan driver untuk memanfaatkan RAM sistem seperti VRAM, model yang tadinya tidak mungkin dimuat jadi bisa dijalankan
Ini sangat berguna khususnya untuk layer offload atau model MoE terkuantisasi
Claude juga bisa memberi rekomendasi model yang cukup bagus jika kita memasukkan spesifikasi sistem
- Saya juga pernah bertanya ke Claude, “local LLM terbaik apa yang bisa dijalankan di komputer ini?” lalu ia menyebut model yang sudah terpasang dan merekomendasikan satu lagi
  Saya tidak yakin informasinya benar-benar terbaru. Saya mengujinya berdasarkan Ollama dan LM Studio
Saya biasanya menyuruh Claude atau Codex menjalankan beberapa model secara berurutan lewat Ollama, lalu mengevaluasi performanya secara otomatis
Dalam sekitar 30 menit, saya bisa menemukan model yang paling cocok untuk sistem saya
- Penasaran apakah Anda bisa membagikan prompt-nya

llmfit - alat terminal yang menemukan model LLM yang cocok dengan hardware Anda dan mengoptimalkannya secara otomatis

Ringkasan fitur utama

Instalasi dan menjalankan

Cara kerja

Antarmuka pengguna

Runtime dan fitur integrasi

Manajemen database model

Dukungan platform

Lisensi

Bacaan terkait

1 komentar

Komentar Hacker News