28 poin oleh GN⁺ 2026-03-03 | 1 komentar | Bagikan ke WhatsApp
  • Alat yang dapat menemukan model yang benar-benar bisa dijalankan pada RAM·CPU·GPU sistem Anda untuk ratusan model LLM dan penyedia, cukup dengan satu perintah
  • Memberi skor tiap model berdasarkan kualitas, kecepatan, kecocokan, dan konteks untuk menandai apakah model dapat dijalankan, serta mendukung TUI (terminal UI) dan mode CLI
  • Mendukung multi-GPU, struktur MoE, kuantisasi dinamis, estimasi kecepatan, dan integrasi dengan runtime lokal (Ollama, llama.cpp, MLX)
  • Menganalisis mode eksekusi (GPU, CPU+GPU, CPU) dan tingkat kecocokan (Perfect, Good, Marginal, Too Tight) untuk tiap model guna menyarankan kombinasi terbaik
  • Menyediakan otomatisasi pemilihan model berbasis hardware bagi developer yang ingin memanfaatkan LLM secara efisien di lingkungan lokal

Ringkasan fitur utama

  • llmfit adalah alat berbasis terminal yang mendeteksi spesifikasi hardware sistem dan mengevaluasi apakah model LLM benar-benar dapat dijalankan
    • Membaca informasi RAM, CPU, dan GPU lalu menghitung skor kualitas, kecepatan, kecocokan, dan konteks untuk tiap model
    • Hasil ditampilkan dalam bentuk TUI interaktif atau CLI tradisional
  • Mendukung multi-GPU, Mixture-of-Experts(MoE), pemilihan kuantisasi dinamis, estimasi kecepatan, dan integrasi runtime lokal
  • Mendukung Ollama, llama.cpp, dan MLX sebagai runtime lokal, dengan deteksi otomatis model yang terpasang serta kemampuan unduh
  • Melalui mode Plan, alat ini dapat menghitung balik kebutuhan hardware minimum dan yang direkomendasikan untuk model tertentu
  • Berjalan di berbagai platform seperti macOS, Linux, Windows, dan Ascend

Instalasi dan menjalankan

  • Di macOS/Linux, instal dengan perintah brew install llmfit atau curl -fsSL https://llmfit.axjns.dev/install.sh | sh
  • Di Windows, instalasi tersedia melalui cargo install llmfit
  • Saat dijalankan, perintah llmfit akan membuka TUI dan menampilkan spesifikasi sistem serta daftar model
  • Dalam mode CLI, tersedia berbagai subperintah seperti llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json, dan lainnya

Cara kerja

  • Deteksi hardware: menggunakan sysinfo, nvidia-smi, rocm-smi, system_profiler, dan lainnya untuk mengumpulkan informasi RAM·CPU·GPU
  • Database model: mengambil ratusan model dari HuggingFace API dan menyimpannya ke data/hf_models.json
    • Mencakup model utama seperti Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite, dan lainnya
  • Kuantisasi dinamis: menelusuri tingkat Q8_0~Q2_K dan otomatis memilih kuantisasi kualitas tertinggi yang masih muat dalam memori yang tersedia
  • Estimasi kecepatan: memakai rumus berbasis bandwidth memori GPU (bandwidth_GB_s / model_size_GB) × 0.55
    • Tabel bandwidth bawaan tersedia untuk sekitar 80 jenis GPU
  • Analisis kecocokan: mengevaluasi kelayakan eksekusi dan margin memori untuk mode GPU·CPU+GPU·CPU

Antarmuka pengguna

  • Tombol kontrol TUI:
    • f untuk filter kecocokan, a untuk filter ketersediaan, s untuk mengubah kriteria pengurutan
    • p untuk masuk ke mode Plan, d untuk mengunduh model, t untuk mengganti tema
  • Dalam mode Plan, pengguna dapat mengubah panjang konteks, kuantisasi, kecepatan token target, dan menghitung kebutuhan VRAM/RAM/CPU
  • Tema: menyediakan 6 tema warna bawaan, termasuk Default, Dracula, Solarized, Nord, Monokai, dan Gruvbox

Runtime dan fitur integrasi

  • Integrasi Ollama: terhubung ke instance Ollama lokal atau jarak jauh (variabel lingkungan OLLAMA_HOST) untuk mendeteksi dan mengunduh model yang terpasang
  • Integrasi llama.cpp: mengunduh file GGUF dari HuggingFace ke cache lokal dan menandai status instalasi
  • Integrasi MLX: mendukung cache model dan koneksi server untuk Apple Silicon
  • Integrasi OpenClaw: melalui skill llmfit-advisor, agen OpenClaw dapat merekomendasikan dan mengatur model yang sesuai dengan hardware secara otomatis

Manajemen database model

  • Skrip scripts/scrape_hf_models.py secara otomatis membuat daftar model dari HuggingFace API
  • Perintah make update-models digunakan untuk memperbarui data dan membangun ulang biner
  • Model diklasifikasikan ke dalam kategori seperti umum, coding, reasoning, multimodal, chat, embedding, dan lainnya
  • Cache sumber GGUF (data/gguf_sources_cache.json) menyimpan jalur unduh selama 7 hari

Dukungan platform

  • Linux/macOS(Apple Silicon): didukung penuh
  • Windows: mendukung deteksi RAM·CPU serta GPU NVIDIA(nvidia-smi)
  • Jika deteksi GPU gagal, VRAM dapat ditentukan secara manual dengan opsi --memory=

Lisensi

  • Lisensi MIT

1 komentar

 
GN⁺ 2026-03-03
Komentar Hacker News
  • Proyek ini terlihat cukup keren dan berguna, tetapi akan lebih baik jika berbentuk situs web
    Menjalankan file eksekusi terasa memberatkan. Menurut saya fitur seperti ini sepenuhnya bisa dibuat di web

    • Alat ini bergantung pada deteksi hardware, jadi ada keterbatasan jika dibuat di web
      Menurut penjelasan di GitHub, alat ini perlu membaca kapasitas RAM, jumlah GPU, dan jenis backend (CUDA, Metal, dll.) di level sistem
      Karena batasan sandbox di browser, JavaScript tidak bisa mengakses informasi semacam ini secara langsung
      Untuk membuat versi web, pengguna perlu mengunggah laporan macOS .spx atau laporan Linux inxi, atau memilih konfigurasi hardware secara manual
      Pendekatan ini memang kurang praktis, tetapi punya kelebihan karena bisa menguji kombinasi hardware virtual
    • Hugging Face juga menyediakan fitur serupa, tetapi informasi hardware harus dimasukkan manual
      Sebenarnya saya rasa orang yang menjalankan model lokal jarang ada yang tidak tahu hardware miliknya sendiri
    • Baru-baru ini saya melihat situs whatmodelscanirun.com, sepertinya layak dijadikan referensi
    • Hugging Face juga sudah punya fitur bawaan seperti ini
    • Ada juga situs basis data model LLM berbasis komunitas, inferbench.com. Situs itu membagikan informasi seperti kecepatan token dan konfigurasi
  • Proyek ini benar-benar luar biasa
    Sebenarnya yang dibutuhkan hanya ukuran LLM dan bandwidth memori
    Dengan rumus sederhana, kita bisa menilai apakah model itu cocok atau tidak
    Misalnya, untuk menjalankan model 32B dalam 4bit, dibutuhkan setidaknya 16GB VRAM
    Jika dihitung dengan tok/s = memory_bandwidth / llm_size, RTX3090 (960GB/s) menghasilkan sekitar 60 tok/s
    Untuk model MoE, jumlah parameter aktiflah yang menentukan kecepatan
    Jika ditambah ruang aman sekitar 10%, hasil estimasinya jadi lebih realistis

    • KV cache mudah di-swap karena jumlah penulisan per token rendah
      Jika memuat parameter model dengan mmap, performa bisa ditingkatkan tanpa penurunan berarti selama RAM mencukupi
    • Ini aturan praktis yang bagus. Hanya saja, dalam banyak kasus ukuran context window membuat penggunaan RAM meningkat secara eksponensial
    • Saya belum tahu rumus ini, terima kasih sudah membagikannya
  • Secara visual ini keren, tetapi di mesin saya Qwen 3.5 berjalan baik, sementara alat ini mengatakan tidak bisa
    Pada akhirnya alat seperti ini sepertinya hanya bisa dipakai sebagai referensi kasar
    Jika memakai tuning kustom seperti Unsloth, pada praktiknya lebih banyak model yang bisa dijalankan
    Model baru muncul terlalu cepat sehingga sepertinya juga tidak mudah dirawat

    • Mungkin ada kemungkinan terjadi swap antara disk dan RAM
      Cara seperti ini dalam jangka panjang bisa memperpendek umur disk
  • Idenya bagus, tetapi model yang direkomendasikan agak ketinggalan zaman
    Di M4 MacBook Pro saya (RAM 128GB), alat ini merekomendasikan Qwen 2.5 atau Starcoder 2

  • Seperti yang sudah disebut beberapa orang, ini lebih baik dibuat sebagai situs web daripada alat CLI
    Cukup masukkan spesifikasi CPU, RAM, dan GPU ke formulir, lalu lakukan perhitungannya

  • Saya tidak paham kenapa harus diunduh lalu dijalankan
    Akan lebih baik kalau cukup memasukkan spesifikasi lewat dropdown lalu melihat hasilnya

  • Untuk sebagian besar kasus alat ini sudah cukup baik, tetapi untuk kasus seperti AMD iGPU yang tidak didukung ROCm, model masih bisa dijalankan dengan basis Vulkan
    Dengan pengaturan driver untuk memanfaatkan RAM sistem seperti VRAM, model yang tadinya tidak mungkin dimuat jadi bisa dijalankan
    Ini sangat berguna khususnya untuk layer offload atau model MoE terkuantisasi

  • Claude juga bisa memberi rekomendasi model yang cukup bagus jika kita memasukkan spesifikasi sistem

    • Saya juga pernah bertanya ke Claude, “local LLM terbaik apa yang bisa dijalankan di komputer ini?” lalu ia menyebut model yang sudah terpasang dan merekomendasikan satu lagi
      Saya tidak yakin informasinya benar-benar terbaru. Saya mengujinya berdasarkan Ollama dan LM Studio
  • Saya biasanya menyuruh Claude atau Codex menjalankan beberapa model secara berurutan lewat Ollama, lalu mengevaluasi performanya secara otomatis
    Dalam sekitar 30 menit, saya bisa menemukan model yang paling cocok untuk sistem saya

    • Penasaran apakah Anda bisa membagikan prompt-nya