- Alat CLI yang secara otomatis merekomendasikan LLM lokal yang cocok untuk hardware pengguna berdasarkan benchmark terukur nyata, bukan jumlah parameter
- Secara otomatis mendeteksi GPU/CPU/RAM dan menampilkan peringkat model teratas dari model HuggingFace yang sesuai dengan sistem
- Mendukung NVIDIA, AMD, Apple Silicon, dan CPU-only
- Tujuan utamanya bukan memilih model terbesar yang muat di VRAM, tetapi memilih model yang benar-benar terbaik di antaranya
- Contoh: saat mensimulasikan RTX 4090, meskipun model 32B muat, rekomendasi peringkat 1 adalah model 27B generasi lebih baru (Qwen3.6-27B)
- Penilaian gabungan multi-benchmark: mengintegrasikan LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, dan Open LLM Leaderboard untuk menghasilkan skor 0–100
- Pengenalan model terbaru (Recency-aware): leaderboard lama diberi penalti dengan mengikuti silsilah model, sehingga model tahun 2024 tidak bisa melampaui model generasi saat ini hanya dengan skor versi lama
- 5 tingkat klasifikasi bukti - ditandai sebagai
direct / variant / base_model / line_interp / self_reported, lalu diberi diskon kepercayaan
- Mencegah laporan mandiri palsu dari pengunggah dan juga pewarisan lintas keluarga ketika fork kecil meminjam skor besar dari basis model yang lebih besar
- Jika jumlah parameter berbeda 2x atau lebih dari dominant member dalam family, pewarisan ditolak
- Estimasi VRAM/kecepatan yang sadar arsitektur - VRAM dihitung dari bobot + cache GQA KV + aktivasi + overhead; kecepatan mencerminkan kondisi bandwidth-bound dengan pemisahan MoE active vs total serta unified memory vs partial offload melalui PCIe
- Mendukung workflow satu perintah yang bisa langsung menjalankan unduh model dan chat dengan satu baris
whichllm run
- Dengan
uv, pembuatan environment terisolasi, instalasi dependensi, unduh model, hingga chat interaktif ditangani otomatis
- Mendukung semua format GGUF / AWQ / GPTQ / FP16 / BF16
- Perintah perencanaan hardware
whichllm --gpu "RTX 5090" - simulasi GPU arbitrer untuk pengecekan sebelum membeli
whichllm plan "llama 3 70b" - pencarian terbalik GPU yang dibutuhkan untuk model tertentu
whichllm upgrade "RTX 4090" "RTX 5090" "H100" - membandingkan mesin saat ini dengan kandidat GPU
- Integrasi Ollama: dapat membangun pipeline seperti
whichllm --top 1 --json | jq -r '.models[0].model_id'
- Output snippet kode:
whichllm snippet "qwen 7b" menyediakan kode Python siap salin-tempel, dari pemanggilan llama_cpp.Llama.from_pretrained hingga penyelesaian chat
- Lisensi MIT
1 komentar
Saya merekomendasikan 5 model seperti ini. Ternyata 3 di antaranya adalah Qwen.
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B