whichllm - Menemukan LLM lokal yang benar-benar berjalan dan memberi performa terbaik di hardware saya

xguru · 2026-05-18T10:06:01+09:00

Alat CLI yang secara otomatis merekomendasikan LLM lokal yang cocok untuk hardware pengguna berdasarkan benchmark terukur nyata, bukan jumlah parameter Secara otomatis mendeteksi GPU/CPU/RAM dan menampilkan peringkat model teratas dari model HuggingFace yang sesuai dengan sistem Mendukung NVIDIA, AMD, Apple Silicon, dan CPU-only Tujuan utamanya bukan memilih model terbesar yang muat di VRAM, tetapi memilih model yang benar-benar terbaik di antaranya Contoh: saat mensimulasikan RTX 4090, meskipun model 32B muat, rekomendasi peringkat 1 adalah model 27B generasi lebih baru (Qwen3.6-27B) Penilaian gabungan multi-benchmark: mengintegrasikan LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, dan Open LLM Leaderboard untuk menghasilkan skor 0–100 Pengenalan model terbaru (Recency-aware): leaderboard lama diberi penalti dengan mengikuti silsilah model, sehingga model tahun 2024 tidak bisa melampaui model generasi saat ini hanya dengan skor versi lama 5 tingkat klasifikasi bukti - ditandai sebagai direct / variant / base_model / line_interp / self_reported, lalu diberi diskon kepercayaan Mencegah laporan mandiri palsu dari pengunggah dan juga pewarisan lintas keluarga ketika fork kecil meminjam skor besar dari basis model yang lebih besar Jika jumlah parameter berbeda 2x atau lebih dari dominant member dalam family, pewarisan ditolak Estimasi VRAM/kecepatan yang sadar arsitektur - VRAM dihitung dari bobot + cache GQA KV + aktivasi + overhead; kecepatan mencerminkan kondisi bandwidth-bound dengan pemisahan MoE active vs total serta unified memory vs partial offload melalui PCIe Mendukung workflow satu perintah yang bisa langsung menjalankan unduh model dan chat dengan satu baris whichllm run Dengan uv, pembuatan environment terisolasi, instalasi dependensi, unduh model, hingga chat interaktif ditangani otomatis Mendukung semua format GGUF / AWQ / GPTQ / FP16 / BF16 Perintah perencanaan hardware whichllm --gpu "RTX 5090" - simulasi GPU arbitrer untuk pengecekan sebelum membeli whichllm plan "llama 3 70b" - pencarian terbalik GPU yang dibutuhkan untuk model tertentu whichllm upgrade "RTX 4090" "RTX 5090" "H100" - membandingkan mesin saat ini dengan kandidat GPU Integrasi Ollama: dapat membangun pipeline seperti whichllm --top 1 --json | jq -r '.models[0].model_id' Output snippet kode: whichllm snippet "qwen 7b" menyediakan kode Python siap salin-tempel, dari pemanggilan llama_cpp.Llama.from_pretrained hingga penyelesaian chat Lisensi MIT

(github.com/Andyyyy64)

71 poin oleh xguru 2026-05-18 | 3 komentar | Bagikan ke WhatsApp

Alat CLI yang secara otomatis merekomendasikan LLM lokal yang cocok untuk hardware pengguna berdasarkan benchmark terukur nyata, bukan jumlah parameter
Secara otomatis mendeteksi GPU/CPU/RAM dan menampilkan peringkat model teratas dari model HuggingFace yang sesuai dengan sistem
- Mendukung NVIDIA, AMD, Apple Silicon, dan CPU-only
Tujuan utamanya bukan memilih model terbesar yang muat di VRAM, tetapi memilih model yang benar-benar terbaik di antaranya
- Contoh: saat mensimulasikan RTX 4090, meskipun model 32B muat, rekomendasi peringkat 1 adalah model 27B generasi lebih baru (Qwen3.6-27B)
Penilaian gabungan multi-benchmark: mengintegrasikan LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, dan Open LLM Leaderboard untuk menghasilkan skor 0–100
Pengenalan model terbaru (Recency-aware): leaderboard lama diberi penalti dengan mengikuti silsilah model, sehingga model tahun 2024 tidak bisa melampaui model generasi saat ini hanya dengan skor versi lama
5 tingkat klasifikasi bukti - ditandai sebagai direct / variant / base_model / line_interp / self_reported, lalu diberi diskon kepercayaan
- Mencegah laporan mandiri palsu dari pengunggah dan juga pewarisan lintas keluarga ketika fork kecil meminjam skor besar dari basis model yang lebih besar
- Jika jumlah parameter berbeda 2x atau lebih dari dominant member dalam family, pewarisan ditolak
Estimasi VRAM/kecepatan yang sadar arsitektur - VRAM dihitung dari bobot + cache GQA KV + aktivasi + overhead; kecepatan mencerminkan kondisi bandwidth-bound dengan pemisahan MoE active vs total serta unified memory vs partial offload melalui PCIe
Mendukung workflow satu perintah yang bisa langsung menjalankan unduh model dan chat dengan satu baris whichllm run
- Dengan uv, pembuatan environment terisolasi, instalasi dependensi, unduh model, hingga chat interaktif ditangani otomatis
- Mendukung semua format GGUF / AWQ / GPTQ / FP16 / BF16
Perintah perencanaan hardware
- whichllm --gpu "RTX 5090" - simulasi GPU arbitrer untuk pengecekan sebelum membeli
- whichllm plan "llama 3 70b" - pencarian terbalik GPU yang dibutuhkan untuk model tertentu
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - membandingkan mesin saat ini dengan kandidat GPU
Integrasi Ollama: dapat membangun pipeline seperti whichllm --top 1 --json | jq -r '.models[0].model_id'
Output snippet kode: whichllm snippet "qwen 7b" menyediakan kode Python siap salin-tempel, dari pemanggilan llama_cpp.Llama.from_pretrained hingga penyelesaian chat
Lisensi MIT

3 komentar

xguru 2026-05-18

Saya merekomendasikan 5 model seperti ini. Ternyata 3 di antaranya adalah Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 2026-05-19

Saya selama ini menggunakan situs https://www.canirun.ai/, tapi sepertinya saya harus mencobanya juga.

popopo 2026-05-18

╭────────────────────────────────────────────────────── Hardware Info ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — memori bersama — BW: 256 GB/s      │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 core (AVX2, AVX-512)                                                      │  
│ RAM: 117.5 GB                                                                                                              │  
│ Disk kosong: 174.1 GB                                                                                                      │  
│ OS: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                                Model yang Direkomendasikan  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Diterbitkan┃ Unduhan   ┃ Skor  ┃ Lisensi  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Tingkat keyakinan pilihan teratas: Tinggi (benchmark langsung, selisih +2.9)  
  Referensi benchmark: snapshot kurasi 2026-05; live AA / LiveBench / Aider digabungkan saat dapat diakses.

whichllm - Menemukan LLM lokal yang benar-benar berjalan dan memberi performa terbaik di hardware saya

Bacaan terkait

3 komentar