71 poin oleh xguru 25 hari lalu | 3 komentar | Bagikan ke WhatsApp
  • Alat CLI yang secara otomatis merekomendasikan LLM lokal yang cocok untuk hardware pengguna berdasarkan benchmark terukur nyata, bukan jumlah parameter
  • Secara otomatis mendeteksi GPU/CPU/RAM dan menampilkan peringkat model teratas dari model HuggingFace yang sesuai dengan sistem
    • Mendukung NVIDIA, AMD, Apple Silicon, dan CPU-only
  • Tujuan utamanya bukan memilih model terbesar yang muat di VRAM, tetapi memilih model yang benar-benar terbaik di antaranya
    • Contoh: saat mensimulasikan RTX 4090, meskipun model 32B muat, rekomendasi peringkat 1 adalah model 27B generasi lebih baru (Qwen3.6-27B)
  • Penilaian gabungan multi-benchmark: mengintegrasikan LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, dan Open LLM Leaderboard untuk menghasilkan skor 0–100
  • Pengenalan model terbaru (Recency-aware): leaderboard lama diberi penalti dengan mengikuti silsilah model, sehingga model tahun 2024 tidak bisa melampaui model generasi saat ini hanya dengan skor versi lama
  • 5 tingkat klasifikasi bukti - ditandai sebagai direct / variant / base_model / line_interp / self_reported, lalu diberi diskon kepercayaan
    • Mencegah laporan mandiri palsu dari pengunggah dan juga pewarisan lintas keluarga ketika fork kecil meminjam skor besar dari basis model yang lebih besar
    • Jika jumlah parameter berbeda 2x atau lebih dari dominant member dalam family, pewarisan ditolak
  • Estimasi VRAM/kecepatan yang sadar arsitektur - VRAM dihitung dari bobot + cache GQA KV + aktivasi + overhead; kecepatan mencerminkan kondisi bandwidth-bound dengan pemisahan MoE active vs total serta unified memory vs partial offload melalui PCIe
  • Mendukung workflow satu perintah yang bisa langsung menjalankan unduh model dan chat dengan satu baris whichllm run
    • Dengan uv, pembuatan environment terisolasi, instalasi dependensi, unduh model, hingga chat interaktif ditangani otomatis
    • Mendukung semua format GGUF / AWQ / GPTQ / FP16 / BF16
  • Perintah perencanaan hardware
    • whichllm --gpu "RTX 5090" - simulasi GPU arbitrer untuk pengecekan sebelum membeli
    • whichllm plan "llama 3 70b" - pencarian terbalik GPU yang dibutuhkan untuk model tertentu
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" - membandingkan mesin saat ini dengan kandidat GPU
  • Integrasi Ollama: dapat membangun pipeline seperti whichllm --top 1 --json | jq -r '.models[0].model_id'
  • Output snippet kode: whichllm snippet "qwen 7b" menyediakan kode Python siap salin-tempel, dari pemanggilan llama_cpp.Llama.from_pretrained hingga penyelesaian chat
  • Lisensi MIT

3 komentar

 
xguru 25 hari lalu

Saya merekomendasikan 5 model seperti ini. Ternyata 3 di antaranya adalah Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

 
nezz1204 25 hari lalu

Saya selama ini menggunakan situs https://www.canirun.ai/, tapi sepertinya saya harus mencobanya juga.

 
popopo 25 hari lalu
╭────────────────────────────────────────────────────── Hardware Info ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — memori bersama — BW: 256 GB/s      │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 core (AVX2, AVX-512)                                                      │  
│ RAM: 117.5 GB                                                                                                              │  
│ Disk kosong: 174.1 GB                                                                                                      │  
│ OS: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                                Model yang Direkomendasikan  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Diterbitkan┃ Unduhan   ┃ Skor  ┃ Lisensi  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Tingkat keyakinan pilihan teratas: Tinggi (benchmark langsung, selisih +2.9)  
  Referensi benchmark: snapshot kurasi 2026-05; live AA / LiveBench / Aider digabungkan saat dapat diakses.