17 poin oleh xguru 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Alat CLI yang secara otomatis merekomendasikan LLM lokal yang cocok untuk hardware pengguna berdasarkan benchmark terukur nyata, bukan jumlah parameter
  • Secara otomatis mendeteksi GPU/CPU/RAM dan menampilkan peringkat model teratas dari model HuggingFace yang sesuai dengan sistem
    • Mendukung NVIDIA, AMD, Apple Silicon, dan CPU-only
  • Tujuan utamanya bukan memilih model terbesar yang muat di VRAM, tetapi memilih model yang benar-benar terbaik di antaranya
    • Contoh: saat mensimulasikan RTX 4090, meskipun model 32B muat, rekomendasi peringkat 1 adalah model 27B generasi lebih baru (Qwen3.6-27B)
  • Penilaian gabungan multi-benchmark: mengintegrasikan LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, dan Open LLM Leaderboard untuk menghasilkan skor 0–100
  • Pengenalan model terbaru (Recency-aware): leaderboard lama diberi penalti dengan mengikuti silsilah model, sehingga model tahun 2024 tidak bisa melampaui model generasi saat ini hanya dengan skor versi lama
  • 5 tingkat klasifikasi bukti - ditandai sebagai direct / variant / base_model / line_interp / self_reported, lalu diberi diskon kepercayaan
    • Mencegah laporan mandiri palsu dari pengunggah dan juga pewarisan lintas keluarga ketika fork kecil meminjam skor besar dari basis model yang lebih besar
    • Jika jumlah parameter berbeda 2x atau lebih dari dominant member dalam family, pewarisan ditolak
  • Estimasi VRAM/kecepatan yang sadar arsitektur - VRAM dihitung dari bobot + cache GQA KV + aktivasi + overhead; kecepatan mencerminkan kondisi bandwidth-bound dengan pemisahan MoE active vs total serta unified memory vs partial offload melalui PCIe
  • Mendukung workflow satu perintah yang bisa langsung menjalankan unduh model dan chat dengan satu baris whichllm run
    • Dengan uv, pembuatan environment terisolasi, instalasi dependensi, unduh model, hingga chat interaktif ditangani otomatis
    • Mendukung semua format GGUF / AWQ / GPTQ / FP16 / BF16
  • Perintah perencanaan hardware
    • whichllm --gpu "RTX 5090" - simulasi GPU arbitrer untuk pengecekan sebelum membeli
    • whichllm plan "llama 3 70b" - pencarian terbalik GPU yang dibutuhkan untuk model tertentu
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" - membandingkan mesin saat ini dengan kandidat GPU
  • Integrasi Ollama: dapat membangun pipeline seperti whichllm --top 1 --json | jq -r '.models[0].model_id'
  • Output snippet kode: whichllm snippet "qwen 7b" menyediakan kode Python siap salin-tempel, dari pemanggilan llama_cpp.Llama.from_pretrained hingga penyelesaian chat
  • Lisensi MIT

1 komentar

 
xguru 3 jam lalu

Saya merekomendasikan 5 model seperti ini. Ternyata 3 di antaranya adalah Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B