40 poin oleh GN⁺ 2026-03-14 | 1 komentar | Bagikan ke WhatsApp
  • Alat berbasis web untuk memeriksa model AI apa saja yang benar-benar bisa dijalankan di mesin lokal
  • Memperkirakan performa perangkat keras dengan memanfaatkan WebGPU API di browser, sehingga hasilnya dapat berbeda dari spesifikasi sebenarnya
  • Untuk tiap model, ditampilkan kebutuhan memori, kecepatan pemrosesan token, panjang konteks, dan peringkat eksekusi (S~F)
  • Mencakup model open-source dan komersial utama seperti Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS
  • Memungkinkan penilaian cepat atas kemungkinan menjalankan AI secara lokal, sehingga dapat menjadi indikator referensi yang berguna bagi pengembang dan peneliti

Gambaran layanan

  • CanIRun.ai adalah situs web untuk menjelajahi model AI yang dapat dijalankan di lingkungan lokal
    • Saat membuka situs di browser, pengguna dapat melihat daftar model yang bisa dijalankan berdasarkan performa sistem mereka
    • Hasilnya diperkirakan melalui WebGPU API, sehingga mungkin berbeda dari performa perangkat keras yang sebenarnya
  • Setiap model diklasifikasikan dengan peringkat performa (S~F), sehingga kelayakan dan efisiensi eksekusinya dapat dipahami secara intuitif

Sistem peringkat model

  • Peringkat dibagi menjadi S, A, B, C, D, F, dengan S berarti eksekusi paling lancar
    • Contoh: berdasarkan NVIDIA GeForce RTX 4070 12GB
    • Qwen 3.5 9B, Llama 3.1 8B, dan lainnya ditampilkan sebagai S(90/100) sehingga dapat dijalankan dengan lancar
    • Phi-4 14B mendapat A(70/100), artinya 'berjalan dengan baik'
    • GPT-OSS 20B, Mistral Small 3.1 24B, dan lainnya mendapat D(34~39/100), artinya 'hampir tidak bisa dijalankan'
    • Selain itu, sebagian besar model 27B ke atas seperti Gemma 3 27B dan Qwen 3 32B ditandai F(0/100), artinya 'terlalu berat'

Sumber data dan basis teknologi

  • Data model dikumpulkan dari llama.cpp, Ollama, dan LM Studio
  • Di halaman tiap model, ditampilkan secara rinci penggunaan memori, panjang konteks, kecepatan token, jenis arsitektur (Dense/MoE), dan lainnya

Makna pemanfaatan

  • Menyediakan referensi praktis bagi pengembang, peneliti, dan pengguna open-source yang ingin menjalankan model AI langsung di lingkungan lokal
  • Membantu menyusun strategi pemilihan dan deployment model yang sesuai dengan membandingkan ukuran model dan efisiensinya terhadap performa GPU
  • Berjalan di browser sehingga bisa langsung diuji tanpa instalasi menjadi keunggulannya

1 komentar

 
GN⁺ 2026-03-14
Komentar Hacker News
  • Selama 2 tahun terakhir, saya menghabiskan sangat banyak waktu bereksperimen dengan model lokal
    Model kecil, misalnya qwen3.5:9b, sangat cocok untuk penggunaan tool lokal, ekstraksi informasi, atau aplikasi embedded
    Untuk coding, tool berbasis cloud seperti Google Antigravity, gemini-cli, atau Anthropic Claude terasa lebih efisien
    Saya sudah bereksperimen lebih dari 100 jam dengan Emacs dan Claude Code yang disetel secara lokal, tetapi saya tidak merekomendasikannya untuk pengguna umum
    Sebaliknya, saya rasa titik paling manis adalah menguasai model embedded lokal yang kecil dan praktis

    • Saya sangat merekomendasikan qwen3.5:9b
      Model ini kecil tetapi punya kemampuan penalaran multimodal yang sangat baik, dan sistem pemikiran internalnya (CoT) stabil
      Yang paling mengesankan adalah struktur trade-off baru antara VRAM dan ukuran konteks — 100K token bisa diproses dengan 1.5GB VRAM, sehingga percakapan panjang atau pemrosesan dokumen tetap memungkinkan bahkan di RTX 3060
    • Saya pernah memakai qwen3.5 untuk tool lokal, tetapi hasilnya kurang bagus
      Bot chat Discord yang berjalan baik dengan GPT-OSS-120B mengalami masalah meniru pemanggilan tool tanpa benar-benar mengeksekusinya di Qwen
      Akhirnya saya memisahkan pemrosesan: gambar dengan Qwen, percakapan umum dengan GPT
    • Saya sudah mencoba qwen3.5 9b, tetapi tingkat halusinasi (hallucination)-nya tinggi
      Saat menelusuri repo kode lokal, 30~50% hasilnya mengarang nama file atau nama fungsi yang salah
      Setelah diverifikasi dengan KimiK2, sebagian besar ternyata keliru. Model kecil itu bagus, tetapi keandalannya perlu diperhatikan
    • Saya penasaran bagaimana model kecil diintegrasikan ke workflow nyata
      Saya sedang bereksperimen dengan ollama di M4 MacBook Pro (128GB RAM), tetapi belum menemukan alur yang memuaskan
    • Saya penasaran apakah kombinasi model besar untuk perencanaan dan model lokal kecil untuk menulis kode cukup baik
      Saya ingin mengurangi ketergantungan pada Claude Code atau Codex
  • Situs ini tampaknya memperkirakan performa berdasarkan bandwidth memori dan ukuran model
    Tetapi model MoE (seperti GPT-OSS-20B) tidak menggunakan semua parameter pada setiap token, jadi di hardware yang sama model itu bisa menghasilkan token lebih cepat
    GPT-OSS-20B memiliki 3.6B parameter aktif, jadi kecepatannya mirip model dense 3~4B, tetapi VRAM yang dibutuhkan tetap sebesar ukuran penuh model 20B
    Dari sisi kecerdasan, performanya dinilai setara model dense sekitar 8.5B

    • Dalam pengujian nyata, performa model yang saya uji di laptop Strix Halo saya jauh lebih baik daripada prediksi
      Untuk model MoE, bandwidth memori seharusnya dihitung berdasarkan parameter aktif saja
    • Perhitungannya tampak berbasis ukuran konteks penuh
      Namun dalam penggunaan nyata, konteks yang lebih kecil sering kali sudah cukup
      llama-fit-params di llama.cpp berguna dalam situasi seperti ini
    • Dokumentasinya juga menjelaskan poin ini dengan jelas
      Model MoE seperti Mixtral 8x7B hanya mengaktifkan sekitar 12.9B dari total 46.7B
      Artinya, Anda bisa mendapatkan kualitas model besar dan kecepatan model kecil sekaligus, tetapi keseluruhan model tetap harus berada di memori
      Dokumentasi canirun.ai
    • Meski begitu, ada sedikit ketidakakuratan
      Kecepatan generasi token memang mirip, tetapi kecepatan prefill lebih lambat pada MoE besar
      Selain itu, jika memakai speculative decoding, model dense kecil bisa memperoleh peningkatan kecepatan hingga 3x, sedangkan model MoE nyaris tidak mendapat keuntungan
  • Upaya seperti TFA atau llmfit memang bagus, tetapi yang membuat frustrasi adalah sulitnya menemukan model dengan kualitas terbaik untuk hardware saya
    Misalnya Qwen 3.5 27B Q6 @ 100k context berjalan baik, tetapi daftar rekomendasi justru lebih dulu menampilkan Qwen 2.5 versi lama
    Bagi saya, tok/s di atas 50 sudah cukup, jadi akan bagus jika bisa diurutkan berdasarkan kualitas

    • Pertanyaannya terlalu luas
      Misalnya “model open untuk coding berkualitas tinggi dengan 8GB VRAM, 32GB RAM, t/s ≥ 30, context ≥ 32K” berarti Qwen2.5-Coder-7B-Instruct
      “untuk riset web dengan 24GB VRAM, 32GB RAM” berarti Qwen3-30B-A3B-Instruct-2507
      “untuk embedding RAG dengan 40GB VRAM, 128GB RAM” berarti Qwen3-Embedding-8B
      Jadi yang dibutuhkan adalah rekomendasi model spesifik per hardware
    • Saya penasaran dengan efisiensi biaya lokal ($/Mtok)
      Selain listrik, hampir gratis, tetapi kecepatannya lebih rendah dan kualitasnya juga kalah
      Mungkin orang memilih lokal semata-mata karena privasi data?
    • Masalah ini memang sangat sulit, dan saya sendiri sudah menelitinya lebih dari setahun
      Saat mencoba mengoptimalkan kualitas dan alokasi resource dengan mempertimbangkan banyak perangkat dan model sekaligus, kompleksitasnya meledak
      Pada akhirnya sekarang saya berkompromi dengan sekadar memilih model quant terbesar
    • LLM pada akhirnya hanyalah kalkulator khusus
      Tidak harus akurat seperti kalkulator biasa, dan karena tujuan pembuat model dan pengguna berbeda, sulit memprediksi hasil yang diinginkan
  • Ini tampaknya cuma versi web dari llmfit
    Tautan GitHub llmfit

    • Betul. Tapi llmfit jauh lebih berguna karena bisa mendeteksi resource sistem secara otomatis
    • Terima kasih sudah membagikan tautannya. Ini memang jauh lebih berguna daripada websitenya
      Bahkan di M2 Max MBP (96GB RAM) saya, hasilnya menunjukkan sebagian besar LLM lokal bisa berjalan dengan baik
      Saya terkejut karena ternyata ada banyak model yang bisa dijalankan secara lokal
  • Sebagai alternatif yang lebih ringan daripada Docker atau Python, saya merekomendasikan stack Rust+Wasm
    Proyek LlamaEdge

  • RTX 6000 Pro Max-Q (96GB VRAM) saya terdeteksi dengan benar, tetapi di UI tampil sebagai 4GB
    Selain itu, model quantized tidak ikut dipertimbangkan dan hanya model resolusi penuh yang ditampilkan
    Perlu perbaikan

  • Daftar GPU mobile masih kurang, dan situs ini tampaknya belum memahami strategi seperti shared CPU memory atau offloading KV cache
    Sistem saya ditampilkan sebagai Arc 750 (2GB shared RAM), padahal sebenarnya RTX1000 Ada (6GB GDDR6)
    Qwen3 Coder Next, Devstral Small, Qwen3.5 4B, dan sejenisnya berjalan cukup baik hampir real-time
    Model yang lebih besar memang lambat, tetapi tidak ada masalah kehabisan token

  • Ide yang keren
    Hanya saja saya pengguna M3 Ultra (256GB RAM), tetapi opsinya hanya sampai 192GB
    Akan bagus jika kita bisa memilih model dan juga membandingkan performa per prosesor

    • Sayangnya Apple menghentikan model 512GiB
  • Ini pertama kalinya saya sadar bahwa browser saya secara otomatis memberikan informasi hardware ke website

    • Sebenarnya tidak sepenuhnya akurat
      Situs ini mengira saya memakai iPhone 19 Pro, padahal sebenarnya iPhone SE generasi pertama
    • Di Librewolf terbaru, browser akan meminta izin akses WebGL
      Sepertinya hardware dideteksi lewat itu
    • Informasi seperti ini sering dipakai untuk browser fingerprinting
      Browser yang berfokus pada privasi biasanya memberikan informasi acak
    • Saya rasa maskapai juga mungkin memakai cara seperti ini untuk menetapkan harga berbeda berdasarkan OS
  • Agak aneh bahwa tidak tampak ada perbedaan performa sama sekali antara chip M4 dan M5
    Ukuran memori juga tampaknya tidak memengaruhi performa model besar
    Secara keseluruhan ini terlihat berbasis estimasi, bukan data nyata, jadi perlu label “ESTIMATE”