- Alat berbasis web untuk memeriksa model AI apa saja yang benar-benar bisa dijalankan di mesin lokal
- Memperkirakan performa perangkat keras dengan memanfaatkan WebGPU API di browser, sehingga hasilnya dapat berbeda dari spesifikasi sebenarnya
- Untuk tiap model, ditampilkan kebutuhan memori, kecepatan pemrosesan token, panjang konteks, dan peringkat eksekusi (S~F)
- Mencakup model open-source dan komersial utama seperti Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS
- Memungkinkan penilaian cepat atas kemungkinan menjalankan AI secara lokal, sehingga dapat menjadi indikator referensi yang berguna bagi pengembang dan peneliti
Gambaran layanan
- CanIRun.ai adalah situs web untuk menjelajahi model AI yang dapat dijalankan di lingkungan lokal
- Saat membuka situs di browser, pengguna dapat melihat daftar model yang bisa dijalankan berdasarkan performa sistem mereka
- Hasilnya diperkirakan melalui WebGPU API, sehingga mungkin berbeda dari performa perangkat keras yang sebenarnya
- Setiap model diklasifikasikan dengan peringkat performa (S~F), sehingga kelayakan dan efisiensi eksekusinya dapat dipahami secara intuitif
Sistem peringkat model
- Peringkat dibagi menjadi S, A, B, C, D, F, dengan S berarti eksekusi paling lancar
- Contoh: berdasarkan NVIDIA GeForce RTX 4070 12GB
- Qwen 3.5 9B, Llama 3.1 8B, dan lainnya ditampilkan sebagai S(90/100) sehingga dapat dijalankan dengan lancar
- Phi-4 14B mendapat A(70/100), artinya 'berjalan dengan baik'
- GPT-OSS 20B, Mistral Small 3.1 24B, dan lainnya mendapat D(34~39/100), artinya 'hampir tidak bisa dijalankan'
- Selain itu, sebagian besar model 27B ke atas seperti Gemma 3 27B dan Qwen 3 32B ditandai F(0/100), artinya 'terlalu berat'
Sumber data dan basis teknologi
- Data model dikumpulkan dari llama.cpp, Ollama, dan LM Studio
- Di halaman tiap model, ditampilkan secara rinci penggunaan memori, panjang konteks, kecepatan token, jenis arsitektur (Dense/MoE), dan lainnya
Makna pemanfaatan
- Menyediakan referensi praktis bagi pengembang, peneliti, dan pengguna open-source yang ingin menjalankan model AI langsung di lingkungan lokal
- Membantu menyusun strategi pemilihan dan deployment model yang sesuai dengan membandingkan ukuran model dan efisiensinya terhadap performa GPU
- Berjalan di browser sehingga bisa langsung diuji tanpa instalasi menjadi keunggulannya
1 komentar
Komentar Hacker News
Selama 2 tahun terakhir, saya menghabiskan sangat banyak waktu bereksperimen dengan model lokal
Model kecil, misalnya qwen3.5:9b, sangat cocok untuk penggunaan tool lokal, ekstraksi informasi, atau aplikasi embedded
Untuk coding, tool berbasis cloud seperti Google Antigravity, gemini-cli, atau Anthropic Claude terasa lebih efisien
Saya sudah bereksperimen lebih dari 100 jam dengan Emacs dan Claude Code yang disetel secara lokal, tetapi saya tidak merekomendasikannya untuk pengguna umum
Sebaliknya, saya rasa titik paling manis adalah menguasai model embedded lokal yang kecil dan praktis
Model ini kecil tetapi punya kemampuan penalaran multimodal yang sangat baik, dan sistem pemikiran internalnya (CoT) stabil
Yang paling mengesankan adalah struktur trade-off baru antara VRAM dan ukuran konteks — 100K token bisa diproses dengan 1.5GB VRAM, sehingga percakapan panjang atau pemrosesan dokumen tetap memungkinkan bahkan di RTX 3060
Bot chat Discord yang berjalan baik dengan GPT-OSS-120B mengalami masalah meniru pemanggilan tool tanpa benar-benar mengeksekusinya di Qwen
Akhirnya saya memisahkan pemrosesan: gambar dengan Qwen, percakapan umum dengan GPT
Saat menelusuri repo kode lokal, 30~50% hasilnya mengarang nama file atau nama fungsi yang salah
Setelah diverifikasi dengan KimiK2, sebagian besar ternyata keliru. Model kecil itu bagus, tetapi keandalannya perlu diperhatikan
Saya sedang bereksperimen dengan ollama di M4 MacBook Pro (128GB RAM), tetapi belum menemukan alur yang memuaskan
Saya ingin mengurangi ketergantungan pada Claude Code atau Codex
Situs ini tampaknya memperkirakan performa berdasarkan bandwidth memori dan ukuran model
Tetapi model MoE (seperti GPT-OSS-20B) tidak menggunakan semua parameter pada setiap token, jadi di hardware yang sama model itu bisa menghasilkan token lebih cepat
GPT-OSS-20B memiliki 3.6B parameter aktif, jadi kecepatannya mirip model dense 3~4B, tetapi VRAM yang dibutuhkan tetap sebesar ukuran penuh model 20B
Dari sisi kecerdasan, performanya dinilai setara model dense sekitar 8.5B
Untuk model MoE, bandwidth memori seharusnya dihitung berdasarkan parameter aktif saja
Namun dalam penggunaan nyata, konteks yang lebih kecil sering kali sudah cukup
llama-fit-params di llama.cpp berguna dalam situasi seperti ini
Model MoE seperti Mixtral 8x7B hanya mengaktifkan sekitar 12.9B dari total 46.7B
Artinya, Anda bisa mendapatkan kualitas model besar dan kecepatan model kecil sekaligus, tetapi keseluruhan model tetap harus berada di memori
Dokumentasi canirun.ai
Kecepatan generasi token memang mirip, tetapi kecepatan prefill lebih lambat pada MoE besar
Selain itu, jika memakai speculative decoding, model dense kecil bisa memperoleh peningkatan kecepatan hingga 3x, sedangkan model MoE nyaris tidak mendapat keuntungan
Upaya seperti TFA atau llmfit memang bagus, tetapi yang membuat frustrasi adalah sulitnya menemukan model dengan kualitas terbaik untuk hardware saya
Misalnya Qwen 3.5 27B Q6 @ 100k context berjalan baik, tetapi daftar rekomendasi justru lebih dulu menampilkan Qwen 2.5 versi lama
Bagi saya, tok/s di atas 50 sudah cukup, jadi akan bagus jika bisa diurutkan berdasarkan kualitas
Misalnya “model open untuk coding berkualitas tinggi dengan 8GB VRAM, 32GB RAM, t/s ≥ 30, context ≥ 32K” berarti Qwen2.5-Coder-7B-Instruct
“untuk riset web dengan 24GB VRAM, 32GB RAM” berarti Qwen3-30B-A3B-Instruct-2507
“untuk embedding RAG dengan 40GB VRAM, 128GB RAM” berarti Qwen3-Embedding-8B
Jadi yang dibutuhkan adalah rekomendasi model spesifik per hardware
Selain listrik, hampir gratis, tetapi kecepatannya lebih rendah dan kualitasnya juga kalah
Mungkin orang memilih lokal semata-mata karena privasi data?
Saat mencoba mengoptimalkan kualitas dan alokasi resource dengan mempertimbangkan banyak perangkat dan model sekaligus, kompleksitasnya meledak
Pada akhirnya sekarang saya berkompromi dengan sekadar memilih model quant terbesar
Tidak harus akurat seperti kalkulator biasa, dan karena tujuan pembuat model dan pengguna berbeda, sulit memprediksi hasil yang diinginkan
Ini tampaknya cuma versi web dari llmfit
Tautan GitHub llmfit
Bahkan di M2 Max MBP (96GB RAM) saya, hasilnya menunjukkan sebagian besar LLM lokal bisa berjalan dengan baik
Saya terkejut karena ternyata ada banyak model yang bisa dijalankan secara lokal
Sebagai alternatif yang lebih ringan daripada Docker atau Python, saya merekomendasikan stack Rust+Wasm
Proyek LlamaEdge
RTX 6000 Pro Max-Q (96GB VRAM) saya terdeteksi dengan benar, tetapi di UI tampil sebagai 4GB
Selain itu, model quantized tidak ikut dipertimbangkan dan hanya model resolusi penuh yang ditampilkan
Perlu perbaikan
Daftar GPU mobile masih kurang, dan situs ini tampaknya belum memahami strategi seperti shared CPU memory atau offloading KV cache
Sistem saya ditampilkan sebagai Arc 750 (2GB shared RAM), padahal sebenarnya RTX1000 Ada (6GB GDDR6)
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B, dan sejenisnya berjalan cukup baik hampir real-time
Model yang lebih besar memang lambat, tetapi tidak ada masalah kehabisan token
Ide yang keren
Hanya saja saya pengguna M3 Ultra (256GB RAM), tetapi opsinya hanya sampai 192GB
Akan bagus jika kita bisa memilih model dan juga membandingkan performa per prosesor
Ini pertama kalinya saya sadar bahwa browser saya secara otomatis memberikan informasi hardware ke website
Situs ini mengira saya memakai iPhone 19 Pro, padahal sebenarnya iPhone SE generasi pertama
Sepertinya hardware dideteksi lewat itu
Browser yang berfokus pada privasi biasanya memberikan informasi acak
Agak aneh bahwa tidak tampak ada perbedaan performa sama sekali antara chip M4 dan M5
Ukuran memori juga tampaknya tidak memengaruhi performa model besar
Secara keseluruhan ini terlihat berbasis estimasi, bukan data nyata, jadi perlu label “ESTIMATE”
Referensi: video tentang Apple M5 Max