CanIRun.ai — Bisakah saya menjalankan model AI di komputer saya?

(canirun.ai)

40 poin oleh GN⁺ 2026-03-14 | 1 komentar | Bagikan ke WhatsApp

Alat berbasis web untuk memeriksa model AI apa saja yang benar-benar bisa dijalankan di mesin lokal
Memperkirakan performa perangkat keras dengan memanfaatkan WebGPU API di browser, sehingga hasilnya dapat berbeda dari spesifikasi sebenarnya
Untuk tiap model, ditampilkan kebutuhan memori, kecepatan pemrosesan token, panjang konteks, dan peringkat eksekusi (S~F)
Mencakup model open-source dan komersial utama seperti Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS
Memungkinkan penilaian cepat atas kemungkinan menjalankan AI secara lokal, sehingga dapat menjadi indikator referensi yang berguna bagi pengembang dan peneliti

Gambaran layanan

CanIRun.ai adalah situs web untuk menjelajahi model AI yang dapat dijalankan di lingkungan lokal
- Saat membuka situs di browser, pengguna dapat melihat daftar model yang bisa dijalankan berdasarkan performa sistem mereka
- Hasilnya diperkirakan melalui WebGPU API, sehingga mungkin berbeda dari performa perangkat keras yang sebenarnya
Setiap model diklasifikasikan dengan peringkat performa (S~F), sehingga kelayakan dan efisiensi eksekusinya dapat dipahami secara intuitif

Sistem peringkat model

Peringkat dibagi menjadi S, A, B, C, D, F, dengan S berarti eksekusi paling lancar
- Contoh: berdasarkan NVIDIA GeForce RTX 4070 12GB
- Qwen 3.5 9B, Llama 3.1 8B, dan lainnya ditampilkan sebagai S(90/100) sehingga dapat dijalankan dengan lancar
- Phi-4 14B mendapat A(70/100), artinya 'berjalan dengan baik'
- GPT-OSS 20B, Mistral Small 3.1 24B, dan lainnya mendapat D(34~39/100), artinya 'hampir tidak bisa dijalankan'
- Selain itu, sebagian besar model 27B ke atas seperti Gemma 3 27B dan Qwen 3 32B ditandai F(0/100), artinya 'terlalu berat'

Sumber data dan basis teknologi

Data model dikumpulkan dari llama.cpp, Ollama, dan LM Studio
Di halaman tiap model, ditampilkan secara rinci penggunaan memori, panjang konteks, kecepatan token, jenis arsitektur (Dense/MoE), dan lainnya

Makna pemanfaatan

Menyediakan referensi praktis bagi pengembang, peneliti, dan pengguna open-source yang ingin menjalankan model AI langsung di lingkungan lokal
Membantu menyusun strategi pemilihan dan deployment model yang sesuai dengan membandingkan ukuran model dan efisiensinya terhadap performa GPU
Berjalan di browser sehingga bisa langsung diuji tanpa instalasi menjadi keunggulannya

1 komentar

GN⁺ 2026-03-14

Komentar Hacker News

Selama 2 tahun terakhir, saya menghabiskan sangat banyak waktu bereksperimen dengan model lokal
Model kecil, misalnya qwen3.5:9b, sangat cocok untuk penggunaan tool lokal, ekstraksi informasi, atau aplikasi embedded
Untuk coding, tool berbasis cloud seperti Google Antigravity, gemini-cli, atau Anthropic Claude terasa lebih efisien
Saya sudah bereksperimen lebih dari 100 jam dengan Emacs dan Claude Code yang disetel secara lokal, tetapi saya tidak merekomendasikannya untuk pengguna umum
Sebaliknya, saya rasa titik paling manis adalah menguasai model embedded lokal yang kecil dan praktis
- Saya sangat merekomendasikan qwen3.5:9b
  Model ini kecil tetapi punya kemampuan penalaran multimodal yang sangat baik, dan sistem pemikiran internalnya (CoT) stabil
  Yang paling mengesankan adalah struktur trade-off baru antara VRAM dan ukuran konteks — 100K token bisa diproses dengan 1.5GB VRAM, sehingga percakapan panjang atau pemrosesan dokumen tetap memungkinkan bahkan di RTX 3060
- Saya pernah memakai qwen3.5 untuk tool lokal, tetapi hasilnya kurang bagus
  Bot chat Discord yang berjalan baik dengan GPT-OSS-120B mengalami masalah meniru pemanggilan tool tanpa benar-benar mengeksekusinya di Qwen
  Akhirnya saya memisahkan pemrosesan: gambar dengan Qwen, percakapan umum dengan GPT
- Saya sudah mencoba qwen3.5 9b, tetapi tingkat halusinasi (hallucination)-nya tinggi
  Saat menelusuri repo kode lokal, 30~50% hasilnya mengarang nama file atau nama fungsi yang salah
  Setelah diverifikasi dengan KimiK2, sebagian besar ternyata keliru. Model kecil itu bagus, tetapi keandalannya perlu diperhatikan
- Saya penasaran bagaimana model kecil diintegrasikan ke workflow nyata
  Saya sedang bereksperimen dengan ollama di M4 MacBook Pro (128GB RAM), tetapi belum menemukan alur yang memuaskan
- Saya penasaran apakah kombinasi model besar untuk perencanaan dan model lokal kecil untuk menulis kode cukup baik
  Saya ingin mengurangi ketergantungan pada Claude Code atau Codex
Situs ini tampaknya memperkirakan performa berdasarkan bandwidth memori dan ukuran model
Tetapi model MoE (seperti GPT-OSS-20B) tidak menggunakan semua parameter pada setiap token, jadi di hardware yang sama model itu bisa menghasilkan token lebih cepat
GPT-OSS-20B memiliki 3.6B parameter aktif, jadi kecepatannya mirip model dense 3~4B, tetapi VRAM yang dibutuhkan tetap sebesar ukuran penuh model 20B
Dari sisi kecerdasan, performanya dinilai setara model dense sekitar 8.5B
- Dalam pengujian nyata, performa model yang saya uji di laptop Strix Halo saya jauh lebih baik daripada prediksi
  Untuk model MoE, bandwidth memori seharusnya dihitung berdasarkan parameter aktif saja
- Perhitungannya tampak berbasis ukuran konteks penuh
  Namun dalam penggunaan nyata, konteks yang lebih kecil sering kali sudah cukup
  llama-fit-params di llama.cpp berguna dalam situasi seperti ini
- Dokumentasinya juga menjelaskan poin ini dengan jelas
  Model MoE seperti Mixtral 8x7B hanya mengaktifkan sekitar 12.9B dari total 46.7B
  Artinya, Anda bisa mendapatkan kualitas model besar dan kecepatan model kecil sekaligus, tetapi keseluruhan model tetap harus berada di memori
  Dokumentasi canirun.ai
- Meski begitu, ada sedikit ketidakakuratan
  Kecepatan generasi token memang mirip, tetapi kecepatan prefill lebih lambat pada MoE besar
  Selain itu, jika memakai speculative decoding, model dense kecil bisa memperoleh peningkatan kecepatan hingga 3x, sedangkan model MoE nyaris tidak mendapat keuntungan
Upaya seperti TFA atau llmfit memang bagus, tetapi yang membuat frustrasi adalah sulitnya menemukan model dengan kualitas terbaik untuk hardware saya
Misalnya Qwen 3.5 27B Q6 @ 100k context berjalan baik, tetapi daftar rekomendasi justru lebih dulu menampilkan Qwen 2.5 versi lama
Bagi saya, tok/s di atas 50 sudah cukup, jadi akan bagus jika bisa diurutkan berdasarkan kualitas
- Pertanyaannya terlalu luas
  Misalnya “model open untuk coding berkualitas tinggi dengan 8GB VRAM, 32GB RAM, t/s ≥ 30, context ≥ 32K” berarti Qwen2.5-Coder-7B-Instruct
  “untuk riset web dengan 24GB VRAM, 32GB RAM” berarti Qwen3-30B-A3B-Instruct-2507
  “untuk embedding RAG dengan 40GB VRAM, 128GB RAM” berarti Qwen3-Embedding-8B
  Jadi yang dibutuhkan adalah rekomendasi model spesifik per hardware
- Saya penasaran dengan efisiensi biaya lokal ($/Mtok)
  Selain listrik, hampir gratis, tetapi kecepatannya lebih rendah dan kualitasnya juga kalah
  Mungkin orang memilih lokal semata-mata karena privasi data?
- Masalah ini memang sangat sulit, dan saya sendiri sudah menelitinya lebih dari setahun
  Saat mencoba mengoptimalkan kualitas dan alokasi resource dengan mempertimbangkan banyak perangkat dan model sekaligus, kompleksitasnya meledak
  Pada akhirnya sekarang saya berkompromi dengan sekadar memilih model quant terbesar
- LLM pada akhirnya hanyalah kalkulator khusus
  Tidak harus akurat seperti kalkulator biasa, dan karena tujuan pembuat model dan pengguna berbeda, sulit memprediksi hasil yang diinginkan
Ini tampaknya cuma versi web dari llmfit
Tautan GitHub llmfit
- Betul. Tapi llmfit jauh lebih berguna karena bisa mendeteksi resource sistem secara otomatis
- Terima kasih sudah membagikan tautannya. Ini memang jauh lebih berguna daripada websitenya
  Bahkan di M2 Max MBP (96GB RAM) saya, hasilnya menunjukkan sebagian besar LLM lokal bisa berjalan dengan baik
  Saya terkejut karena ternyata ada banyak model yang bisa dijalankan secara lokal
Sebagai alternatif yang lebih ringan daripada Docker atau Python, saya merekomendasikan stack Rust+Wasm
Proyek LlamaEdge
RTX 6000 Pro Max-Q (96GB VRAM) saya terdeteksi dengan benar, tetapi di UI tampil sebagai 4GB
Selain itu, model quantized tidak ikut dipertimbangkan dan hanya model resolusi penuh yang ditampilkan
Perlu perbaikan
Daftar GPU mobile masih kurang, dan situs ini tampaknya belum memahami strategi seperti shared CPU memory atau offloading KV cache
Sistem saya ditampilkan sebagai Arc 750 (2GB shared RAM), padahal sebenarnya RTX1000 Ada (6GB GDDR6)
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B, dan sejenisnya berjalan cukup baik hampir real-time
Model yang lebih besar memang lambat, tetapi tidak ada masalah kehabisan token
Ide yang keren
Hanya saja saya pengguna M3 Ultra (256GB RAM), tetapi opsinya hanya sampai 192GB
Akan bagus jika kita bisa memilih model dan juga membandingkan performa per prosesor
- Sayangnya Apple menghentikan model 512GiB
Ini pertama kalinya saya sadar bahwa browser saya secara otomatis memberikan informasi hardware ke website
- Sebenarnya tidak sepenuhnya akurat
  Situs ini mengira saya memakai iPhone 19 Pro, padahal sebenarnya iPhone SE generasi pertama
- Di Librewolf terbaru, browser akan meminta izin akses WebGL
  Sepertinya hardware dideteksi lewat itu
- Informasi seperti ini sering dipakai untuk browser fingerprinting
  Browser yang berfokus pada privasi biasanya memberikan informasi acak
- Saya rasa maskapai juga mungkin memakai cara seperti ini untuk menetapkan harga berbeda berdasarkan OS
Agak aneh bahwa tidak tampak ada perbedaan performa sama sekali antara chip M4 dan M5
Ukuran memori juga tampaknya tidak memengaruhi performa model besar
Secara keseluruhan ini terlihat berbasis estimasi, bukan data nyata, jadi perlu label “ESTIMATE”
- Dalam pengujian awal nyata, M5 Max memang menunjukkan peningkatan performa
  Referensi: video tentang Apple M5 Max

CanIRun.ai — Bisakah saya menjalankan model AI di komputer saya?

Gambaran layanan

Sistem peringkat model

Sumber data dan basis teknologi

Makna pemanfaatan

Bacaan terkait

1 komentar

Komentar Hacker News