Menjalankan LLM 400B di iPhone 17 Pro
(twitter.com/anemll)- Menjalankan LLM berukuran 400 miliar parameter di iPhone 17 Pro, dengan kecepatan sekitar 0,6 token per detik
- Model menggunakan arsitektur Mixture of Experts (MoE), dengan bobot yang benar-benar aktif sekitar 5 miliar parameter
- Direkonstruksi dalam versi kuantisasi 4bit, tetapi tetap sangat lambat
- Menggunakan metode pemakaian ganda RAM GPU·CPU dan pemuatan streaming SSD
- Merupakan fork dari Flash-Moe dan telah dipublikasikan di Anemll/flash-moe (cabang iOS-App)
1 komentar
Opini Hacker News
Penasaran apakah metode streaming langsung dari SSD ke GPU ini didasarkan pada paper Apple tahun 2023, LLM in a Flash
Dalam mimpi, semua orang membawa AI superintelijen di saku mereka, tetapi pada akhirnya hanya dipakai untuk doomscrolling dan catfishing sampai dunia kiamat
iPad Air(M2) saya menjalankan LLM lokal dengan lumayan baik, tetapi dalam beberapa detik langsung overheat dan segera throttling
Qwen3.5-397B-A17B pada praktiknya bertindak seperti model 17B. Judul yang menghilangkan bagian MoE hanyalah iklan berlebihan.
Quantization juga semacam cheat code, jadi suatu hari nanti mungkin ada yang mengklaim model quantization 1-bit sebagai “model besar”
Ada pertanyaan, “Kalau ini model 400B tetapi berarsitektur MoE, sebenarnya berapa parameter aktifnya?”
Berita ini mengingatkan pada masa ketika llama.c pertama kali muncul dan semua orang bersemangat karena eksekusi lokal akhirnya memungkinkan
Saya memasang Termux di ponsel Android lama (LineageOS), lalu menjalankan Ollama dan model kecil di dalamnya. Performanya mengerikan, tetapi bisa jalan
Model MoE Qwen mengalami penurunan performa yang tajam ketika status aktifnya turun ke level 2B. Dalam inferensi nyata, hanya parameter yang puluhan kali lebih sedikit yang dipakai, jadi menyebutnya model 400B terasa tidak bermakna
Ada pertanyaan, “Berapa lama lagi sampai model dengan performa seperti ini bisa berjalan pada 100 token per detik?”
Kalau belum mengikuti anemll, ada baiknya tahu bahwa dia juga merilis versi OpenClaw yang bisa dijalankan di iPhone.
Seiring berkembangnya perangkat keras dan model, masa depan AI mobile tampak cukup cerah