6 poin oleh GN⁺ 27 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Menjalankan LLM berukuran 400 miliar parameter di iPhone 17 Pro, dengan kecepatan sekitar 0,6 token per detik
  • Model menggunakan arsitektur Mixture of Experts (MoE), dengan bobot yang benar-benar aktif sekitar 5 miliar parameter
  • Direkonstruksi dalam versi kuantisasi 4bit, tetapi tetap sangat lambat
  • Menggunakan metode pemakaian ganda RAM GPU·CPU dan pemuatan streaming SSD
  • Merupakan fork dari Flash-Moe dan telah dipublikasikan di Anemll/flash-moe (cabang iOS-App)

1 komentar

 
GN⁺ 27 hari lalu
Opini Hacker News
  • Penasaran apakah metode streaming langsung dari SSD ke GPU ini didasarkan pada paper Apple tahun 2023, LLM in a Flash

    • Ya. Detail terkait sudah saya rangkum di postingan blog saya
    • Pendekatan serupa juga diperkenalkan baru-baru ini di thread HN ini. Namun, iPhone Pro dibatasi RAM 12GB, jadi tidak cukup untuk menampung bagian aktif dari model. Bisa saja memakai storage yang tahan lama seperti Intel Optane, tetapi konsumsi dayanya tinggi sehingga tidak cocok untuk perangkat mobile
    • Metode ini pada dasarnya tidak jauh berbeda dari arsitektur Cerebus yang melakukan streaming weight
  • Dalam mimpi, semua orang membawa AI superintelijen di saku mereka, tetapi pada akhirnya hanya dipakai untuk doomscrolling dan catfishing sampai dunia kiamat

    • Rasanya seperti Nostradamus versi modern
  • iPad Air(M2) saya menjalankan LLM lokal dengan lumayan baik, tetapi dalam beberapa detik langsung overheat dan segera throttling

    • Saya penasaran apakah ada yang pernah membuat sistem pendingin cair untuk iPad atau ponsel. Semacam perangkat tertutup yang menempel rapat di belakang perangkat dan mensirkulasikan cairan pendingin
  • Qwen3.5-397B-A17B pada praktiknya bertindak seperti model 17B. Judul yang menghilangkan bagian MoE hanyalah iklan berlebihan.
    Quantization juga semacam cheat code, jadi suatu hari nanti mungkin ada yang mengklaim model quantization 1-bit sebagai “model besar”

    • Dalam praktiknya, model ini bekerja kira-kira seperti model 80B, dan tingkat pengetahuan dunianya mendekati model 400B. Arsitektur model, quantization, hingga waktu ke token pertama semuanya sudah dipublikasikan, jadi tidak ada ruang untuk salah paham. Upaya seperti ini lebih mirip eksperimen teknis ala code golf daripada sesuatu untuk pengguna umum
  • Ada pertanyaan, “Kalau ini model 400B tetapi berarsitektur MoE, sebenarnya berapa parameter aktifnya?”

    • Qwen3.5-397B-A17B memiliki 17B parameter yang aktif. Kode terkait bisa dilihat di repositori aplikasi iOS flash-moe
    • Sekarang kebanyakan perusahaan mengadopsi arsitektur MoE
  • Berita ini mengingatkan pada masa ketika llama.c pertama kali muncul dan semua orang bersemangat karena eksekusi lokal akhirnya memungkinkan

  • Saya memasang Termux di ponsel Android lama (LineageOS), lalu menjalankan Ollama dan model kecil di dalamnya. Performanya mengerikan, tetapi bisa jalan

    • Saya masih ingat dulu membangun dan menjalankan sendiri penambang Bitcoin dengan Linux Deploy di Galaxy Note. Performanya buruk, tetapi rasanya seperti membawa komputer penuh di saku. Pada era Nokia, selain JS di browser kami tidak bisa menjalankan apa-apa; Android benar-benar platform yang bisa diutak-atik
    • Sebagai referensi, Pixel 8 saya menjalankan model Qwen3.5 4B pada kecepatan 2 token per detik. Di aplikasi PocketPal itu berjalan baik, tetapi aplikasi Cactus tidak berfungsi
  • Model MoE Qwen mengalami penurunan performa yang tajam ketika status aktifnya turun ke level 2B. Dalam inferensi nyata, hanya parameter yang puluhan kali lebih sedikit yang dipakai, jadi menyebutnya model 400B terasa tidak bermakna

  • Ada pertanyaan, “Berapa lama lagi sampai model dengan performa seperti ini bisa berjalan pada 100 token per detik?”

    • Satu-satunya cara adalah menanamkan model langsung ke perangkat keras. Memang ada chip seperti itu yang diperkenalkan dalam postingan blog ini, tetapi ukurannya terlalu besar untuk masuk ke smartphone
    • Di smartphone, tidak ada gunanya menjalankan model sebesar ini. Jauh lebih cepat dan akurat untuk fine-tune model kecil sesuai kebutuhan spesifik
    • Model Apollo (LFM2) dari Liquid AI berjalan cukup cepat bahkan di ponsel, dan berguna untuk tugas seperti merangkum hasil pencarian atau menyelesaikan soal matematika
    • Secara realistis, saya rasa ini tidak mungkin. Tidak ada solusi rekayasa untuk itu
    • Mungkin butuh 15~20 tahun. Saat ini, mengatakan model ini “berjalan” di ponsel hanya benar secara teknis. Dalam praktiknya, kapasitas RAM dan bandwidth memori sangat jauh dari memadai. Demo yang memanfaatkan SSD memang mungkin, tetapi tidak praktis. Pada akhirnya dibutuhkan algoritma baru dan desain chip khusus. Dengan arsitektur Transformer saat ini, batasannya sudah sangat jelas
  • Kalau belum mengikuti anemll, ada baiknya tahu bahwa dia juga merilis versi OpenClaw yang bisa dijalankan di iPhone.
    Seiring berkembangnya perangkat keras dan model, masa depan AI mobile tampak cukup cerah