- Model open-source Gemma 4 dari Google kini dapat berjalan secara native di iPhone tanpa koneksi internet, memungkinkan inferensi sepenuhnya offline
- Model 31B dari Gemma 4 menunjukkan performa yang mirip dengan model 27B milik Qwen 3.5, dengan sekitar 4 miliar parameter lebih banyak
- Varian E2B dan E4B adalah model seluler yang dioptimalkan untuk kecepatan dan kontrol panas, dan aplikasi Google secara default merekomendasikan penggunaan E2B
- Pengguna dapat memilih model melalui aplikasi Google AI Edge Gallery dan menjalankan inferensi di perangkat tanpa API atau cloud
- Implementasi ini menunjukkan bahwa peralihan ke AI on-device kini menjadi kenyataan, serta dinilai sebagai tonggak penting dalam perluasan ekosistem edge AI
Menjalankan Google Gemma 4 On-Device di iPhone
- Model open-source Gemma 4 dari Google mendukung inferensi sepenuhnya offline di iPhone dan berjalan secara native
- Dapat melakukan inferensi lokal tanpa koneksi internet
- Distribusi edge AI tidak lagi sekadar tantangan masa depan, tetapi telah menjadi realitas teknologi yang sedang berlangsung
- Dalam perbandingan performa, varian 31B dari Gemma 4 dinilai berada pada tingkat yang mirip dengan model 27B dari Qwen 3.5
- Gemma memiliki sekitar 4 miliar parameter lebih banyak
- Kedua model memiliki keunggulan berbeda tergantung tugas, sehingga tidak ada superioritas mutlak
- Varian E2B dan E4B, yang merupakan model yang dioptimalkan untuk perangkat mobile, menjadi sorotan
- Dengan fokus pada efisiensi, model ini unggul dalam kecepatan, bobot ringan, dan kontrol panas
- Aplikasi Google secara default merekomendasikan penggunaan E2B
- Aplikasi Google AI Edge Gallery dapat langsung diunduh dari App Store dan dijalankan
- Pengguna dapat memilih varian model dan melakukan inferensi langsung di perangkat
- Tanpa panggilan API maupun ketergantungan pada cloud
- Aplikasi ini melampaui antarmuka teks sederhana dengan menyertakan pengenalan gambar, interaksi suara, dan framework Skills yang dapat diperluas
- Dirancang sebagai platform eksperimen AI on-device yang dapat dimanfaatkan oleh pengembang dan pengguna tingkat lanjut
Struktur Teknis dan Performa
- Gemma 4 menggunakan jalur inferensi melalui GPU iPhone
- Latensi respons sangat rendah, membuktikan bahwa workload AI berkinerja tinggi dapat diproses bahkan di perangkat keras konsumen
- Dinilai sebagai contoh utama yang menunjukkan potensi komersialisasi distribusi AI lokal
- Fungsi offline secara signifikan memperluas pemanfaatannya di lingkungan perusahaan
- Dapat digunakan tanpa ketergantungan cloud di pekerjaan lapangan, lingkungan medis, dan area yang mengutamakan privasi data
Makna dan Prospek
- Menjalankan Gemma 4 di iPhone bukan sekadar demonstrasi teknis, tetapi melambangkan datangnya era AI on-device
- Google mulai serius memperluas ekosistem edge AI melalui Gemma
- Seperti ungkapan “Gemma keluar dari botol”, peralihan menuju AI lokal sebenarnya sudah dimulai
1 komentar
Komentar Hacker News
Gaya penulisan artikelnya terasa seperti ditulis LLM
Pola seperti “It’s not mere X — it’s Y” diulang beberapa kali
Ditemukan bahwa inferensi dijalankan lewat GPU, bukan Apple Neural Engine
Tampaknya para engineer Google menyerah mengompilasi kernel kustom untuk blok tensor proprietary milik Apple. Metal mudah dipindahkan, tetapi boros baterai. Sampai backend ANE ditulis ulang, ini masih sebatas demo teknis
Membuat aplikasi coding offline (pucky) dengan Gemma 4 dan menjalankannya di iPhone
Lihat tautan GitHub. Model 4B juga bisa dipakai, tetapi default-nya 2B karena keterbatasan memori. Aplikasi membuat satu file TypeScript lalu mengompilasinya dengan oxc. Sulit lolos review App Store, jadi harus dibangun langsung dengan Xcode
Apple tampaknya membatasi LLM lokal di App Store. Saat mencoba mendistribusikan aplikasi sendiri, tertahan oleh klausul 2.5.2
Sebagai thread terkait, dibagikan Gemma 4 on iPhone
Di iPhone 16 Plus, kecepatannya sangat tinggi, tetapi pada pesan panjang menjadi sangat lambat. Bukan karena thermal throttling. Ingin melihat data diagnostik
Mengharapkan aplikasi Edge Gallery iOS dengan Gemma 4, tetapi terasa merepotkan karena pembatasan akses intents dan perlunya plugin kustom untuk pencarian web. ChatMCP masih lumayan berguna karena berbasis API
Menginstal Google AI Edge Gallery di iPhone 16 Pro dan menjalankan benchmark
Hasil yang dibagikan: berdasarkan GPU, Prefill 231t/s, Decode 16t/s, waktu ke token pertama 1,16 detik, inisialisasi 20 detik
Perlu berhati-hati saat memakai model kecil
Untuk pertanyaan “apakah anjing bisa makan alpukat”, model dengan penuh percaya diri menjawab ‘Yes’. Batasan model harus dipahami
Meski offline, ada kecurigaan Google tetap akan mengumpulkan data input atau informasi perangkat