3 poin oleh GN⁺ 3 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Model open-source Gemma 4 dari Google kini dapat berjalan secara native di iPhone tanpa koneksi internet, memungkinkan inferensi sepenuhnya offline
  • Model 31B dari Gemma 4 menunjukkan performa yang mirip dengan model 27B milik Qwen 3.5, dengan sekitar 4 miliar parameter lebih banyak
  • Varian E2B dan E4B adalah model seluler yang dioptimalkan untuk kecepatan dan kontrol panas, dan aplikasi Google secara default merekomendasikan penggunaan E2B
  • Pengguna dapat memilih model melalui aplikasi Google AI Edge Gallery dan menjalankan inferensi di perangkat tanpa API atau cloud
  • Implementasi ini menunjukkan bahwa peralihan ke AI on-device kini menjadi kenyataan, serta dinilai sebagai tonggak penting dalam perluasan ekosistem edge AI

Menjalankan Google Gemma 4 On-Device di iPhone

  • Model open-source Gemma 4 dari Google mendukung inferensi sepenuhnya offline di iPhone dan berjalan secara native
    • Dapat melakukan inferensi lokal tanpa koneksi internet
    • Distribusi edge AI tidak lagi sekadar tantangan masa depan, tetapi telah menjadi realitas teknologi yang sedang berlangsung
  • Dalam perbandingan performa, varian 31B dari Gemma 4 dinilai berada pada tingkat yang mirip dengan model 27B dari Qwen 3.5
    • Gemma memiliki sekitar 4 miliar parameter lebih banyak
    • Kedua model memiliki keunggulan berbeda tergantung tugas, sehingga tidak ada superioritas mutlak
  • Varian E2B dan E4B, yang merupakan model yang dioptimalkan untuk perangkat mobile, menjadi sorotan
    • Dengan fokus pada efisiensi, model ini unggul dalam kecepatan, bobot ringan, dan kontrol panas
    • Aplikasi Google secara default merekomendasikan penggunaan E2B
  • Aplikasi Google AI Edge Gallery dapat langsung diunduh dari App Store dan dijalankan
    • Pengguna dapat memilih varian model dan melakukan inferensi langsung di perangkat
    • Tanpa panggilan API maupun ketergantungan pada cloud
  • Aplikasi ini melampaui antarmuka teks sederhana dengan menyertakan pengenalan gambar, interaksi suara, dan framework Skills yang dapat diperluas
    • Dirancang sebagai platform eksperimen AI on-device yang dapat dimanfaatkan oleh pengembang dan pengguna tingkat lanjut

Struktur Teknis dan Performa

  • Gemma 4 menggunakan jalur inferensi melalui GPU iPhone
    • Latensi respons sangat rendah, membuktikan bahwa workload AI berkinerja tinggi dapat diproses bahkan di perangkat keras konsumen
    • Dinilai sebagai contoh utama yang menunjukkan potensi komersialisasi distribusi AI lokal
  • Fungsi offline secara signifikan memperluas pemanfaatannya di lingkungan perusahaan
    • Dapat digunakan tanpa ketergantungan cloud di pekerjaan lapangan, lingkungan medis, dan area yang mengutamakan privasi data

Makna dan Prospek

  • Menjalankan Gemma 4 di iPhone bukan sekadar demonstrasi teknis, tetapi melambangkan datangnya era AI on-device
    • Google mulai serius memperluas ekosistem edge AI melalui Gemma
    • Seperti ungkapan “Gemma keluar dari botol”, peralihan menuju AI lokal sebenarnya sudah dimulai

1 komentar

 
GN⁺ 3 hari lalu
Komentar Hacker News
  • Gaya penulisan artikelnya terasa seperti ditulis LLM
    Pola seperti “It’s not mere X — it’s Y” diulang beberapa kali

    • Melempar candaan bahwa sulit dipercaya ada yang meragukan standar moral “gizmoweek dot com”
    • Tidak peduli apakah penulisnya manusia atau LLM. Masalahnya adalah tidaknya ada detail. Tidak ada benchmark model iPhone, dan isinya nyaris kosong
    • Sudah diuji dengan berbagai model seperti Claude dan Grok, dan semuanya menyoroti masalah khas content farm seperti tidak adanya sumber dan kalimat yang berulang. Bahkan tidak bisa membuktikan apakah penulisnya benar-benar ada
    • Senang melihat emotikon “:v”, seperti menemukan kembali generasi milenial setelah sekian lama
    • Terasa seperti AI sedang melatih kita untuk menghindari pola bahasa tertentu. Dibilang tidak ingin menjadi sandera bahasa yang lemah
  • Ditemukan bahwa inferensi dijalankan lewat GPU, bukan Apple Neural Engine
    Tampaknya para engineer Google menyerah mengompilasi kernel kustom untuk blok tensor proprietary milik Apple. Metal mudah dipindahkan, tetapi boros baterai. Sampai backend ANE ditulis ulang, ini masih sebatas demo teknis

    • ANE secara praktis tidak cocok untuk menjalankan LLM. Ekosistem LLM sudah terstandar pada CPU/GPU, dan bahkan MLX milik Apple pun tidak mendukung ANE
    • Menyebut artikel 9to5mac tentang kemungkinan pengumuman framework Core AI pengganti CoreML di WWDC beberapa bulan lagi, sambil menyatakan antusiasme
    • ANE efisien jika dipaketkan minimal dalam unit vektor 128. Tidak efisien untuk generasi token, tetapi berkat teknik terbaru seperti Flash-MoE dan DFlash, kini terasa lebih optimistis dibanding dulu
    • Konsumsi dayanya masih oke, tetapi fitur seperti background listening 24/7 tidak disukai karena masalah kontrol privasi
    • Aplikasi AI Edge Gallery di Android juga hanya memakai GPU. Jadi mungkin bukan cuma masalah blok tensor Apple, melainkan Google memang secara umum tidak terlalu memperhatikannya
  • Membuat aplikasi coding offline (pucky) dengan Gemma 4 dan menjalankannya di iPhone
    Lihat tautan GitHub. Model 4B juga bisa dipakai, tetapi default-nya 2B karena keterbatasan memori. Aplikasi membuat satu file TypeScript lalu mengompilasinya dengan oxc. Sulit lolos review App Store, jadi harus dibangun langsung dengan Xcode

    • Menyarankan melihat thread HN sebelumnya, dan mengusulkan untuk mencoba mengganti React Native dengan Swift
  • Apple tampaknya membatasi LLM lokal di App Store. Saat mencoba mendistribusikan aplikasi sendiri, tertahan oleh klausul 2.5.2

    • Diperkirakan Apple akan makin memperketat regulasi terkait LLM. Jika pengguna bisa membuat aplikasi sendiri, model bisnis Apple bisa terancam
    • Namun aturannya tidak konsisten. Di ponselnya sendiri, Google Edge Gallery dan Locally AI sudah berjalan normal
    • Mengutip teks lengkap panduan App Store 2.5.2 dan mempertanyakan kenapa LLM lokal bisa terkena aturan ini
    • Katanya aplikasinya sendiri memakai LLM yang dioptimalkan untuk ANE, berjalan sepenuhnya offline, dan lolos review hanya dalam sehari. Dianalisis bahwa Apple mungkin sedang berusaha menyaring aplikasi AI spam. Juga menyebut artikel MacRumors
    • Bertanya apakah aplikasi terkait Cactus Compute juga mengalami masalah yang sama
  • Sebagai thread terkait, dibagikan Gemma 4 on iPhone

  • Di iPhone 16 Plus, kecepatannya sangat tinggi, tetapi pada pesan panjang menjadi sangat lambat. Bukan karena thermal throttling. Ingin melihat data diagnostik

    • Inferensi LLM memiliki kompleksitas O(tokens²), jadi wajar jika melambat seiring panjang input
  • Mengharapkan aplikasi Edge Gallery iOS dengan Gemma 4, tetapi terasa merepotkan karena pembatasan akses intents dan perlunya plugin kustom untuk pencarian web. ChatMCP masih lumayan berguna karena berbasis API

  • Menginstal Google AI Edge Gallery di iPhone 16 Pro dan menjalankan benchmark
    Hasil yang dibagikan: berdasarkan GPU, Prefill 231t/s, Decode 16t/s, waktu ke token pertama 1,16 detik, inisialisasi 20 detik

  • Perlu berhati-hati saat memakai model kecil
    Untuk pertanyaan “apakah anjing bisa makan alpukat”, model dengan penuh percaya diri menjawab ‘Yes’. Batasan model harus dipahami

    • Menanggapi dengan bercanda, “secara teknis memang bisa dimakan sih…”
  • Meski offline, ada kecurigaan Google tetap akan mengumpulkan data input atau informasi perangkat

    • Jika melihat source code GitHub, isi pesan tidak dikumpulkan, tetapi statistik penggunaan model memang dicatat
    • Dibagikan anekdot menarik bahwa dalam materi pelatihan internal Google, masalah privasi pengumpulan data dijelaskan memakai contoh produk fiktif ‘gShoe’
    • Disebut bahwa Apple sedang mendorong strategi AI on-device sambil membayar Google 1 miliar dolar, dan ini mungkin merupakan pratinjaunya