FastVLM dari Apple - Pengodean visi efisien untuk model bahasa-vision

(github.com/apple)

15 poin oleh GN⁺ 2025-05-14 | 1 komentar | Bagikan ke WhatsApp

Repo resmi untuk "FastVLM: Efficient Vision Encoding for Vision Language Models" yang dipresentasikan Apple di CVPR 2025
FastViTHD menunjukkan performa mengurangi jumlah token dan mempersingkat waktu pengodean gambar beresolusi tinggi
Model terkecil mencapai hasil 85 kali lebih cepat dibanding LLaVA-OneVision-0.5B dan ukuran encoder 3,4 kali lebih kecil
Model besar menunjukkan performa unggul dan kecepatan 7,9 kali lebih cepat dibanding Cambrian-1-8B
Tersedia aplikasi demo yang berjalan di perangkat mobile seperti iPhone

Arti penting dan keunggulan proyek FastVLM

FastVLM adalah implementasi open source resmi untuk vision language model (VLM)
Dibanding encoder visi konvensional, proyek ini menawarkan keunggulan luar biasa dari sisi kecepatan dan efisiensi
Kegunaannya tinggi di berbagai perangkat keras, terutama Apple Silicon dan lingkungan mobile
Pengguna dapat langsung memilih dan memakai model pralatih dengan beragam ukuran dan performa
Dengan ukuran model yang lebih kecil dibanding proyek lain, FastVLM menjamin respons real-time yang dioptimalkan dan kebutuhan sumber daya perangkat keras yang lebih rendah

Fitur utama

FastViTHD adalah encoder visi inovatif dengan struktur hibrida yang secara signifikan mempersingkat waktu pengodean gambar beresolusi tinggi dengan mengurangi jumlah token output
Model FastVLM-0.5B yang paling kecil memiliki TTFT (waktu hingga token pertama) 85 kali lebih cepat dibanding LLaVA-OneVision-0.5B serta ukuran encoder 3,4 kali lebih kecil
Model besar FastVLM-7B yang dipadukan dengan Qwen2-7B LLM menunjukkan TTFT 7,9 kali lebih cepat dan performa unggul dengan satu image encoder saat dibandingkan dengan SOTA terbaru seperti Cambrian-1-8B
Bahkan aplikasi demo yang berjalan di lingkungan mobile nyata (iOS) juga disediakan, sehingga pemanfaatan teknologinya bisa langsung diverifikasi

Informasi model (Model Zoo)

Berbagai ukuran model FastVLM (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) tersedia dalam versi tahap 2 dan tahap 3
Untuk tiap model, file checkpoint PyTorch disediakan secara resmi
Pengguna dapat memakai perintah resmi yang disediakan untuk mengunduh beberapa model sekaligus ke direktori checkpoints

Contoh penggunaan (Usage Example)

Checkpoint PyTorch yang sudah dilatih dapat dengan mudah dan cepat diuji untuk inferensi menggunakan skrip predict.py
Melalui contoh perintah, pengguna bisa memasukkan gambar dan memberi prompt (pertanyaan), lalu memperoleh deskripsi gambar tersebut atau jawaban atas pertanyaan

Dukungan Apple Silicon dan perangkat mobile

Disediakan panduan yang menjelaskan proses ekspor model terpisah dan kuantisasi untuk inferensi di Apple Silicon
File checkpoint versi yang dioptimalkan langsung untuk Apple Silicon didistribusikan secara resmi
Panduan pengembangan aplikasi dan source code yang bisa langsung digunakan di iPhone, iPad, dan Mac dijelaskan di folder /app

Informasi tambahan dan panduan open source

Tersedia tautan arXiv resmi untuk makalah FastVLM dan format sitasi makalah konferensi CVPR 2025
Codebase ini dibangun di atas berbagai proyek open source, dan detail kontribusi serta informasi lisensi dijelaskan secara terpisah
Sebelum menggunakan model maupun kode, pengguna wajib memeriksa lisensi (file lisensi dan lisensi model)

1 komentar

GN⁺ 2025-05-14

Komentar Hacker News

Model unggulan 0.5B berukuran 2GB; rasanya tidak masuk akal jika setiap aplikasi harus mengunduh ini secara terpisah. Sepertinya Apple jelas punya rencana untuk memuat model-model ini lebih dulu di level OS dan menyediakan SDK agar semua aplikasi bisa memanggilnya secara lokal. Ini benar-benar masa yang sangat menarik. Aku bahkan sudah membuka issue untuk mengonfirmasi bagian ini
- Kalau ada model fondasi standar OS berbasis bobot terbuka, menurutku kemungkinannya akan sangat besar. Jika API memungkinkan pengembang aplikasi memuat fine-tuning LoRa kustom ke model standar OS saat runtime, idealnya kita bisa mendapatkan keuntungan model yang spesifik aplikasi sambil tetap menjaga ukuran aplikasi populer, sekaligus menikmati manfaat model fondasi
- Dengan kuantisasi ke f16 atau bahkan int8, ukuran model mungkin bisa dibuat lebih kecil lagi, tapi inti utamanya memang seperti yang kamu bilang. Dari sudut pandang pengguna juga, mengunduh file 500MB hanya untuk satu aplikasi bukan pengalaman yang menyenangkan
- Seingatku, di WWDC tahun lalu juga ada pembahasan serupa terkait LLM. Isinya bahwa OS menyediakan model dasar, lalu tiap aplikasi bisa melakukan fine-tuning model itu dengan LORAs atau menambahkan custom head
- Kurasa hal seperti ini tidak akan disebutkan secara terbuka kecuali dalam presentasi besar. Tebakanku, kita baru bisa memastikannya di acara seperti WWDC
Terasa bahwa meningkatkan kecepatan time-to-first-token secara cukup besar itu sangat penting untuk aplikasi seperti asisten berbasis visi kontinu di perangkat yang melihat layar lalu langsung bertindak. Melihat aplikasi nyata berjalan dari repo-nya terasa sangat mengesankan, dan aku antusias untuk membangun serta mencobanya sendiri malam ini
Aku berharap mereka lebih aktif berkontribusi ke komunitas AI/ML dan juga mengunggah bobot serta arsitektur model ke HuggingFace. Lucunya, hari ini aku melihat demo VLM serupa yang memakai VLM gratis. Ini tautan referensinya: https://github.com/ngxson/smolvlm-realtime-webcam
- SmolVLM adalah model dari tim huggingface. Seru melihat percobaan membuat macam-macam hal dengan model sekecil ini. Kubagikan juga tautan terkaitnya: https://huggingface.co/blog/smolvlm, https://arxiv.org/abs/2504.05299
Aku sendiri sedang membuat aplikasi suara+visi real-time bernama Sen. Saat ini sudah dirilis dalam beta, dan frame di-streaming secara real-time lewat webrtc. Menurutku sudah terasa cepat dan cerdas, jadi aku penasaran seberapa jauh peningkatannya ketika model seperti ini makin dekat dengan hardware. Ke depannya, sepertinya model semacam ini bisa berjalan secara alami di perangkat dengan TTFB yang cepat
- Kalau ada tulisan yang merangkum tech stack dan setup-nya, boleh dibagikan? Atau ringkasan singkat juga akan sangat membantu. Aku ingin membuat sesuatu seperti Qwen pribadi untuk anak-anak, dengan tombol dan suara untuk bertukar prompt, dan untuk sekarang belum butuh kemampuan visi dulu (meski akan keren kalau nanti bisa ditambahkan). Siri benar-benar mengecewakan. Rasanya masih belum sampai ke level yang kuinginkan
Sangat menyenangkan melihat ada upaya untuk mengurangi penggunaan sumber daya dan mengecilkan model agar bisa dijalankan secara efisien, alih-alih terus menuangkan sumber daya tanpa batas
Aku makin merasa bahwa masa depan robotika akan berada pada model VLA (vision-language-action). Tesla FSD juga merupakan model VLA end-to-end, dan encoding visi yang efisien sepertinya akan sangat menentukan keselamatan serta responsivitas robot
Sebagai ayah dari anak kecil dengan kerusakan saraf optik yang parah, yang dulu berada dalam situasi bisa kehilangan penglihatan kapan saja, kami beruntung dapat mempertahankan sebagian penglihatannya lewat terapi eksperimental dalam uji klinis NIH (menurutku dukungan untuk sains harus terus berlanjut). Berkat perkembangan Vision-Language Model, aku jadi punya harapan bahwa meskipun anakku nanti kehilangan penglihatannya, dia tetap bisa berinteraksi dengan dunia, kuliah, dan berkarya di bidang sains atau teknik yang dia sukai. Anak ini juga sangat berbakat dibanding teman-teman sebayanya, jadi masa depannya terasa menjanjikan
- Aku ingin berbagi pengalaman tumbuh sebagai tunanetra total 100% di era 80-an. Waktu itu teknologinya belum maju seperti sekarang, dan komputer baru masuk saat aku sekitar usia 12 tahun; aku belajar mengetik dengan mesin tik tua dan menulis braille dengan alat braille logam yang berat. Teknologi OCR saat itu juga belum bagus, dan baru saat masuk SMA aku bisa mengikuti pelajaran dengan laptop yang punya braille display. Aku memakai DOS dan mencatat dengan Word 5.5. Selain PC Lingua untuk belajar bahasa Latin, hampir tidak ada alat khusus pembelajaran. Pada akhirnya, yang kupunya hanya catatan elektronik dan otakku sendiri, tapi aku tetap menyelesaikan sekolah, dan sekarang punya pekerjaan yang sangat memuaskan, tinggal di rumahku sendiri, bersama pacar yang manis, dan hidup sepenuhnya mandiri. Bahkan aku justru harus sengaja menjauhkan ibuku yang terus ingin membantuku. Di kalangan penyandang disabilitas, kami kadang menyebut overproteksi orang tua sebagai 'disabilitas tambahan karena orang tua', karena itu memang salah satu penghambat terbesar bagi kemandirian. Tolong jangan tanggapi ini secara emosional; pikirkan baik-baik maknanya. Anakmu bisa cukup mandiri saat usia 18 tahun. Semakin masa itu dipaksa ditunda, semakin sulit kemandirian yang sesungguhnya tercapai, dan semakin besar peluang terlewat untuk membangun kekuatan dari dalam. Aku paham kenapa kamu merasa berharap dengan perkembangan teknologi saat ini, tapi aku percaya potensi anakmu lebih besar dari yang kamu bayangkan. Jika kamu membantunya menemukan potensi yang dia miliki, hal-hal yang benar-benar luar biasa bisa terjadi. Dan aku juga berharap kamu tidak terlalu bergantung pada perangkat mahal atau alat terbaru. Aku sendiri sangat menyukai model visi, tapi sampai sekarang pun saat keluar rumah, yang kubawa hanya tongkat dan ponsel. Kadang aku memang bertanya ke Siri, 'aku ada di mana', tapi pada akhirnya yang membantuku menemukan jalan tetaplah tongkatku. Sebenarnya sebagian besar teknologi terbaru itu dibesar-besarkan, dan aku ingin menekankan bahwa dengan pendengaran dan peraba biasa saja, orang bisa melakukan jauh lebih banyak dari yang dibayangkan. Aku sungguh mendoakan yang terbaik untuk keluargamu dan pertumbuhan anakmu ke depan
Rasanya teknologi seperti ini bisa menghasilkan pendamping yang benar-benar berguna bagi tunanetra hanya dengan sebuah ponsel dan kamera yang terpasang di kacamata. Orang yang sebelumnya tidak bisa bergerak tanpa pendamping mungkin akan bisa menjalani hidup yang lebih mandiri dalam keseharian
- Mungkin ini berguna untuk membedakan ayam saus krim dan sup jamur krim, tapi untuk mobilitas, rasanya tidak terlalu membantu dibanding strategi yang sudah lama dipakai tunanetra. Umpan balik seperti "ada pohon di sini, ada pohon lagi, ada pejalan kaki, ada pohon lagi, ada rambu" menurutku tidak terlalu membantu untuk benar-benar berpindah tempat
Aku penasaran apakah ini bisa dikonversi/dijalankan di llama.cpp. Fakta bahwa ini berbasis LLaVA cukup membuatku bersemangat

FastVLM dari Apple - Pengodean visi efisien untuk model bahasa-vision

Arti penting dan keunggulan proyek FastVLM

Fitur utama

Informasi model (Model Zoo)

Contoh penggunaan (Usage Example)

Dukungan Apple Silicon dan perangkat mobile

Informasi tambahan dan panduan open source

Bacaan terkait

1 komentar

Komentar Hacker News