- Repo resmi untuk "FastVLM: Efficient Vision Encoding for Vision Language Models" yang dipresentasikan Apple di CVPR 2025
- FastViTHD menunjukkan performa mengurangi jumlah token dan mempersingkat waktu pengodean gambar beresolusi tinggi
- Model terkecil mencapai hasil 85 kali lebih cepat dibanding LLaVA-OneVision-0.5B dan ukuran encoder 3,4 kali lebih kecil
- Model besar menunjukkan performa unggul dan kecepatan 7,9 kali lebih cepat dibanding Cambrian-1-8B
- Tersedia aplikasi demo yang berjalan di perangkat mobile seperti iPhone
Arti penting dan keunggulan proyek FastVLM
- FastVLM adalah implementasi open source resmi untuk vision language model (VLM)
- Dibanding encoder visi konvensional, proyek ini menawarkan keunggulan luar biasa dari sisi kecepatan dan efisiensi
- Kegunaannya tinggi di berbagai perangkat keras, terutama Apple Silicon dan lingkungan mobile
- Pengguna dapat langsung memilih dan memakai model pralatih dengan beragam ukuran dan performa
- Dengan ukuran model yang lebih kecil dibanding proyek lain, FastVLM menjamin respons real-time yang dioptimalkan dan kebutuhan sumber daya perangkat keras yang lebih rendah
Fitur utama
- FastViTHD adalah encoder visi inovatif dengan struktur hibrida yang secara signifikan mempersingkat waktu pengodean gambar beresolusi tinggi dengan mengurangi jumlah token output
- Model FastVLM-0.5B yang paling kecil memiliki TTFT (waktu hingga token pertama) 85 kali lebih cepat dibanding LLaVA-OneVision-0.5B serta ukuran encoder 3,4 kali lebih kecil
- Model besar FastVLM-7B yang dipadukan dengan Qwen2-7B LLM menunjukkan TTFT 7,9 kali lebih cepat dan performa unggul dengan satu image encoder saat dibandingkan dengan SOTA terbaru seperti Cambrian-1-8B
- Bahkan aplikasi demo yang berjalan di lingkungan mobile nyata (iOS) juga disediakan, sehingga pemanfaatan teknologinya bisa langsung diverifikasi
Informasi model (Model Zoo)
- Berbagai ukuran model FastVLM (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) tersedia dalam versi tahap 2 dan tahap 3
- Untuk tiap model, file checkpoint PyTorch disediakan secara resmi
- Pengguna dapat memakai perintah resmi yang disediakan untuk mengunduh beberapa model sekaligus ke direktori
checkpoints
Contoh penggunaan (Usage Example)
- Checkpoint PyTorch yang sudah dilatih dapat dengan mudah dan cepat diuji untuk inferensi menggunakan skrip predict.py
- Melalui contoh perintah, pengguna bisa memasukkan gambar dan memberi prompt (pertanyaan), lalu memperoleh deskripsi gambar tersebut atau jawaban atas pertanyaan
Dukungan Apple Silicon dan perangkat mobile
- Disediakan panduan yang menjelaskan proses ekspor model terpisah dan kuantisasi untuk inferensi di Apple Silicon
- File checkpoint versi yang dioptimalkan langsung untuk Apple Silicon didistribusikan secara resmi
- Panduan pengembangan aplikasi dan source code yang bisa langsung digunakan di iPhone, iPad, dan Mac dijelaskan di folder
/app
Informasi tambahan dan panduan open source
- Tersedia tautan arXiv resmi untuk makalah FastVLM dan format sitasi makalah konferensi CVPR 2025
- Codebase ini dibangun di atas berbagai proyek open source, dan detail kontribusi serta informasi lisensi dijelaskan secara terpisah
- Sebelum menggunakan model maupun kode, pengguna wajib memeriksa lisensi (file lisensi dan lisensi model)
1 komentar
Komentar Hacker News