Ollama mengumumkan engine baru untuk model multimodal

(ollama.com)

5 poin oleh GN⁺ 2025-05-17 | 1 komentar | Bagikan ke WhatsApp

Ollama mulai mendukung model multimodal (teks+gambar) melalui engine baru
Mendukung berbagai model vision multimodal seperti Llama 4 Scout dan Gemma 3, sehingga memungkinkan tanya jawab yang menggabungkan gambar dan teks
Engine baru ini menghadirkan modularitas model yang lebih baik, peningkatan akurasi, dan manajemen memori yang efisien
Melalui caching gambar, pemanfaatan metadata perangkat keras, dan lainnya, Ollama mencapai performa inferensi yang cepat serta optimasi perangkat keras
Ke depannya akan ada perluasan fitur seperti dukungan konteks yang lebih panjang, tool calling, dan streaming

Dukungan model multimodal di Ollama

Dengan diperkenalkannya engine multimodal baru, Ollama kini mendukung model vision multimodal terbaru yang menangani gambar dan teks secara terpadu

Pemahaman dan penalaran multimodal terpadu

Llama 4 Scout

Ollama mendukung Llama 4 Scout (109 miliar parameter, model mixture-of-experts)
Sebagai contoh, pengguna dapat mengajukan pertanyaan berbasis lokasi dari frame video
- Contoh: mendeteksi berbagai karakteristik gambar seperti bangunan tertentu, elemen lingkungan, dan informasi latar belakang
Berbagai pertanyaan lanjutan juga dapat diteruskan secara alami
- Contoh: pertanyaan seperti "Seberapa jauh dari bangunan ini ke Stanford?" dan "Cara terbaik untuk pergi ke sana apa?" dapat dijawab dengan informasi yang akurat
- Memberikan jawaban yang sesuai situasi nyata, termasuk berbagai moda transportasi, rute, dan perkiraan waktu tempuh

Gemma 3

Gemma 3 dapat menerima beberapa gambar sekaligus dan menganalisis hubungan antar gambar tersebut
- Contoh: dengan cepat mengidentifikasi hewan atau tumbuhan yang sama-sama muncul dalam 4 gambar, keberadaan adegan tertentu, atau situasi yang tidak biasa
- Sebagai contoh yang menarik, model dapat menganalisis siapa yang akan menang dalam adegan llama dan lumba-lumba sedang bertinju, sambil memahami karakteristik dan dinamika masing-masing objek

Pengenalan dan analisis dokumen

Qwen 2.5 VL

Model Qwen 2.5 VL digunakan untuk pengenalan karakter (OCR) dan ekstraksi informasi teks tertentu di dalam gambar
- Contoh penggunaan nyata mencakup mengekstrak informasi dari cek atau menerjemahkan kaligrafi vertikal berbahasa Mandarin seperti bait Tahun Baru Musim Semi ke bahasa Inggris

Karakteristik engine multimodal Ollama

Hingga kini, Ollama telah mengandalkan proyek ggml-org/llama.cpp untuk dukungan model, dan mengembangkannya dengan fokus pada kemudahan penggunaan serta portabilitas model
Seiring banyaknya laboratorium yang baru-baru ini merilis model multimodal, Ollama memperkuat engine-nya sendiri agar dapat mendukung lebih banyak model sesuai tujuannya
Engine baru ini memperlakukan model multimodal sebagai objek mandiri dan kelas satu, sekaligus meningkatkan partisipasi mitra dan komunitas

Makna perkembangan engine

Menjadi dasar untuk meningkatkan keandalan dan akurasi inferensi lokal Ollama, sekaligus mendukung beragam bidang multimodal di masa depan (misalnya: suara, pembuatan gambar, pembuatan video, dukungan konteks panjang, pemanfaatan tool yang lebih baik, dan lain-lain)

Modularitas model

Dirancang agar setiap model memiliki “cakupan pengaruh” yang terisolasi, sehingga keandalan meningkat dan pengembang dapat lebih mudah mengintegrasikan model baru
- ggml/llama.cpp sebelumnya hanya mendukung model teks, sedangkan pada multimodal decoder teks dan encoder vision dipisahkan dan dijalankan secara terpisah
- Karena gambar harus di-embedding oleh algoritme vision lalu diteruskan ke model teks, logika tiap model dapat diimplementasikan dengan lebih ramping
- Di dalam Ollama, model dapat secara mandiri memisahkan lapisan proyeksi embedding dan struktur yang sesuai dengan skema pelatihan khas model tersebut
- Pembuat model dapat fokus pada model dan pelatihannya sendiri tanpa patch tambahan atau conditional yang rumit
- Beberapa contoh struktur model dapat dilihat di repositori GitHub Ollama

Peningkatan akurasi

Gambar berukuran besar dapat menghasilkan jumlah token yang besar sehingga bisa melampaui ukuran batch
- Jika gambar melebihi batch, informasi posisional bisa rusak
Saat memproses gambar, Ollama menambahkan metadata tambahan untuk meningkatkan akurasi
- Diproses secara detail, termasuk apakah causal attention diterapkan, pembagian batch embedding gambar, serta pengelolaan batas antar batch
- Jika titik pembagian tidak tepat, kualitas output bisa menurun, sehingga patokannya disesuaikan dengan makalah tiap model
Tool inferensi lokal lain mengimplementasikannya dengan cara masing-masing, tetapi Ollama menjamin kualitas melalui pemrosesan yang akurat sesuai desain model dan metode pelatihannya

Optimasi manajemen memori

Caching gambar: gambar yang sudah diproses sekali akan terus disimpan di memori sehingga pemrosesan prompt berikutnya menjadi lebih cepat. Selama batas memori belum tercapai, gambar akan tetap dipertahankan
Prediksi memori dan optimasi cache KV: bekerja sama dengan produsen perangkat keras dan mitra OS untuk mengenali metadata perangkat keras secara akurat dan mengoptimalkan penggunaan memori
- Melakukan verifikasi berdasarkan versi firmware dan benchmarking untuk fitur baru
Ollama mengoptimalkan causal attention secara terpisah di tingkat model, dan menyediakan pengaturan khusus untuk tiap model, bukan hanya di tingkat grup
- Contoh:
  - Gemma 3 dari Google DeepMind: mengalokasikan hanya sebagian panjang konteks melalui sliding window attention, sementara sisa memori dialokasikan untuk inferensi bersamaan dan lainnya
  - Llama 4 Scout, Maverick, dan lainnya dari Meta: mendukung chunked attention, 2D rotary embedding, dan implementasi dukungan konteks panjang untuk model mixture-of-experts
Untuk model yang lapisan attention-nya belum diimplementasikan sepenuhnya, model mungkin tetap dapat “berjalan”, tetapi dalam jangka panjang kualitas output bisa menurun atau menghasilkan hasil yang tidak normal

Rencana ke depan

Dukungan panjang konteks yang lebih besar
Penguatan kemampuan inferensi/penalaran
Penyediaan tool calling dan respons streaming
Perluasan kemampuan penggunaan komputer secara langsung

Ucapan terima kasih

Organisasi dan peneliti yang berkontribusi pada pengembangan model
- Menyampaikan terima kasih kepada berbagai laboratorium dan anggota komunitas yang berupaya mengembangkan model vision, termasuk Google DeepMind, Meta Llama, Alibaba Qwen, Mistral, IBM Granite, dan lainnya
GGML
- Library tensor dari tim GGML merupakan elemen inti yang membentuk engine inferensi Ollama. Dari Go, GGML dapat diakses secara langsung untuk memanfaatkan graph inferensi kustom dan perancangan arsitektur model yang kompleks
Mitra perangkat keras
- Menyampaikan terima kasih kepada mitra perangkat keras seperti NVIDIA, AMD, Qualcomm, Intel, dan Microsoft yang telah membantu meningkatkan performa inferensi di berbagai perangkat

1 komentar

GN⁺ 2025-05-17

Komentar Hacker News

Pada titik ini terasa terkejut mendengar Ollama mengumumkan mesin baru, sambil berbagi kesan bahwa upaya panjang llama.cpp akhirnya membuahkan hasil setelah fitur vision yang stabil akhirnya masuk ke branch utama, menduga Ollama tampaknya sudah lama menyiapkan fitur ini, dan merasa keputusan untuk melepaskan ketergantungan awal pada llama.cpp lalu bergerak mandiri adalah penilaian yang masuk akal
Mengungkapkan rasa penasaran tentang apa perbedaan praktis antara cara dua proyek tersebut menambahkan fitur multimodal, karena dukungan LLaVA sudah ada sejak lama sehingga timbul pertanyaan apakah sebelumnya dibutuhkan penanganan khusus, berharap TFA akan menyinggung perbedaan itu, namun justru bingung karena multimodal di Ollama diperlakukan seolah benar-benar baru diperkenalkan
Berpendapat bahwa istilah multimodal seharusnya mencakup bukan hanya teks dan gambar, tetapi juga audio (dan berpotensi video), serta berargumen bahwa bila sebuah model hanya punya kemampuan generasi gambar atau analisis gambar maka istilah “model vision” lebih tepat, menekankan perlunya membedakan model multimodal secara jelas seperti Qwen2.5-Omni dan Qwen2.5-VL, dan menjelaskan bahwa mesin baru Ollama dalam pengertian ini menambahkan dukungan 'vision'
Menyatakan minat untuk menangani input video, serta menanyakan apakah Qwen2.5-Omni dan Ollama mendukung input video
Meski penjelasan tentang ‘mesin baru’ Ollama banyak disebut, ada keinginan melihat informasi yang lebih konkret tentang bagaimana implementasinya sebenarnya, karena llama.cpp juga merupakan proyek hebat sehingga bila mereka membuat mesin pengganti muncul harapan untuk melihat contoh bagaimana itu dibangun, menduga pustaka tensor GGML memegang peran inti, memahami strukturnya sebagai penulisan langsung operasi model (misalnya implementasi Gemma3) di Go melalui FFI (pemanggilan fungsi lintas bahasa) sambil memanfaatkan fitur GGML, dan merasa detail teknis seperti ini seharusnya dijelaskan lebih eksplisit di blog resmi
Ollama selama ini punya citra perusahaan yang dikritik karena kurang transparan, pemberian kredit kontribusi yang tidak jelas, dan keputusan yang tidak berpusat pada pengguna, sehingga terasa mengejutkan bahwa tulisan kali ini justru memuat lebih banyak kredit kepada kontributor, dan menduga penyesuaian itu terjadi karena banyak kritik dari pengguna
Mengaku bahwa kebiasaan penamaan ‘*llama’ di dunia LLM terasa sangat membingungkan, karena terlalu banyak proyek dengan nama mirip llama yang memperparah kebingungan
Berbagi kesulitan mengikuti perkembangan AI/ML yang melaju terlalu cepat, sehingga jika tidak terus memperhatikan akan sulit memahami situasinya, sambil menyebut kecenderungan menyukai nama yang “meme”, mengingatkan bahwa dulu ada tren nama karakter Sesame Street, keluarga model YOLO, dan bahkan paper konferensi pun tidak terkecuali
Sedikit keluar topik dengan mempertanyakan mengapa Ollama dinilai negatif oleh sebagian pengguna, sambil menyoroti bahwa selama ini jarang ada penjelasan selain sekadar anjuran untuk menjalankan llama.cpp secara langsung
Memperkenalkan fakta bahwa ada masalah lama terkait Ollama yang tidak memberi kredit semestinya kepada llama.cpp, dengan membagikan tautan Reddit dan GitHub issue, bahkan menunjukkan bahwa di beberapa proyek kredit justru jatuh ke Ollama padahal yang dipakai langsung adalah llama.cpp, serta menjelaskan bahwa meski Ollama tidak berkontribusi langsung (dan itu bukan kewajiban), ada fork internal yang dipelihara sehingga orang yang tertarik bisa memanfaatkan kodenya kapan pun dengan cara cherry-pick
Terlepas dari isu budaya/lisensi/FOSS yang disebut sebelumnya, ada keluhan soal cara penyimpanan file, yakni Ollama memperkenalkan penyimpanan disk dan registry sendiri sehingga menyulitkan pemakaian ulang, diduga ada niat merancang struktur tertutup dengan monetisasi jangka panjang, mungkin mirip tujuan Docker untuk mencegah penyimpanan ganda, tetapi pada praktiknya justru memperburuk kegunaan, dan akhirnya menimbulkan kerepotan menyimpan file besar lebih dari 30GB secara duplikat sehingga masalah yang tampak kecil pun terasa besar; cara standar yang kompatibel dengan berbagai ekosistem dinilai lebih baik, dan karena ketidaknyamanan itu Ollama akhirnya tidak lagi digunakan
Menilai Ollama sebagai solusi dunia LLM yang mirip Docker, dengan pengalaman pengguna dan sintaks file model yang tampak terinspirasi dari Dockerfile, mengingat perdebatan Docker vs LXC pada masa awal ketika inovasi pengalaman pengguna Docker sempat diabaikan, namun tetap menganggap kurangnya pengakuan terhadap llama.cpp selama bertahun-tahun sebagai masalah, sambil menambahkan bahwa sekarang setidaknya ada penulisan kredit yang agak lebih terbuka
Ketidakpuasan muncul karena Ollama tidak bekerja sama dengan komunitas, dan karena perusahaan ini menerima pendanaan VC maka pertanyaan tentang model bisnisnya masih tersisa; sementara alternatif lain seperti llama.cpp, lmstudio, ramalama, dan lainnya punya struktur yang membuat situasi masing-masing lebih jelas, dan ramalama disebut cukup banyak berkontribusi ke berbagai open source terkait, sambil menyertakan tautan GitHub yang layak dirujuk
Disayangkan bahwa Ollama pada dasarnya hanya berperan sebagai frontend untuk llama.cpp, tetapi tidak menunjukkan atau mengakui hal tersebut secara terbuka
Menunjukkan bahwa dalam contoh Ollama tentang ‘menerjemahkan chunlian vertikal Tiongkok’ terdapat banyak salah terjemah, sehingga diduga penulis blog itu bukan penutur bahasa Mandarin yang sebenarnya, lalu menganalisis secara rinci bagaimana isi sebenarnya di tiap bagian berbeda dari hasil Ollama
Maintainer yang menjalankan contoh tersebut muncul langsung dan menegaskan bahwa dirinya orang Tiongkok, sehingga menambah kredibilitas, menilai terjemahan bahasa Inggrisnya sendiri cukup akurat, menekankan bahwa mereka tidak menyembunyikan atau memanipulasi kesalahan model maupun demo, dan berbagi harapan agar kualitas model akan terus membaik dalam jangka panjang
Berencana mencobanya langsung, serta menilai gaya artikel ini bagus karena contoh praktis dan detail penting terlihat segera
Kelebihan Ollama selama ini adalah model bisa langsung dijalankan tanpa banyak konfigurasi hanya dengan perintah Docker sederhana, tetapi jika perlu memanfaatkan gambar dan video maka ada kendala teknis karena Docker tidak menggunakan GPU, sehingga muncul pertanyaan bagaimana dukungan integrasi Docker di Ollama akan dipertahankan ke depan, dan apakah fitur ini mungkin akan menjadi elemen sekunder yang kurang diprioritaskan dalam proyek
Ada pendapat bahwa di beberapa platform GPU bisa digunakan di Docker, hanya saja memerlukan konfigurasi tambahan dan nvidia menyediakan dokumentasi terkait
Ada kesan lucu bahwa dalam contoh petunjuk rute di Stanford ternyata muncul informasi yang salah, sambil berbagi pengetahuan lalu lintas bahwa CA-85 terletak lebih ke selatan dari Palo Alto
Selama hampir setahun menggunakan model lokal lewat Ollama dan merasa puas, tetapi menjelaskan bahwa dukungan multimodal seperti Llava hampir tidak pernah benar-benar dirasakan karena kebanyakan pemakaian tetap berpusat pada teks, lalu meminta rekomendasi proyek yang berguna dan keren yang dibangun dengan model lokal multimodal, sambil berharap bisa menemukan ide proyek pribadi