Ekosistem LLM lokal tidak membutuhkan Ollama
(sleepingrobots.com)- Ollama adalah alat awal yang menyederhanakan menjalankan LLM lokal, tetapi kemudian kehilangan kepercayaan karena menyembunyikan asal-usul dan beralih ke pendekatan berpusat pada cloud
- Meremehkan kontribusi mesin inti llama.cpp, lalu beralih ke backend ggml buatan sendiri sehingga memicu penurunan performa dan muncul kembali bug lama
- Kritik komunitas terus berlanjut karena penamaan model yang menyesatkan, distribusi aplikasi GUI tertutup, dan struktur Modelfile yang tidak efisien
- Bottleneck registri model, kerentanan keamanan, dan struktur vendor lock-in bertentangan dengan filosofi local-first
- Alternatif open source seperti llama.cpp, LM Studio, Jan sudah menyediakan performa dan transparansi yang lebih baik dan telah menjadi pusat ekosistem LLM lokal
Masalah Ollama dan alternatif dalam ekosistem LLM lokal
-
Asal-usul dan peran awal Ollama
- Ollama mendapat perhatian sebagai wrapper llama.cpp pertama yang menyederhanakan menjalankan LLM lokal
- Pengguna bisa menjalankan model tanpa harus membangun C++ sendiri atau mengatur server
- Setelah itu, Ollama menyembunyikan asal-usulnya, menyesatkan pengguna, dan menjauh dari filosofi local-first menuju struktur berpusat pada cloud yang didorong modal ventura
- Pendiriannya dilakukan oleh Jeffrey Morgan dan Michael Chiang, yang sebelumnya mengembangkan GUI Docker Kitematic dan kemudian diakuisisi oleh Docker Inc.
- Berasal dari Y Combinator (W21), dirilis secara publik pada 2023, dan mengusung slogan “Docker for LLMs”
- Ollama mendapat perhatian sebagai wrapper llama.cpp pertama yang menyederhanakan menjalankan LLM lokal
-
Kredit yang tidak layak terhadap llama.cpp
- Fitur inferensi Ollama sepenuhnya bergantung pada llama.cpp karya Georgi Gerganov
- Selama lebih dari 1 tahun, tidak ada penyebutan llama.cpp di README, situs web, maupun materi pemasaran, bahkan pemberitahuan lisensi MIT pun tidak dicantumkan
- Issue permintaan kepatuhan lisensi dari komunitas (#3185) tidak mendapat tanggapan selama lebih dari 400 hari
- Setelah itu, salah satu co-founder hanya menambahkan satu baris di bagian bawah README: “llama.cpp project founded by Georgi Gerganov”
- Pihak Ollama mengatakan “kami melakukan banyak patch dan secara bertahap akan beralih ke mesin kami sendiri”, sehingga secara sengaja mengecilkan kredit
Peralihan ke backend sendiri dan penurunan performa
-
Pengenalan backend kustom berbasis ggml
- Pada pertengahan 2025, Ollama beralih dari llama.cpp ke implementasi sendiri berbasis ggml
- Alasannya adalah stabilitas, tetapi hasilnya justru memunculkan kembali bug yang sebelumnya sudah diperbaiki
- Muncul banyak masalah seperti error structured output, kegagalan model vision, dan crash assertion GGML
- Model terbaru seperti GPT-OSS 20B tidak berjalan atau mengalami masalah tipe tensor yang tidak didukung
- Gerganov secara langsung menunjukkan bahwa Ollama telah mem-fork ggml secara keliru
-
Hasil perbandingan performa
- Dalam benchmark komunitas, llama.cpp 1,8x lebih cepat daripada Ollama (161 vs 89 tokens/s)
- Di CPU juga ada selisih performa 30~50%
- Dalam pengujian Qwen-3 Coder 32B, llama.cpp menunjukkan throughput 70% lebih tinggi
- Penyebabnya adalah arsitektur daemon Ollama, GPU offloading yang tidak efisien, dan backend yang usang
Penamaan model yang menyesatkan
-
Kasus DeepSeek-R1
- Ollama menampilkan model tereduksi seperti DeepSeek-R1-Distill-Qwen-32B hanya sebagai “DeepSeek-R1”
- Padahal itu bukan model 671B parameter yang sebenarnya
- Pengguna jadi salah paham dan mengira mereka telah menjalankan “DeepSeek-R1 secara lokal”, sehingga merusak reputasi DeepSeek
- Issue GitHub terkait (#8557, #8698) semuanya ditandai duplikat dan tetap belum terselesaikan
- Bahkan sekarang,
ollama run deepseek-r1masih menjalankan model tereduksi
Peluncuran aplikasi tertutup
-
Distribusi GUI app yang tidak terbuka
- Pada Juli 2025, aplikasi GUI Ollama untuk macOS dan Windows diumumkan
- Dikembangkan di repositori privat dan didistribusikan tanpa lisensi, dengan source code tidak dibuka
- Bagi proyek yang sebelumnya mempertahankan citra open source, ini merupakan pergeseran drastis ke arah tertutup
- Komunitas menyoroti kemungkinan dependensi AGPL-3.0 dan kekhawatiran pelanggaran lisensi
- Situs web menempatkan tombol unduh di samping tautan GitHub sehingga memberi kesan seolah aplikasi tersebut open source
- Setelah berbulan-bulan diam, kode itu baru digabungkan ke repositori utama pada November 2025
- XDA mengkritik bahwa “proyek yang mengklaim open source harus jelas soal apakah kodenya benar-benar dibuka”
Ketidakefisienan Modelfile
-
Tumpang tindih dengan format GGUF
- Format GGUF sudah memuat semua informasi yang diperlukan untuk menjalankan model dalam satu file
- Ollama menambahkan file konfigurasi terpisah bernama Modelfile, dengan struktur mirip Dockerfile
- Ini mendefinisikan ulang informasi yang sudah ada di GGUF dan menimbulkan kompleksitas yang tidak perlu
- Ollama hanya mengenali otomatis daftar template yang di-hardcode, sementara template baru diabaikan
- Akibatnya, format instruksi model menjadi rusak dan pengguna harus mengonversinya secara manual
-
Perubahan parameter yang tidak efisien
- Untuk mengubah parameter, pengguna harus mengekstrak dengan
ollama show --modelfile, mengeditnya, lalu membuat ulang denganollama create - Proses ini menyebabkan seluruh model 30~60GB disalin ulang
- Komunitas menyebutnya “tidak efisien dan duplikasi yang tidak perlu”
- Di llama.cpp, parameter bisa disesuaikan cukup lewat argumen command line
- Untuk mengubah parameter, pengguna harus mengekstrak dengan
-
Masalah kompatibilitas template
- Ollama memakai sintaks template Go, yang tidak cocok dengan template Jinja yang digunakan pembuat model
- LM Studio dan llama.cpp mendukung Jinja secara langsung, sedangkan Ollama memerlukan konversi
- Banyak laporan bahwa error konversi menyebabkan format percakapan rusak
Bottleneck pada registri model
-
Keterlambatan pendaftaran model
- Walaupun model baru sudah diunggah ke Hugging Face, di Ollama model itu baru bisa dipakai setelah dikemas dan didaftarkan langsung oleh Ollama
- Format kuantisasi yang didukung juga terbatas, seperti Q4_K_M dan Q8_0
- Akibatnya, ada jeda antara rilis model dan ketersediaannya di Ollama
- Di komunitas, beredar posting PSA yang menyarankan: “untuk menguji model baru, gunakan llama.cpp atau vLLM”
-
Batasan kuantisasi
- Ollama tidak mendukung seri Q5, Q6, dan IQ
- Bahkan ketika pengguna memintanya, jawabannya adalah “gunakan alat lain”
- Memang kini Hugging Face bisa dipanggil langsung dengan perintah
ollama run hf.co/{repo}:{quant}, tetapi file itu tetap disalin ke penyimpanan hash internal dan tidak bisa dibagikan, sementara masalah template juga tetap ada
Peralihan ke cloud dan masalah keamanan
-
Adopsi model cloud
- Pada akhir 2025, Ollama menambahkan model yang di-host di cloud
- Meski merupakan alat yang semula berpusat pada lokal, beberapa model mengirim prompt ke server eksternal
- Saat memakai model pihak ketiga seperti MiniMax, data bisa diteruskan ke pihak luar
- Ollama menyatakan “tidak menyimpan log”, tetapi kebijakan pihak ketiga tetap tidak jelas
- Untuk model berbasis Alibaba Cloud, tidak ada jaminan retensi data
-
Kerentanan keamanan
- CVE-2025-51471: kerentanan yang memungkinkan server registri berbahaya mencuri token autentikasi
- PR perbaikannya ada, tetapi tidak di-merge selama berbulan-bulan
- Bagi alat yang menjadikan privasi lokal sebagai nilai inti, ini adalah masalah struktural yang serius
Struktur yang berpusat pada modal ventura
-
Pola yang berulang
- Membungkus proyek open source untuk mengumpulkan basis pengguna → menarik investasi → beralih ke monetisasi
- Langkah demi langkah Ollama
- Dimulai sebagai open source, dibangun di atas llama.cpp
- Mengecilkan asal-usul, lalu dikemas seolah produk independen
- Mendorong lock-in lewat registri model dan formatnya
- Meluncurkan GUI tertutup
- Memperkenalkan layanan cloud untuk monetisasi
-
Struktur vendor lock-in
- Ollama menyimpan model dengan nama file yang di-hash, sehingga sulit kompatibel dengan alat lain
- GGUF memang bisa diimpor, tetapi ekspornya dirancang agar tidak praktis
- Akhirnya, pengguna menjadi terikat ke ekosistem Ollama
Alat alternatif
-
llama.cpp
- Menyediakan server API kompatibel OpenAI (
llama-server), web UI, kontrol parameter yang rinci, dan throughput tinggi - Pada Februari 2026, ggml.ai bergabung dengan Hugging Face sehingga keberlanjutannya lebih terjamin
- Berlisensi MIT, dengan lebih dari 450 kontributor
- Menyediakan server API kompatibel OpenAI (
-
Alternatif lain
- llama-swap: mendukung pemuatan banyak model dan hot swap
- LiteLLM: menyediakan proxy kompatibel OpenAI di berbagai backend
- LM Studio: berbasis GUI, memakai llama.cpp, dan kompatibel penuh dengan GGUF
- Jan, Msty: aplikasi desktop open source dengan desain local-first
- koboldcpp, Red Hat ramalama: eksekusi model berbasis container dengan penyebutan asal-usul yang jelas
Kesimpulan: arah ekosistem LLM lokal
- llama.cpp karya Georgi Gerganov adalah fondasi inovasi AI lokal
- Berkat kolaborasi komunitas, model yang kuat dapat dijalankan bahkan di hardware konsumen
- Ollama memang tumbuh di atas fondasi itu, tetapi menyembunyikan asal-usul, menurunkan kualitas, menjadi tertutup, dan beralih ke cloud, sehingga kehilangan kepercayaan
- Yang dibutuhkan ekosistem LLM lokal bukanlah Ollama, melainkan llama.cpp
- Keterbukaan dan performa yang sesungguhnya sudah disediakan oleh alat-alat berpusat pada komunitas
3 komentar
Saya cukup setuju, dan untuk benar-benar memakainya secara baik di lingkungan lokal, sepertinya LM Studio lebih bagus.
Saya juga awalnya mulai dengan ollama, tetapi belakangan ini sudah lama beralih ke lm studio.
Komentar Hacker News
Sebagian besar pengguna LLM lokal merasa masalah UX terselesaikan berkat Ollama
Model bisa dijalankan dengan satu baris perintah, dan driver ROCm juga ditangani otomatis
Sebaliknya, llama.cpp dari namanya saja terdengar seperti library C++, sehingga sulit didekati pengguna umum
Saya cuma tidak ingin membangun program sendiri, saya hanya ingin mencobanya dengan santai
Saya memakai Mac Mini, tetapi alat CLI juga tidak masalah. Kekuatan Ollama adalah instalasi mudah dan unduhan model yang praktis, jadi saya berharap alat pengganti juga punya tingkat kemudahan serupa
Saya rasa kontrol kualitas itu penting agar dukungan model tidak digabungkan dalam keadaan rusak atau GGUF yang salah tidak diunggah
Tentu saja kita bisa langsung memakai runc, tetapi kebanyakan orang memilih
docker runUX adalah faktor inti dalam adopsi teknologi, dan kalau sebuah proyek tidak bisa membuat antarmuka yang baik, tidak ada alasan mengapa membuat wrapper itu buruk
Saya lelah mengulang klaim yang sama, jadi saya rangkum sekaligus linimasa dan sumber yang saya tahu
Sebagai alternatif, saya merekomendasikan llama-file. llamafile dari Mozilla AI berjalan sebagai satu executable di berbagai OS dan sepenuhnya open source
Ini berbasis CosmopolitanC buatan Justine Tunney, dan secara resmi memakai llama.cpp
Menurut saya Ollama 1000 kali lebih baik dalam kemudahan penggunaan
llama.cpp memang hebat, tetapi tidak ramah untuk pengguna umum
Saya mulai dengan Ollama, tetapi pindah ke llama.cpp demi perbaikan terbaru
Meski begitu, saya masih memakai Ollama untuk manajemen model. Sangat nyaman sampai saya membuat skrip sendiri untuk mengelola direktori cache
Mungkin untuk aplikasi chat sederhana iya, tetapi kalau butuh API kompatibel OpenAI dan manajemen model, aksesibilitasnya langsung turun drastis
Untuk mengubahnya secara permanen, harus membuat file model baru, dan itu justru lebih rumit
Pendekatan ala Docker malah terasa tidak nyaman bagi pengguna umum, dan menurut saya pengguna tingkat lanjut lebih baik memakai llama.cpp
Merangkum dua sudut pandang terhadap lisensi MIT
Pencipta llama.cpp, Georgi Gerganov, hanya menyatakan keberatan atas tidak dicantumkannya kredit. Artinya, tindakannya lebih dekat ke tafsir pertama
MIT adalah dokumen hukum, bukan pedoman moral
Secara pribadi, saya rasa lebih baik memakai GPL untuk perangkat lunak yang ditujukan kepada pengguna
Memakai MIT lalu mengeluh karena perusahaan mengambil kodenya itu kontradiktif
Menurut saya, perusahaan tidak punya moral, hanya manusialah yang punya
Pada akhirnya kedua proyek terus berkembang, dan pengguna mendapat lebih banyak pilihan
Dulu ini merepotkan karena folder model bawaan tidak bisa diubah
Untuk mendaftarkan model, harus melewati proses mirip Dockerfile, dan model disalin ke penyimpanan hash sehingga lokasinya tidak bisa diubah
Karena itu saya pindah ke LM Studio. Memang bukan sepenuhnya open source, tetapi folder modelnya diekspos dan terintegrasi dengan Hugging Face
OLLAMA_MODELSdi file konfigurasi serverKarena Ollama menyalin file model ke penyimpanan blob berbasis hash, file tersebut tidak bisa dibagikan dengan alat lain
Mungkin ini dirancang untuk deduplikasi, tetapi hasilnya justru membuat uji coba alat lain jadi sulit
Karena ukuran file model sangat besar, ruang penyimpanan dan unduhan menjadi beban besar
Di Arch Linux,
pacman -Ss ollamamenghasilkan 16 hasil, tetapillama.cppataulmstudiomenghasilkan 0Semoga suatu hari berubah
Versi Vulkan, ROCm, dan CUDA semuanya didukung
zypperKarena versi dan dukungan berbeda-beda di tiap distro, inilah alasan mengapa pada akhirnya begitu banyak distro Linux yang ada
yay -S llama.cpp, dan hasilnya jauh lebih cepat dan lebih baik daripada OllamaNama “llama.cpp” sekarang terdengar kurang ramah
Dulu itu berarti model Llama dari Meta, tetapi sekarang sudah ada banyak model open source yang lebih kuat
Sekarang nama “Local LLaMA” dipakai seperti sebutan umum untuk menjalankan model lokal
Sejak awal saya menghindari Ollama karena terkesan ingin mengendalikan seluruh alur kerja
Pada akhirnya saya rasa itu adalah keputusan yang tepat
Struktur penyimpanan blob hash Ollama adalah jebakan terbesar
Kalau selama beberapa bulan sudah mengunduh model, saat pindah ke alat lain semuanya harus diunduh ulang
Kebanyakan pengguna baru menyadari hal ini setelah terlanjur berinvestasi dalam-dalam, lalu sangat merasakan biaya untuk berpindah