- Ollama awalnya adalah alat yang menyederhanakan menjalankan LLM lokal, tetapi kemudian kehilangan kepercayaan karena menyembunyikan asal-usul dan beralih ke pendekatan berpusat pada cloud
- Dengan mengecilkan kontribusi llama.cpp sebagai mesin inti dan beralih ke backend ggml buatannya sendiri, muncul penurunan performa dan bug yang sebelumnya sudah diperbaiki kembali muncul
- Kritik komunitas terus berlanjut karena penamaan model yang menyesatkan, distribusi aplikasi GUI tertutup, dan struktur Modelfile yang tidak efisien
- Kemacetan registry model, kerentanan keamanan, dan struktur vendor lock-in bertentangan dengan filosofi local-first
- Alternatif open source seperti llama.cpp, LM Studio, Jan sudah menyediakan performa lebih tinggi dan transparansi lebih baik serta menjadi pusat ekosistem LLM lokal
Masalah Ollama dan alternatif dalam ekosistem LLM lokal
-
Asal-usul Ollama dan peran awalnya
- Ollama menarik perhatian sebagai wrapper llama.cpp pertama yang menyederhanakan menjalankan LLM lokal
- Pengguna bisa menjalankan model tanpa harus membangun C++ sendiri atau mengatur server
- Setelah itu, Ollama menyembunyikan sumber asal, menyesatkan pengguna, dan menjauh dari filosofi local-first menuju struktur berpusat pada cloud yang didorong modal ventura
- Pendiri perusahaan adalah Jeffrey Morgan dan Michael Chiang, yang sebelumnya membuat GUI Docker Kitematic, lalu diakuisisi oleh Docker Inc.
- Berasal dari Y Combinator (W21), dirilis secara publik pada 2023, dan mengusung slogan “Docker for LLMs”
-
Kredit yang tidak semestinya terhadap llama.cpp
- Fitur inferensi Ollama sepenuhnya bergantung pada llama.cpp karya Georgi Gerganov
- Selama lebih dari 1 tahun, tidak ada penyebutan llama.cpp di README, situs web, maupun materi pemasaran, dan bahkan pemberitahuan lisensi MIT juga tidak dicantumkan
- Isu komunitas yang meminta kepatuhan lisensi (#3185) tidak mendapat respons selama lebih dari 400 hari
- Setelah itu, salah satu co-founder hanya menambahkan satu baris di bagian bawah README: “llama.cpp project founded by Georgi Gerganov”
- Pihak Ollama mengatakan bahwa “kami melakukan banyak patch dan secara bertahap akan beralih ke mesin kami sendiri”, sehingga secara sengaja mengecilkan kredit
Peralihan ke backend sendiri dan penurunan performa
-
Penerapan backend kustom berbasis ggml
- Pada pertengahan 2025, Ollama beralih dari llama.cpp ke implementasi buatannya sendiri berbasis ggml
- Alasan yang dikemukakan adalah stabilitas, tetapi hasilnya justru menghidupkan kembali bug yang sebelumnya sudah diperbaiki
- Muncul banyak masalah seperti error output terstruktur, kegagalan model vision, dan crash assertion GGML
- Model terbaru seperti GPT-OSS 20B tidak berjalan atau mengalami masalah tipe tensor yang tidak didukung
- Gerganov secara langsung menyatakan bahwa Ollama fork ggml dengan cara yang keliru
-
Hasil perbandingan performa
- Dalam benchmark komunitas, llama.cpp 1,8x lebih cepat daripada Ollama (161 vs 89 tokens/s)
- Di CPU juga ada selisih performa 30~50%
- Pada pengujian Qwen-3 Coder 32B, llama.cpp menunjukkan throughput 70% lebih tinggi
- Penyebabnya adalah arsitektur daemon Ollama, offloading GPU yang tidak efisien, dan backend yang ketinggalan zaman
Penamaan model yang menyesatkan
-
Kasus DeepSeek-R1
- Ollama menampilkan model terdistilasi seperti DeepSeek-R1-Distill-Qwen-32B hanya sebagai “DeepSeek-R1”
- Padahal itu bukan model 671B parameter yang sebenarnya, tetapi tetap memakai nama yang sama
- Akibatnya, pengguna salah paham dan mengira mereka telah menjalankan “DeepSeek-R1 secara lokal”, sehingga merusak reputasi DeepSeek
- Isu GitHub terkait (#8557, #8698) semuanya ditandai duplikat dan tetap belum diselesaikan
- Sampai sekarang,
ollama run deepseek-r1 tetap menjalankan model terdistilasi
Rilis aplikasi tertutup
-
Distribusi GUI app secara privat
- Pada Juli 2025, aplikasi GUI Ollama untuk macOS dan Windows dirilis
- Aplikasi itu dikembangkan di repository privat, didistribusikan tanpa lisensi, dan source code-nya tidak dibuka
- Untuk proyek yang sebelumnya mempertahankan citra open source, ini merupakan pergeseran tajam ke arah tertutup
- Komunitas menyoroti kemungkinan ketergantungan pada AGPL-3.0 dan kekhawatiran pelanggaran lisensi
- Situs web menempatkan tombol unduh di samping tautan GitHub, sehingga memberi kesan seolah-olah tetap open source
- Setelah berbulan-bulan diam, barulah pada November 2025 aplikasi itu digabungkan ke repository utama
- XDA mengkritik bahwa “proyek yang mengklaim open source harus jelas apakah benar terbuka atau tidak”
Inefisiensi Modelfile
-
Duplikasi terhadap format GGUF
- Format GGUF sudah memuat semua informasi yang dibutuhkan untuk menjalankan model dalam satu file
- Ollama menambahkan file konfigurasi terpisah bernama Modelfile, dengan struktur mirip Dockerfile
- Ini mendefinisikan ulang informasi yang sudah ada di GGUF dan menambah kompleksitas yang tidak perlu
- Ollama hanya mengenali daftar template yang di-hardcode secara otomatis, sementara template baru diabaikan
- Akibatnya, format instruksi model bisa rusak, dan pengguna harus melakukan konversi manual
-
Perubahan parameter yang tidak efisien
- Untuk mengubah parameter, pengguna harus mengekstraknya lewat
ollama show --modelfile, mengeditnya, lalu membuat ulang dengan ollama create
- Dalam proses ini, seluruh model 30~60GB disalin ulang
- Komunitas menyebutnya sebagai “duplikasi yang tidak efisien dan tidak perlu”
- Di llama.cpp, parameter cukup diatur lewat argumen command line
-
Masalah kompatibilitas template
- Ollama menggunakan sintaks template Go, yang tidak cocok dengan template Jinja yang umum dipakai pembuat model
- LM Studio dan llama.cpp mendukung Jinja secara langsung, sedangkan Ollama memerlukan konversi
- Banyak laporan bahwa error konversi menyebabkan format percakapan rusak
Kemacetan pada registry model
-
Keterlambatan pendaftaran model
- Saat model baru muncul di Hugging Face, Ollama baru bisa memakainya setelah dipaketkan dan didaftarkan secara langsung
- Format kuantisasi yang didukung juga terbatas seperti Q4_K_M dan Q8_0
- Akibatnya, ada jeda waktu dari rilis model sampai bisa dipakai di Ollama
- Di komunitas, beredar posting PSA yang menyarankan “untuk menguji model baru, pakailah llama.cpp atau vLLM”
-
Batasan kuantisasi
- Ollama tidak mendukung seri Q5, Q6, dan IQ
- Bahkan ketika pengguna memintanya, jawabannya adalah “gunakan alat lain”
- Perintah
ollama run hf.co/{repo}:{quant} kini memungkinkan pemanggilan langsung dari Hugging Face,
tetapi file tetap disalin ke penyimpanan hash internal dan tidak bisa dibagikan, sementara masalah template juga tetap ada
Peralihan ke cloud dan masalah keamanan
-
Pengenalan model cloud
- Pada akhir 2025, Ollama menambahkan model yang di-host di cloud
- Meski merupakan alat yang berfokus pada lokal, sebagian model kini mengirim prompt ke server eksternal
- Saat memakai model pihak ketiga seperti MiniMax, data dapat dikirim ke luar
- Ollama menyatakan “tidak menyimpan log”, tetapi kebijakan pihak ketiga tetap tidak jelas
- Untuk model berbasis Alibaba Cloud, tidak ada jaminan retensi data
-
Kerentanan keamanan
- CVE-2025-51471: kerentanan yang memungkinkan server registry berbahaya mencuri token autentikasi
- PR perbaikannya sudah ada, tetapi tidak diterapkan selama berbulan-bulan
- Untuk alat yang menjadikan privasi lokal sebagai nilai inti, ini merupakan masalah struktural yang serius
Struktur yang berpusat pada modal ventura
-
Pola yang berulang
- Membungkus proyek open source untuk mengumpulkan basis pengguna → menarik investasi → beralih ke monetisasi
- Langkah bertahap Ollama:
- Dimulai sebagai open source, dibangun di atas llama.cpp
- Mengecilkan asal-usul, lalu dikemas seolah produk independen
- Mendorong lock-in lewat registry model dan format sendiri
- Merilis GUI tertutup
- Memperkenalkan layanan cloud untuk monetisasi
-
Struktur vendor lock-in
- Ollama menyimpan model dengan nama file berbasis hash, sehingga sulit dipakai alat lain
- GGUF memang bisa diimpor, tetapi ekspor dirancang agar tidak praktis
- Struktur ini membuat pengguna terikat pada ekosistem Ollama
Alat alternatif
-
llama.cpp
- Menyediakan server API kompatibel OpenAI (
llama-server), web UI, kontrol parameter yang rinci, dan throughput tinggi
- Pada Februari 2026, ggml.ai bergabung dengan Hugging Face, sehingga keberlanjutannya makin terjamin
- Berlisensi MIT dan melibatkan lebih dari 450 kontributor
-
Alternatif lain
- llama-swap: mendukung loading multi-model dan hot-swap
- LiteLLM: menyediakan proxy kompatibel OpenAI di berbagai backend
- LM Studio: berbasis GUI, memakai llama.cpp, dan sepenuhnya kompatibel dengan GGUF
- Jan, Msty: aplikasi desktop open source dengan desain local-first
- koboldcpp, Red Hat ramalama: menjalankan model berbasis container dengan atribusi asal yang jelas
Kesimpulan: arah ekosistem LLM lokal
- llama.cpp karya Georgi Gerganov adalah fondasi inovasi AI lokal
- Melalui kolaborasi komunitas, model yang kuat bisa dijalankan bahkan di hardware konsumen
- Ollama memang tumbuh di atas fondasi itu, tetapi kehilangan kepercayaan karena
menyembunyikan asal-usul, menurunkan kualitas, menjadi tertutup, dan beralih ke cloud
- Yang dibutuhkan ekosistem LLM lokal bukanlah Ollama, melainkan llama.cpp
- Keterbukaan sejati dan performa tinggi sudah disediakan oleh alat-alat yang berpusat pada komunitas
3 komentar
Saya cukup setuju, dan untuk benar-benar memakainya secara baik di lingkungan lokal, sepertinya LM Studio lebih bagus.
Saya juga awalnya mulai dengan ollama, tetapi belakangan ini sudah lama beralih ke lm studio.
Komentar Hacker News
Sebagian besar pengguna LLM lokal merasa masalah UX terselesaikan berkat Ollama
Model bisa dijalankan dengan satu baris perintah, dan driver ROCm juga ditangani otomatis
Sebaliknya, llama.cpp dari namanya saja terdengar seperti library C++, sehingga sulit didekati pengguna umum
Saya cuma tidak ingin membangun program sendiri, saya hanya ingin mencobanya dengan santai
Saya memakai Mac Mini, tetapi alat CLI juga tidak masalah. Kekuatan Ollama adalah instalasi mudah dan unduhan model yang praktis, jadi saya berharap alat pengganti juga punya tingkat kemudahan serupa
Saya rasa kontrol kualitas itu penting agar dukungan model tidak digabungkan dalam keadaan rusak atau GGUF yang salah tidak diunggah
Tentu saja kita bisa langsung memakai runc, tetapi kebanyakan orang memilih
docker runUX adalah faktor inti dalam adopsi teknologi, dan kalau sebuah proyek tidak bisa membuat antarmuka yang baik, tidak ada alasan mengapa membuat wrapper itu buruk
Saya lelah mengulang klaim yang sama, jadi saya rangkum sekaligus linimasa dan sumber yang saya tahu
Sebagai alternatif, saya merekomendasikan llama-file. llamafile dari Mozilla AI berjalan sebagai satu executable di berbagai OS dan sepenuhnya open source
Ini berbasis CosmopolitanC buatan Justine Tunney, dan secara resmi memakai llama.cpp
Menurut saya Ollama 1000 kali lebih baik dalam kemudahan penggunaan
llama.cpp memang hebat, tetapi tidak ramah untuk pengguna umum
Saya mulai dengan Ollama, tetapi pindah ke llama.cpp demi perbaikan terbaru
Meski begitu, saya masih memakai Ollama untuk manajemen model. Sangat nyaman sampai saya membuat skrip sendiri untuk mengelola direktori cache
Mungkin untuk aplikasi chat sederhana iya, tetapi kalau butuh API kompatibel OpenAI dan manajemen model, aksesibilitasnya langsung turun drastis
Untuk mengubahnya secara permanen, harus membuat file model baru, dan itu justru lebih rumit
Pendekatan ala Docker malah terasa tidak nyaman bagi pengguna umum, dan menurut saya pengguna tingkat lanjut lebih baik memakai llama.cpp
Merangkum dua sudut pandang terhadap lisensi MIT
Pencipta llama.cpp, Georgi Gerganov, hanya menyatakan keberatan atas tidak dicantumkannya kredit. Artinya, tindakannya lebih dekat ke tafsir pertama
MIT adalah dokumen hukum, bukan pedoman moral
Secara pribadi, saya rasa lebih baik memakai GPL untuk perangkat lunak yang ditujukan kepada pengguna
Memakai MIT lalu mengeluh karena perusahaan mengambil kodenya itu kontradiktif
Menurut saya, perusahaan tidak punya moral, hanya manusialah yang punya
Pada akhirnya kedua proyek terus berkembang, dan pengguna mendapat lebih banyak pilihan
Dulu ini merepotkan karena folder model bawaan tidak bisa diubah
Untuk mendaftarkan model, harus melewati proses mirip Dockerfile, dan model disalin ke penyimpanan hash sehingga lokasinya tidak bisa diubah
Karena itu saya pindah ke LM Studio. Memang bukan sepenuhnya open source, tetapi folder modelnya diekspos dan terintegrasi dengan Hugging Face
OLLAMA_MODELSdi file konfigurasi serverKarena Ollama menyalin file model ke penyimpanan blob berbasis hash, file tersebut tidak bisa dibagikan dengan alat lain
Mungkin ini dirancang untuk deduplikasi, tetapi hasilnya justru membuat uji coba alat lain jadi sulit
Karena ukuran file model sangat besar, ruang penyimpanan dan unduhan menjadi beban besar
Di Arch Linux,
pacman -Ss ollamamenghasilkan 16 hasil, tetapillama.cppataulmstudiomenghasilkan 0Semoga suatu hari berubah
Versi Vulkan, ROCm, dan CUDA semuanya didukung
zypperKarena versi dan dukungan berbeda-beda di tiap distro, inilah alasan mengapa pada akhirnya begitu banyak distro Linux yang ada
yay -S llama.cpp, dan hasilnya jauh lebih cepat dan lebih baik daripada OllamaNama “llama.cpp” sekarang terdengar kurang ramah
Dulu itu berarti model Llama dari Meta, tetapi sekarang sudah ada banyak model open source yang lebih kuat
Sekarang nama “Local LLaMA” dipakai seperti sebutan umum untuk menjalankan model lokal
Sejak awal saya menghindari Ollama karena terkesan ingin mengendalikan seluruh alur kerja
Pada akhirnya saya rasa itu adalah keputusan yang tepat
Struktur penyimpanan blob hash Ollama adalah jebakan terbesar
Kalau selama beberapa bulan sudah mengunduh model, saat pindah ke alat lain semuanya harus diunduh ulang
Kebanyakan pengguna baru menyadari hal ini setelah terlanjur berinvestasi dalam-dalam, lalu sangat merasakan biaya untuk berpindah