Ekosistem LLM lokal tidak membutuhkan Ollama

(sleepingrobots.com)

27 poin oleh GN⁺ 2026-04-17 | 3 komentar | Bagikan ke WhatsApp

Ollama adalah alat awal yang menyederhanakan menjalankan LLM lokal, tetapi kemudian kehilangan kepercayaan karena menyembunyikan asal-usul dan beralih ke pendekatan berpusat pada cloud
Meremehkan kontribusi mesin inti llama.cpp, lalu beralih ke backend ggml buatan sendiri sehingga memicu penurunan performa dan muncul kembali bug lama
Kritik komunitas terus berlanjut karena penamaan model yang menyesatkan, distribusi aplikasi GUI tertutup, dan struktur Modelfile yang tidak efisien
Bottleneck registri model, kerentanan keamanan, dan struktur vendor lock-in bertentangan dengan filosofi local-first
Alternatif open source seperti llama.cpp, LM Studio, Jan sudah menyediakan performa dan transparansi yang lebih baik dan telah menjadi pusat ekosistem LLM lokal

Masalah Ollama dan alternatif dalam ekosistem LLM lokal

Asal-usul dan peran awal Ollama
- Ollama mendapat perhatian sebagai wrapper llama.cpp pertama yang menyederhanakan menjalankan LLM lokal
  - Pengguna bisa menjalankan model tanpa harus membangun C++ sendiri atau mengatur server
- Setelah itu, Ollama menyembunyikan asal-usulnya, menyesatkan pengguna, dan menjauh dari filosofi local-first menuju struktur berpusat pada cloud yang didorong modal ventura
- Pendiriannya dilakukan oleh Jeffrey Morgan dan Michael Chiang, yang sebelumnya mengembangkan GUI Docker Kitematic dan kemudian diakuisisi oleh Docker Inc.
- Berasal dari Y Combinator (W21), dirilis secara publik pada 2023, dan mengusung slogan “Docker for LLMs”
Kredit yang tidak layak terhadap llama.cpp
- Fitur inferensi Ollama sepenuhnya bergantung pada llama.cpp karya Georgi Gerganov
- Selama lebih dari 1 tahun, tidak ada penyebutan llama.cpp di README, situs web, maupun materi pemasaran, bahkan pemberitahuan lisensi MIT pun tidak dicantumkan
- Issue permintaan kepatuhan lisensi dari komunitas (#3185) tidak mendapat tanggapan selama lebih dari 400 hari
- Setelah itu, salah satu co-founder hanya menambahkan satu baris di bagian bawah README: “llama.cpp project founded by Georgi Gerganov”
- Pihak Ollama mengatakan “kami melakukan banyak patch dan secara bertahap akan beralih ke mesin kami sendiri”, sehingga secara sengaja mengecilkan kredit

Peralihan ke backend sendiri dan penurunan performa

Pengenalan backend kustom berbasis ggml
- Pada pertengahan 2025, Ollama beralih dari llama.cpp ke implementasi sendiri berbasis ggml
- Alasannya adalah stabilitas, tetapi hasilnya justru memunculkan kembali bug yang sebelumnya sudah diperbaiki
- Muncul banyak masalah seperti error structured output, kegagalan model vision, dan crash assertion GGML
- Model terbaru seperti GPT-OSS 20B tidak berjalan atau mengalami masalah tipe tensor yang tidak didukung
- Gerganov secara langsung menunjukkan bahwa Ollama telah mem-fork ggml secara keliru
Hasil perbandingan performa
- Dalam benchmark komunitas, llama.cpp 1,8x lebih cepat daripada Ollama (161 vs 89 tokens/s)
- Di CPU juga ada selisih performa 30~50%
- Dalam pengujian Qwen-3 Coder 32B, llama.cpp menunjukkan throughput 70% lebih tinggi
- Penyebabnya adalah arsitektur daemon Ollama, GPU offloading yang tidak efisien, dan backend yang usang

Penamaan model yang menyesatkan

Kasus DeepSeek-R1
- Ollama menampilkan model tereduksi seperti DeepSeek-R1-Distill-Qwen-32B hanya sebagai “DeepSeek-R1”
- Padahal itu bukan model 671B parameter yang sebenarnya
- Pengguna jadi salah paham dan mengira mereka telah menjalankan “DeepSeek-R1 secara lokal”, sehingga merusak reputasi DeepSeek
- Issue GitHub terkait (#8557, #8698) semuanya ditandai duplikat dan tetap belum terselesaikan
- Bahkan sekarang, ollama run deepseek-r1 masih menjalankan model tereduksi

Peluncuran aplikasi tertutup

Distribusi GUI app yang tidak terbuka
- Pada Juli 2025, aplikasi GUI Ollama untuk macOS dan Windows diumumkan
- Dikembangkan di repositori privat dan didistribusikan tanpa lisensi, dengan source code tidak dibuka
- Bagi proyek yang sebelumnya mempertahankan citra open source, ini merupakan pergeseran drastis ke arah tertutup
- Komunitas menyoroti kemungkinan dependensi AGPL-3.0 dan kekhawatiran pelanggaran lisensi
- Situs web menempatkan tombol unduh di samping tautan GitHub sehingga memberi kesan seolah aplikasi tersebut open source
- Setelah berbulan-bulan diam, kode itu baru digabungkan ke repositori utama pada November 2025
- XDA mengkritik bahwa “proyek yang mengklaim open source harus jelas soal apakah kodenya benar-benar dibuka”

Ketidakefisienan Modelfile

Tumpang tindih dengan format GGUF
- Format GGUF sudah memuat semua informasi yang diperlukan untuk menjalankan model dalam satu file
- Ollama menambahkan file konfigurasi terpisah bernama Modelfile, dengan struktur mirip Dockerfile
- Ini mendefinisikan ulang informasi yang sudah ada di GGUF dan menimbulkan kompleksitas yang tidak perlu
- Ollama hanya mengenali otomatis daftar template yang di-hardcode, sementara template baru diabaikan
- Akibatnya, format instruksi model menjadi rusak dan pengguna harus mengonversinya secara manual
Perubahan parameter yang tidak efisien
- Untuk mengubah parameter, pengguna harus mengekstrak dengan ollama show --modelfile, mengeditnya, lalu membuat ulang dengan ollama create
- Proses ini menyebabkan seluruh model 30~60GB disalin ulang
- Komunitas menyebutnya “tidak efisien dan duplikasi yang tidak perlu”
- Di llama.cpp, parameter bisa disesuaikan cukup lewat argumen command line
Masalah kompatibilitas template
- Ollama memakai sintaks template Go, yang tidak cocok dengan template Jinja yang digunakan pembuat model
- LM Studio dan llama.cpp mendukung Jinja secara langsung, sedangkan Ollama memerlukan konversi
- Banyak laporan bahwa error konversi menyebabkan format percakapan rusak

Bottleneck pada registri model

Keterlambatan pendaftaran model
- Walaupun model baru sudah diunggah ke Hugging Face, di Ollama model itu baru bisa dipakai setelah dikemas dan didaftarkan langsung oleh Ollama
- Format kuantisasi yang didukung juga terbatas, seperti Q4_K_M dan Q8_0
- Akibatnya, ada jeda antara rilis model dan ketersediaannya di Ollama
- Di komunitas, beredar posting PSA yang menyarankan: “untuk menguji model baru, gunakan llama.cpp atau vLLM”
Batasan kuantisasi
- Ollama tidak mendukung seri Q5, Q6, dan IQ
- Bahkan ketika pengguna memintanya, jawabannya adalah “gunakan alat lain”
- Memang kini Hugging Face bisa dipanggil langsung dengan perintah ollama run hf.co/{repo}:{quant}, tetapi file itu tetap disalin ke penyimpanan hash internal dan tidak bisa dibagikan, sementara masalah template juga tetap ada

Peralihan ke cloud dan masalah keamanan

Adopsi model cloud
- Pada akhir 2025, Ollama menambahkan model yang di-host di cloud
- Meski merupakan alat yang semula berpusat pada lokal, beberapa model mengirim prompt ke server eksternal
- Saat memakai model pihak ketiga seperti MiniMax, data bisa diteruskan ke pihak luar
- Ollama menyatakan “tidak menyimpan log”, tetapi kebijakan pihak ketiga tetap tidak jelas
- Untuk model berbasis Alibaba Cloud, tidak ada jaminan retensi data
Kerentanan keamanan
- CVE-2025-51471: kerentanan yang memungkinkan server registri berbahaya mencuri token autentikasi
- PR perbaikannya ada, tetapi tidak di-merge selama berbulan-bulan
- Bagi alat yang menjadikan privasi lokal sebagai nilai inti, ini adalah masalah struktural yang serius

Struktur yang berpusat pada modal ventura

Pola yang berulang
- Membungkus proyek open source untuk mengumpulkan basis pengguna → menarik investasi → beralih ke monetisasi
- Langkah demi langkah Ollama
  - Dimulai sebagai open source, dibangun di atas llama.cpp
  - Mengecilkan asal-usul, lalu dikemas seolah produk independen
  - Mendorong lock-in lewat registri model dan formatnya
  - Meluncurkan GUI tertutup
  - Memperkenalkan layanan cloud untuk monetisasi
Struktur vendor lock-in
- Ollama menyimpan model dengan nama file yang di-hash, sehingga sulit kompatibel dengan alat lain
- GGUF memang bisa diimpor, tetapi ekspornya dirancang agar tidak praktis
- Akhirnya, pengguna menjadi terikat ke ekosistem Ollama

Alat alternatif

llama.cpp
- Menyediakan server API kompatibel OpenAI (llama-server), web UI, kontrol parameter yang rinci, dan throughput tinggi
- Pada Februari 2026, ggml.ai bergabung dengan Hugging Face sehingga keberlanjutannya lebih terjamin
- Berlisensi MIT, dengan lebih dari 450 kontributor
Alternatif lain
- llama-swap: mendukung pemuatan banyak model dan hot swap
- LiteLLM: menyediakan proxy kompatibel OpenAI di berbagai backend
- LM Studio: berbasis GUI, memakai llama.cpp, dan kompatibel penuh dengan GGUF
- Jan, Msty: aplikasi desktop open source dengan desain local-first
- koboldcpp, Red Hat ramalama: eksekusi model berbasis container dengan penyebutan asal-usul yang jelas

Kesimpulan: arah ekosistem LLM lokal

llama.cpp karya Georgi Gerganov adalah fondasi inovasi AI lokal
- Berkat kolaborasi komunitas, model yang kuat dapat dijalankan bahkan di hardware konsumen
Ollama memang tumbuh di atas fondasi itu, tetapi menyembunyikan asal-usul, menurunkan kualitas, menjadi tertutup, dan beralih ke cloud, sehingga kehilangan kepercayaan
Yang dibutuhkan ekosistem LLM lokal bukanlah Ollama, melainkan llama.cpp
- Keterbukaan dan performa yang sesungguhnya sudah disediakan oleh alat-alat berpusat pada komunitas

3 komentar

shblue21 2026-04-17

Saya cukup setuju, dan untuk benar-benar memakainya secara baik di lingkungan lokal, sepertinya LM Studio lebih bagus.

kirinonakar 2026-04-18

Saya juga awalnya mulai dengan ollama, tetapi belakangan ini sudah lama beralih ke lm studio.

GN⁺ 2026-04-17

Komentar Hacker News

Sebagian besar pengguna LLM lokal merasa masalah UX terselesaikan berkat Ollama
Model bisa dijalankan dengan satu baris perintah, dan driver ROCm juga ditangani otomatis
Sebaliknya, llama.cpp dari namanya saja terdengar seperti library C++, sehingga sulit didekati pengguna umum
Saya cuma tidak ingin membangun program sendiri, saya hanya ingin mencobanya dengan santai
- Sekarang llama.cpp pada dasarnya sudah menyertakan GUI. Dulu tidak ada, tetapi sekarang zamannya sudah berubah
- Ada banyak alternatif seperti “LM Studio, Jan, Msty, koboldcpp…”, tetapi saya penasaran siapa sebenarnya penerus yang layak menggantikan Ollama
  Saya memakai Mac Mini, tetapi alat CLI juga tidak masalah. Kekuatan Ollama adalah instalasi mudah dan unduhan model yang praktis, jadi saya berharap alat pengganti juga punya tingkat kemudahan serupa
- Mengusulkan kobold.cpp atau LM Studio. LM Studio memang bukan open source, tetapi memberi kredit yang layak kepada llama.cpp
  Saya rasa kontrol kualitas itu penting agar dukungan model tidak digabungkan dalam keadaan rusak atau GGUF yang salah tidak diunggah
- Setuju. Ini situasinya mirip dengan Docker
  Tentu saja kita bisa langsung memakai runc, tetapi kebanyakan orang memilih docker run
  UX adalah faktor inti dalam adopsi teknologi, dan kalau sebuah proyek tidak bisa membuat antarmuka yang baik, tidak ada alasan mengapa membuat wrapper itu buruk
- Hanya karena Ollama menyelesaikan masalah UX bukan berarti pelanggaran lisensi jadi dapat dimaafkan
Saya lelah mengulang klaim yang sama, jadi saya rangkum sekaligus linimasa dan sumber yang saya tahu
- Mengucapkan terima kasih karena telah menulis artikel ini. Saya juga sedikit berkontribusi ke llama.cpp, dan tindakan para pendiri Ollama benar-benar mengecewakan
  Sebagai alternatif, saya merekomendasikan llama-file. llamafile dari Mozilla AI berjalan sebagai satu executable di berbagai OS dan sepenuhnya open source
  Ini berbasis CosmopolitanC buatan Justine Tunney, dan secara resmi memakai llama.cpp
- Sebagai orang yang mementingkan semangat FOSS, ini adalah artikel yang sangat edukatif
- Katanya ada banyak hal yang sebelumnya tidak ia ketahui
- Ringkasan dan linimasanya dinilai sangat bagus
Menurut saya Ollama 1000 kali lebih baik dalam kemudahan penggunaan
llama.cpp memang hebat, tetapi tidak ramah untuk pengguna umum
Saya mulai dengan Ollama, tetapi pindah ke llama.cpp demi perbaikan terbaru
Meski begitu, saya masih memakai Ollama untuk manajemen model. Sangat nyaman sampai saya membuat skrip sendiri untuk mengelola direktori cache
- Di tulisan blog dibilang alternatif-alternatif itu intuitif, tetapi kenyataannya tidak begitu
  Mungkin untuk aplikasi chat sederhana iya, tetapi kalau butuh API kompatibel OpenAI dan manajemen model, aksesibilitasnya langsung turun drastis
- Banyak keluhan bahwa context size bawaan Ollama terlalu kecil sehingga model terasa bodoh
  Untuk mengubahnya secara permanen, harus membuat file model baru, dan itu justru lebih rumit
  Pendekatan ala Docker malah terasa tidak nyaman bagi pengguna umum, dan menurut saya pengguna tingkat lanjut lebih baik memakai llama.cpp
- Sebagai catatan, sekarang llama.cpp sudah menambahkan mode router sehingga model bisa diganti secara real-time
- Versi terbaru jauh lebih kuat. Bisa dilihat di llama.cpp tools/serv
- Saya sudah memakai LM Studio sejak 3 tahun lalu, dan bahkan saat itu pun sudah jauh lebih baik daripada Ollama
Merangkum dua sudut pandang terhadap lisensi MIT
1. “Asal kasih kredit satu baris, apa pun boleh”
2. “Secara hukum memang bebas, tetapi ada tanggung jawab moral terhadap komunitas”
  Pencipta llama.cpp, Georgi Gerganov, hanya menyatakan keberatan atas tidak dicantumkannya kredit. Artinya, tindakannya lebih dekat ke tafsir pertama
- Saya rasa tafsir kedua tidak masuk akal. Jika ingin kewajiban GPL, ya pakai GPL
  MIT adalah dokumen hukum, bukan pedoman moral
  Secara pribadi, saya rasa lebih baik memakai GPL untuk perangkat lunak yang ditujukan kepada pengguna
  Memakai MIT lalu mengeluh karena perusahaan mengambil kodenya itu kontradiktif
  Menurut saya, perusahaan tidak punya moral, hanya manusialah yang punya
- Kalau Georgi mau, kapan saja ia bisa menggantinya ke GPL. Tetapi ia tidak melakukannya
  Pada akhirnya kedua proyek terus berkembang, dan pengguna mendapat lebih banyak pilihan
Dulu ini merepotkan karena folder model bawaan tidak bisa diubah
Untuk mendaftarkan model, harus melewati proses mirip Dockerfile, dan model disalin ke penyimpanan hash sehingga lokasinya tidak bisa diubah
Karena itu saya pindah ke LM Studio. Memang bukan sepenuhnya open source, tetapi folder modelnya diekspos dan terintegrasi dengan Hugging Face
- Sekarang sudah bisa. Jalurnya dapat ditentukan lewat variabel lingkungan OLLAMA_MODELS di file konfigurasi server
- Saya juga sempat kesulitan karena masalah ini. Saat ingin membandingkannya dengan LM Studio sebelum dan sesudah upgrade SSD, proses mencari dan merapikan lokasi model terasa terlalu rumit dan menyakitkan tanpa perlu
Karena Ollama menyalin file model ke penyimpanan blob berbasis hash, file tersebut tidak bisa dibagikan dengan alat lain
Mungkin ini dirancang untuk deduplikasi, tetapi hasilnya justru membuat uji coba alat lain jadi sulit
Karena ukuran file model sangat besar, ruang penyimpanan dan unduhan menjadi beban besar
Di Arch Linux, pacman -Ss ollama menghasilkan 16 hasil, tetapi llama.cpp atau lmstudio menghasilkan 0
Semoga suatu hari berubah
- llama.cpp terlalu cepat diperbarui sehingga sulit dijadikan paket stabil, tetapi bisa dipasang dari AUR
  Versi Vulkan, ROCm, dan CUDA semuanya didukung
- Sebaliknya, di openSUSE, llamacpp bisa ditemukan lewat zypper
  Karena versi dan dukungan berbeda-beda di tiap distro, inilah alasan mengapa pada akhirnya begitu banyak distro Linux yang ada
- Saya memasangnya di CachyOS dengan yay -S llama.cpp, dan hasilnya jauh lebih cepat dan lebih baik daripada Ollama
Nama “llama.cpp” sekarang terdengar kurang ramah
Dulu itu berarti model Llama dari Meta, tetapi sekarang sudah ada banyak model open source yang lebih kuat
- Tetapi “Ollama” juga punya masalah yang sama
  Sekarang nama “Local LLaMA” dipakai seperti sebutan umum untuk menjalankan model lokal
- Kalau melihat daftar merek dagang yang menjadi istilah umum di Wikipedia, fenomena seperti ini memang umum
Sejak awal saya menghindari Ollama karena terkesan ingin mengendalikan seluruh alur kerja
Pada akhirnya saya rasa itu adalah keputusan yang tepat
Struktur penyimpanan blob hash Ollama adalah jebakan terbesar
Kalau selama beberapa bulan sudah mengunduh model, saat pindah ke alat lain semuanya harus diunduh ulang
Kebanyakan pengguna baru menyadari hal ini setelah terlanjur berinvestasi dalam-dalam, lalu sangat merasakan biaya untuk berpindah

Ekosistem LLM lokal tidak membutuhkan Ollama

Masalah Ollama dan alternatif dalam ekosistem LLM lokal

Asal-usul dan peran awal Ollama

Kredit yang tidak layak terhadap llama.cpp

Peralihan ke backend sendiri dan penurunan performa

Pengenalan backend kustom berbasis ggml

Hasil perbandingan performa

Penamaan model yang menyesatkan

Kasus DeepSeek-R1

Peluncuran aplikasi tertutup

Distribusi GUI app yang tidak terbuka

Ketidakefisienan Modelfile

Tumpang tindih dengan format GGUF

Perubahan parameter yang tidak efisien

Masalah kompatibilitas template

Bottleneck pada registri model

Keterlambatan pendaftaran model

Batasan kuantisasi

Peralihan ke cloud dan masalah keamanan

Adopsi model cloud

Kerentanan keamanan

Struktur yang berpusat pada modal ventura

Pola yang berulang

Struktur vendor lock-in

Alat alternatif

llama.cpp

Alternatif lain

Kesimpulan: arah ekosistem LLM lokal

Bacaan terkait

3 komentar

Komentar Hacker News