26 poin oleh GN⁺ 3 hari lalu | 3 komentar | Bagikan ke WhatsApp
  • Ollama awalnya adalah alat yang menyederhanakan menjalankan LLM lokal, tetapi kemudian kehilangan kepercayaan karena menyembunyikan asal-usul dan beralih ke pendekatan berpusat pada cloud
  • Dengan mengecilkan kontribusi llama.cpp sebagai mesin inti dan beralih ke backend ggml buatannya sendiri, muncul penurunan performa dan bug yang sebelumnya sudah diperbaiki kembali muncul
  • Kritik komunitas terus berlanjut karena penamaan model yang menyesatkan, distribusi aplikasi GUI tertutup, dan struktur Modelfile yang tidak efisien
  • Kemacetan registry model, kerentanan keamanan, dan struktur vendor lock-in bertentangan dengan filosofi local-first
  • Alternatif open source seperti llama.cpp, LM Studio, Jan sudah menyediakan performa lebih tinggi dan transparansi lebih baik serta menjadi pusat ekosistem LLM lokal

Masalah Ollama dan alternatif dalam ekosistem LLM lokal

  • Asal-usul Ollama dan peran awalnya

    • Ollama menarik perhatian sebagai wrapper llama.cpp pertama yang menyederhanakan menjalankan LLM lokal
      • Pengguna bisa menjalankan model tanpa harus membangun C++ sendiri atau mengatur server
    • Setelah itu, Ollama menyembunyikan sumber asal, menyesatkan pengguna, dan menjauh dari filosofi local-first menuju struktur berpusat pada cloud yang didorong modal ventura
    • Pendiri perusahaan adalah Jeffrey Morgan dan Michael Chiang, yang sebelumnya membuat GUI Docker Kitematic, lalu diakuisisi oleh Docker Inc.
    • Berasal dari Y Combinator (W21), dirilis secara publik pada 2023, dan mengusung slogan “Docker for LLMs
  • Kredit yang tidak semestinya terhadap llama.cpp

    • Fitur inferensi Ollama sepenuhnya bergantung pada llama.cpp karya Georgi Gerganov
    • Selama lebih dari 1 tahun, tidak ada penyebutan llama.cpp di README, situs web, maupun materi pemasaran, dan bahkan pemberitahuan lisensi MIT juga tidak dicantumkan
    • Isu komunitas yang meminta kepatuhan lisensi (#3185) tidak mendapat respons selama lebih dari 400 hari
    • Setelah itu, salah satu co-founder hanya menambahkan satu baris di bagian bawah README: “llama.cpp project founded by Georgi Gerganov”
    • Pihak Ollama mengatakan bahwa “kami melakukan banyak patch dan secara bertahap akan beralih ke mesin kami sendiri”, sehingga secara sengaja mengecilkan kredit

Peralihan ke backend sendiri dan penurunan performa

  • Penerapan backend kustom berbasis ggml

    • Pada pertengahan 2025, Ollama beralih dari llama.cpp ke implementasi buatannya sendiri berbasis ggml
    • Alasan yang dikemukakan adalah stabilitas, tetapi hasilnya justru menghidupkan kembali bug yang sebelumnya sudah diperbaiki
    • Muncul banyak masalah seperti error output terstruktur, kegagalan model vision, dan crash assertion GGML
    • Model terbaru seperti GPT-OSS 20B tidak berjalan atau mengalami masalah tipe tensor yang tidak didukung
    • Gerganov secara langsung menyatakan bahwa Ollama fork ggml dengan cara yang keliru
  • Hasil perbandingan performa

    • Dalam benchmark komunitas, llama.cpp 1,8x lebih cepat daripada Ollama (161 vs 89 tokens/s)
    • Di CPU juga ada selisih performa 30~50%
    • Pada pengujian Qwen-3 Coder 32B, llama.cpp menunjukkan throughput 70% lebih tinggi
    • Penyebabnya adalah arsitektur daemon Ollama, offloading GPU yang tidak efisien, dan backend yang ketinggalan zaman

Penamaan model yang menyesatkan

  • Kasus DeepSeek-R1

    • Ollama menampilkan model terdistilasi seperti DeepSeek-R1-Distill-Qwen-32B hanya sebagai “DeepSeek-R1”
    • Padahal itu bukan model 671B parameter yang sebenarnya, tetapi tetap memakai nama yang sama
    • Akibatnya, pengguna salah paham dan mengira mereka telah menjalankan “DeepSeek-R1 secara lokal”, sehingga merusak reputasi DeepSeek
    • Isu GitHub terkait (#8557, #8698) semuanya ditandai duplikat dan tetap belum diselesaikan
    • Sampai sekarang, ollama run deepseek-r1 tetap menjalankan model terdistilasi

Rilis aplikasi tertutup

  • Distribusi GUI app secara privat

    • Pada Juli 2025, aplikasi GUI Ollama untuk macOS dan Windows dirilis
    • Aplikasi itu dikembangkan di repository privat, didistribusikan tanpa lisensi, dan source code-nya tidak dibuka
    • Untuk proyek yang sebelumnya mempertahankan citra open source, ini merupakan pergeseran tajam ke arah tertutup
    • Komunitas menyoroti kemungkinan ketergantungan pada AGPL-3.0 dan kekhawatiran pelanggaran lisensi
    • Situs web menempatkan tombol unduh di samping tautan GitHub, sehingga memberi kesan seolah-olah tetap open source
    • Setelah berbulan-bulan diam, barulah pada November 2025 aplikasi itu digabungkan ke repository utama
    • XDA mengkritik bahwa “proyek yang mengklaim open source harus jelas apakah benar terbuka atau tidak

Inefisiensi Modelfile

  • Duplikasi terhadap format GGUF

    • Format GGUF sudah memuat semua informasi yang dibutuhkan untuk menjalankan model dalam satu file
    • Ollama menambahkan file konfigurasi terpisah bernama Modelfile, dengan struktur mirip Dockerfile
    • Ini mendefinisikan ulang informasi yang sudah ada di GGUF dan menambah kompleksitas yang tidak perlu
    • Ollama hanya mengenali daftar template yang di-hardcode secara otomatis, sementara template baru diabaikan
    • Akibatnya, format instruksi model bisa rusak, dan pengguna harus melakukan konversi manual
  • Perubahan parameter yang tidak efisien

    • Untuk mengubah parameter, pengguna harus mengekstraknya lewat ollama show --modelfile, mengeditnya, lalu membuat ulang dengan ollama create
    • Dalam proses ini, seluruh model 30~60GB disalin ulang
    • Komunitas menyebutnya sebagai “duplikasi yang tidak efisien dan tidak perlu
    • Di llama.cpp, parameter cukup diatur lewat argumen command line
  • Masalah kompatibilitas template

    • Ollama menggunakan sintaks template Go, yang tidak cocok dengan template Jinja yang umum dipakai pembuat model
    • LM Studio dan llama.cpp mendukung Jinja secara langsung, sedangkan Ollama memerlukan konversi
    • Banyak laporan bahwa error konversi menyebabkan format percakapan rusak

Kemacetan pada registry model

  • Keterlambatan pendaftaran model

    • Saat model baru muncul di Hugging Face, Ollama baru bisa memakainya setelah dipaketkan dan didaftarkan secara langsung
    • Format kuantisasi yang didukung juga terbatas seperti Q4_K_M dan Q8_0
    • Akibatnya, ada jeda waktu dari rilis model sampai bisa dipakai di Ollama
    • Di komunitas, beredar posting PSA yang menyarankan “untuk menguji model baru, pakailah llama.cpp atau vLLM
  • Batasan kuantisasi

    • Ollama tidak mendukung seri Q5, Q6, dan IQ
    • Bahkan ketika pengguna memintanya, jawabannya adalah “gunakan alat lain”
    • Perintah ollama run hf.co/{repo}:{quant} kini memungkinkan pemanggilan langsung dari Hugging Face, tetapi file tetap disalin ke penyimpanan hash internal dan tidak bisa dibagikan, sementara masalah template juga tetap ada

Peralihan ke cloud dan masalah keamanan

  • Pengenalan model cloud

    • Pada akhir 2025, Ollama menambahkan model yang di-host di cloud
    • Meski merupakan alat yang berfokus pada lokal, sebagian model kini mengirim prompt ke server eksternal
    • Saat memakai model pihak ketiga seperti MiniMax, data dapat dikirim ke luar
    • Ollama menyatakan “tidak menyimpan log”, tetapi kebijakan pihak ketiga tetap tidak jelas
    • Untuk model berbasis Alibaba Cloud, tidak ada jaminan retensi data
  • Kerentanan keamanan

    • CVE-2025-51471: kerentanan yang memungkinkan server registry berbahaya mencuri token autentikasi
    • PR perbaikannya sudah ada, tetapi tidak diterapkan selama berbulan-bulan
    • Untuk alat yang menjadikan privasi lokal sebagai nilai inti, ini merupakan masalah struktural yang serius

Struktur yang berpusat pada modal ventura

  • Pola yang berulang

    • Membungkus proyek open source untuk mengumpulkan basis pengguna → menarik investasi → beralih ke monetisasi
    • Langkah bertahap Ollama:
      • Dimulai sebagai open source, dibangun di atas llama.cpp
      • Mengecilkan asal-usul, lalu dikemas seolah produk independen
      • Mendorong lock-in lewat registry model dan format sendiri
      • Merilis GUI tertutup
      • Memperkenalkan layanan cloud untuk monetisasi
  • Struktur vendor lock-in

    • Ollama menyimpan model dengan nama file berbasis hash, sehingga sulit dipakai alat lain
    • GGUF memang bisa diimpor, tetapi ekspor dirancang agar tidak praktis
    • Struktur ini membuat pengguna terikat pada ekosistem Ollama

Alat alternatif

  • llama.cpp

    • Menyediakan server API kompatibel OpenAI (llama-server), web UI, kontrol parameter yang rinci, dan throughput tinggi
    • Pada Februari 2026, ggml.ai bergabung dengan Hugging Face, sehingga keberlanjutannya makin terjamin
    • Berlisensi MIT dan melibatkan lebih dari 450 kontributor
  • Alternatif lain

    • llama-swap: mendukung loading multi-model dan hot-swap
    • LiteLLM: menyediakan proxy kompatibel OpenAI di berbagai backend
    • LM Studio: berbasis GUI, memakai llama.cpp, dan sepenuhnya kompatibel dengan GGUF
    • Jan, Msty: aplikasi desktop open source dengan desain local-first
    • koboldcpp, Red Hat ramalama: menjalankan model berbasis container dengan atribusi asal yang jelas

Kesimpulan: arah ekosistem LLM lokal

  • llama.cpp karya Georgi Gerganov adalah fondasi inovasi AI lokal
    • Melalui kolaborasi komunitas, model yang kuat bisa dijalankan bahkan di hardware konsumen
  • Ollama memang tumbuh di atas fondasi itu, tetapi kehilangan kepercayaan karena menyembunyikan asal-usul, menurunkan kualitas, menjadi tertutup, dan beralih ke cloud
  • Yang dibutuhkan ekosistem LLM lokal bukanlah Ollama, melainkan llama.cpp
    • Keterbukaan sejati dan performa tinggi sudah disediakan oleh alat-alat yang berpusat pada komunitas

3 komentar

 
shblue21 3 hari lalu

Saya cukup setuju, dan untuk benar-benar memakainya secara baik di lingkungan lokal, sepertinya LM Studio lebih bagus.

 
kirinonakar 3 hari lalu

Saya juga awalnya mulai dengan ollama, tetapi belakangan ini sudah lama beralih ke lm studio.

 
GN⁺ 3 hari lalu
Komentar Hacker News
  • Sebagian besar pengguna LLM lokal merasa masalah UX terselesaikan berkat Ollama
    Model bisa dijalankan dengan satu baris perintah, dan driver ROCm juga ditangani otomatis
    Sebaliknya, llama.cpp dari namanya saja terdengar seperti library C++, sehingga sulit didekati pengguna umum
    Saya cuma tidak ingin membangun program sendiri, saya hanya ingin mencobanya dengan santai

    • Sekarang llama.cpp pada dasarnya sudah menyertakan GUI. Dulu tidak ada, tetapi sekarang zamannya sudah berubah
    • Ada banyak alternatif seperti “LM Studio, Jan, Msty, koboldcpp…”, tetapi saya penasaran siapa sebenarnya penerus yang layak menggantikan Ollama
      Saya memakai Mac Mini, tetapi alat CLI juga tidak masalah. Kekuatan Ollama adalah instalasi mudah dan unduhan model yang praktis, jadi saya berharap alat pengganti juga punya tingkat kemudahan serupa
    • Mengusulkan kobold.cpp atau LM Studio. LM Studio memang bukan open source, tetapi memberi kredit yang layak kepada llama.cpp
      Saya rasa kontrol kualitas itu penting agar dukungan model tidak digabungkan dalam keadaan rusak atau GGUF yang salah tidak diunggah
    • Setuju. Ini situasinya mirip dengan Docker
      Tentu saja kita bisa langsung memakai runc, tetapi kebanyakan orang memilih docker run
      UX adalah faktor inti dalam adopsi teknologi, dan kalau sebuah proyek tidak bisa membuat antarmuka yang baik, tidak ada alasan mengapa membuat wrapper itu buruk
    • Hanya karena Ollama menyelesaikan masalah UX bukan berarti pelanggaran lisensi jadi dapat dimaafkan
  • Saya lelah mengulang klaim yang sama, jadi saya rangkum sekaligus linimasa dan sumber yang saya tahu

    • Mengucapkan terima kasih karena telah menulis artikel ini. Saya juga sedikit berkontribusi ke llama.cpp, dan tindakan para pendiri Ollama benar-benar mengecewakan
      Sebagai alternatif, saya merekomendasikan llama-file. llamafile dari Mozilla AI berjalan sebagai satu executable di berbagai OS dan sepenuhnya open source
      Ini berbasis CosmopolitanC buatan Justine Tunney, dan secara resmi memakai llama.cpp
    • Sebagai orang yang mementingkan semangat FOSS, ini adalah artikel yang sangat edukatif
    • Katanya ada banyak hal yang sebelumnya tidak ia ketahui
    • Ringkasan dan linimasanya dinilai sangat bagus
  • Menurut saya Ollama 1000 kali lebih baik dalam kemudahan penggunaan
    llama.cpp memang hebat, tetapi tidak ramah untuk pengguna umum
    Saya mulai dengan Ollama, tetapi pindah ke llama.cpp demi perbaikan terbaru
    Meski begitu, saya masih memakai Ollama untuk manajemen model. Sangat nyaman sampai saya membuat skrip sendiri untuk mengelola direktori cache

    • Di tulisan blog dibilang alternatif-alternatif itu intuitif, tetapi kenyataannya tidak begitu
      Mungkin untuk aplikasi chat sederhana iya, tetapi kalau butuh API kompatibel OpenAI dan manajemen model, aksesibilitasnya langsung turun drastis
    • Banyak keluhan bahwa context size bawaan Ollama terlalu kecil sehingga model terasa bodoh
      Untuk mengubahnya secara permanen, harus membuat file model baru, dan itu justru lebih rumit
      Pendekatan ala Docker malah terasa tidak nyaman bagi pengguna umum, dan menurut saya pengguna tingkat lanjut lebih baik memakai llama.cpp
    • Sebagai catatan, sekarang llama.cpp sudah menambahkan mode router sehingga model bisa diganti secara real-time
    • Versi terbaru jauh lebih kuat. Bisa dilihat di llama.cpp tools/serv
    • Saya sudah memakai LM Studio sejak 3 tahun lalu, dan bahkan saat itu pun sudah jauh lebih baik daripada Ollama
  • Merangkum dua sudut pandang terhadap lisensi MIT

    1. “Asal kasih kredit satu baris, apa pun boleh”
    2. “Secara hukum memang bebas, tetapi ada tanggung jawab moral terhadap komunitas
      Pencipta llama.cpp, Georgi Gerganov, hanya menyatakan keberatan atas tidak dicantumkannya kredit. Artinya, tindakannya lebih dekat ke tafsir pertama
    • Saya rasa tafsir kedua tidak masuk akal. Jika ingin kewajiban GPL, ya pakai GPL
      MIT adalah dokumen hukum, bukan pedoman moral
      Secara pribadi, saya rasa lebih baik memakai GPL untuk perangkat lunak yang ditujukan kepada pengguna
      Memakai MIT lalu mengeluh karena perusahaan mengambil kodenya itu kontradiktif
      Menurut saya, perusahaan tidak punya moral, hanya manusialah yang punya
    • Kalau Georgi mau, kapan saja ia bisa menggantinya ke GPL. Tetapi ia tidak melakukannya
      Pada akhirnya kedua proyek terus berkembang, dan pengguna mendapat lebih banyak pilihan
  • Dulu ini merepotkan karena folder model bawaan tidak bisa diubah
    Untuk mendaftarkan model, harus melewati proses mirip Dockerfile, dan model disalin ke penyimpanan hash sehingga lokasinya tidak bisa diubah
    Karena itu saya pindah ke LM Studio. Memang bukan sepenuhnya open source, tetapi folder modelnya diekspos dan terintegrasi dengan Hugging Face

    • Sekarang sudah bisa. Jalurnya dapat ditentukan lewat variabel lingkungan OLLAMA_MODELS di file konfigurasi server
    • Saya juga sempat kesulitan karena masalah ini. Saat ingin membandingkannya dengan LM Studio sebelum dan sesudah upgrade SSD, proses mencari dan merapikan lokasi model terasa terlalu rumit dan menyakitkan tanpa perlu
  • Karena Ollama menyalin file model ke penyimpanan blob berbasis hash, file tersebut tidak bisa dibagikan dengan alat lain
    Mungkin ini dirancang untuk deduplikasi, tetapi hasilnya justru membuat uji coba alat lain jadi sulit
    Karena ukuran file model sangat besar, ruang penyimpanan dan unduhan menjadi beban besar

  • Di Arch Linux, pacman -Ss ollama menghasilkan 16 hasil, tetapi llama.cpp atau lmstudio menghasilkan 0
    Semoga suatu hari berubah

    • llama.cpp terlalu cepat diperbarui sehingga sulit dijadikan paket stabil, tetapi bisa dipasang dari AUR
      Versi Vulkan, ROCm, dan CUDA semuanya didukung
    • Sebaliknya, di openSUSE, llamacpp bisa ditemukan lewat zypper
      Karena versi dan dukungan berbeda-beda di tiap distro, inilah alasan mengapa pada akhirnya begitu banyak distro Linux yang ada
    • Saya memasangnya di CachyOS dengan yay -S llama.cpp, dan hasilnya jauh lebih cepat dan lebih baik daripada Ollama
  • Nama “llama.cpp” sekarang terdengar kurang ramah
    Dulu itu berarti model Llama dari Meta, tetapi sekarang sudah ada banyak model open source yang lebih kuat

  • Sejak awal saya menghindari Ollama karena terkesan ingin mengendalikan seluruh alur kerja
    Pada akhirnya saya rasa itu adalah keputusan yang tepat

  • Struktur penyimpanan blob hash Ollama adalah jebakan terbesar
    Kalau selama beberapa bulan sudah mengunduh model, saat pindah ke alat lain semuanya harus diunduh ulang
    Kebanyakan pengguna baru menyadari hal ini setelah terlanjur berinvestasi dalam-dalam, lalu sangat merasakan biaya untuk berpindah