13 poin oleh GN⁺ 2025-06-01 | 1 komentar | Bagikan ke WhatsApp
  • Mencari model yang bisa melakukan percakapan dasar di 5060ti + 16GB VRAM. Kalau bisa, sebaiknya cepat dan berjalan nyaris real-time

Ringkasan jawaban

  • Berbagai model 8B~14B dan 30B parameter dapat berjalan efisien di 16GB VRAM, dan yang paling sering direkomendasikan antara lain Qwen3, DeepSeek-R1, Mistral, Gemma3
  • Menjalankan LLM secara lokal punya keunggulan dari sisi performa, biaya, dan privasi, tetapi performa nyata dan kecocokan model tetap memerlukan eksperimen serta tuning individual
  • Berbagai tips optimasi pemanfaatan hardware juga banyak dibagikan, seperti ukuran file model, tingkat quantization (Q4~Q6, dll.), serta pemuatan terdistribusi antara GPU dan RAM
  • Tersedia berbagai alat seperti Ollama, LM Studio, llama.cpp, OpenWebUI, masing-masing dengan kelebihan dan kekurangan dalam aksesibilitas, fleksibilitas, dan kemudahan manajemen model
  • Informasi komunitas (misalnya Reddit LocalLLaMA) berguna untuk kabar terbaru dan tips praktis, tetapi perlu waspada terhadap berlebihan klaim dan misinformasi

Rekomendasi LLM utama dan tips pemakaian

  • Qwen3: Tersedia dalam berbagai ukuran parameter seperti 8B/14B/30B, dan model 8B~14B dapat digunakan dengan nyaman di 16GB VRAM. Performa reasoning-nya unggul, dan berkat arsitektur MoE (Mixture of Experts), beberapa model berukuran besar juga bisa dijalankan dengan offload ke RAM
  • DeepSeek-R1-0528-Qwen3-8B: Dinilai memiliki performa reasoning yang sangat baik di antara model 8B terbaru. Untuk 8B, cocok dijalankan dengan 4GB~8GB VRAM menggunakan quantization Q4~Q6
  • Mistral Small 3.1: Model 14B atau 24B sering direkomendasikan, dengan kualitas percakapan yang bagus dan tingkat censorship yang relatif lebih rendah. Secara khusus juga mendukung input gambar
  • Gemma3: Model dari Google yang kuat untuk percakapan intuitif. Namun dinilai memiliki kecenderungan HR yang kuat sehingga sering memberikan disclaimer. Hallucination juga relatif lebih sering
  • Devstral: Model besar berbasis Mistral. Ukuran 30B ke atas bisa menjadi lambat pada 16GB VRAM
  • Dolphin, Abliterated: Versi dengan censorship lebih rendah, berguna untuk situasi yang tidak rutin

Optimasi hardware dan lingkungan eksekusi

  • Pengaturan quantization: Semakin rendah angka quantization seperti Q4, Q5, Q6, semakin kecil penggunaan VRAM (Q4 ≒ parameter/2, Q6 ≒ parameter*0.75). Namun perlu memperhatikan potensi penurunan kualitas
  • Perkiraan kapasitas VRAM: Contoh - 8B Q4 membutuhkan 4GB, 14B Q4 membutuhkan 7GB, dan 30B Q4 membutuhkan sekitar 15GB VRAM
  • Offload ke RAM: Jika VRAM tidak cukup, sebagian layer bisa di-offload ke memori CPU. Namun konsekuensinya adalah penurunan kecepatan
  • Quantization KV cache: Saat ingin memperbesar context window, kompresi cache sekitar q4 direkomendasikan

Alat dan frontend

  • llama.cpp: Cepat dan fleksibel di berbagai platform. Mendukung REST API dan frontend React sederhana. Model dapat dimuat secara terdistribusi ke VRAM dan RAM
  • Ollama: Instalasi mudah dan pergantian model yang sederhana, serta mudah dihubungkan dengan frontend GUI. Namun ada keterbatasan pada dukungan model terbaru dan ukuran context
  • LM Studio: Nyaman untuk manajemen model di lingkungan GUI. Memiliki fitur prediksi kecocokan VRAM
  • OpenWebUI: Khusus frontend. Memerlukan backend seperti llama.cpp atau vllm. Bisa mengelola dan menguji beberapa model sekaligus
  • KoboldCPP, SillyTavern: Frontend khusus untuk role-playing, storytelling, game, dan sejenisnya

Komunitas dan informasi praktis

  • Reddit LocalLLaMA, HuggingFace, Discord: Banyak berbagi kabar model terbaru, cara penggunaan, benchmark, dan kiat setup. Namun perlu berhati-hati terhadap misinformasi atau gejala groupthink
  • Situs benchmark: livebench.ai, aider.chat, dan lainnya menyediakan skor serta peringkat model terbaru

Tujuan penggunaan dan pengalaman nyata

  • Privasi, penghematan biaya: Untuk data sensitif/isu privasi atau penggunaan berulang, model lokal sering lebih bermanfaat dibanding cloud
  • Kebebasan eksperimen dan tuning: Lebih fleksibel dibanding model API untuk fine-tuning domain khusus, strategi sampling, prompt engineering, dan lain-lain
  • Contoh penerapan: Berbagai contoh nyata seperti RAG (retrieval-augmented generation), integrasi dengan database lokal, otomasi agen, hingga asisten offline

Pertanyaan dan tips yang sering muncul

  • Perkiraan ukuran model: Jumlah parameter × bit (quantization)/8 = perkiraan kebutuhan VRAM (GB). Overhead dan context window juga perlu diperhitungkan
  • Karakteristik tiap model: Qwen3 untuk reasoning/koding, Gemma3 untuk intuisi/percakapan, Mistral dengan censorship lebih rendah, Dolphin/abliterated sebagai versi uncensored, dll.
  • Perbandingan performa: Disarankan mencari model yang paling cocok untuk kebutuhan sendiri melalui benchmark langsung dan pengujian kustom

Kesimpulan dan saran praktis

  • Tidak ada "model terbaik" yang mutlak; pendekatan terbaik adalah mencoba berbagai model 8B~14B terbaru seperti Qwen3, Mistral, Gemma3, dan lainnya sesuai hardware, kebutuhan, dan preferensi
  • Karena ukuran file model, quantization, ukuran context, dan spesifikasi sangat penting, akan lebih efektif untuk menguji beberapa model secara langsung dan memanfaatkan tips dari komunitas

1 komentar

 
GN⁺ 2025-06-01
Pendapat Hacker News
  • Jika ingin menjalankan LLM secara lokal, kamu bisa mendapat banyak bantuan dari komunitas localllama di Reddit
    Tidak ada model LLM yang bisa dibilang benar-benar "terbaik"; tiap model punya kelebihan dan kekurangan, jadi perlu mencoba beberapa sendiri
    Misalnya, model DeepSeek-R1-0528-Qwen3-8B dirilis hari ini dan menunjukkan performa penalaran logis terbaik di ukuran 8B
    Lalu seri Qwen3 juga baru keluar, menawarkan pendekatan hybrid, performa bagus, dan berbagai ukuran yang cocok untuk beragam hardware
    Qwen3-30B-A3B bisa dijalankan di CPU dengan kecepatan yang lumayan
    Bahkan model mini 0.6B pun cukup konsisten, yang cukup mengejutkan

    • Saat memakai llama-cpp, saya pernah melihat kasus di mana sebagian tensor di-offload ke CPU sambil tetap menjaga performa yang baik
      Biasanya di llama-cpp orang menentukan jumlah layer yang dimuat ke GPU (-ngl), tetapi jika tensor yang berat secara komputasi tidak dimuat, kita bisa menghemat ruang GPU lewat offloading ke CPU tanpa penurunan kecepatan
      Saya juga pernah membaca paper tentang memanggil hanya neuron yang "hot" dari CPU (tautan arxiv), dan saya berharap ke depan AI bisa dimanfaatkan dengan keren juga di rumah

    • Ada satu peringatan untuk orang yang tidak terbiasa memakai Reddit
      Di Reddit, termasuk LocalLlama, banyak misinformasi atau hoaks populer, dan rasio upvote/downvote tidak menjamin akurasi informasi
      Komentar yang akurat tapi penjelasannya membosankan justru bisa tidak populer, sementara penjelasan yang salah tetapi lucu, emosional, atau sesuai opini kelompok sering menjadi populer
      Orang seperti saya yang sudah lama nongkrong di web bisa menyaring secara kasar, tetapi kalau baru masuk ke ruang seperti ini yang kuat groupthink-nya, saya sarankan berhati-hati dalam menerima informasi

    • Belakangan ini, model apa pun pada dasarnya sudah cukup layak, jadi rasanya lebih seperti mencari "kepribadian model" yang sesuai selera
      OP tinggal unduh dan coba satu per satu saja
      Dengan memori 16GB, lewat llama.cpp dan partial offloading ke DDR5, model sampai 30B bisa dijalankan dengan kecepatan yang "lumayan", bahkan model dense juga; dengan tensor offloading hasilnya bisa lebih baik
      Qwen agak ada kekurangan sebagai model percakapan
      Mistral Nemo, Small, dan seri Llama 3.X juga masih pilihan yang sangat bagus untuk standar hari ini
      Gemma 3s bagus, tapi agak sulit ditebak
      Kalau butuh kelas GPT-4 di rumah, saya rekomendasikan QwQ
      Dan mungkin masih ada model bagus lain yang saya lupa

    • Saya penasaran apakah ada model rekomendasi untuk dipakai bersama tool coding seperti aider atau roo
      Pengalaman saya, cukup sulit menemukan model yang benar-benar bagus dalam penggunaan tool secara native

    • DeepSeek-R1-0528-Qwen3-8B adalah model hasil distilasi chain-of-thought dari DeepSeek-R1-0528 ke Qwen3-8B Base, dengan performa lebih dari 10% lebih tinggi daripada Qwen3-8B di AIME 2024 dan setara dengan Qwen3-235B-thinking
      Ini benar-benar menunjukkan betapa efektifnya distillation
      Sepertinya ini juga alasan banyak OpenAI atau lab riset belakangan menyembunyikan chain-of-thought (COT) (bacaan terkait)

  • Saya penasaran kebanyakan orang paling sering memakai local LLM untuk apa
    Kalau hardwarenya tidak sangat bagus, rasanya sulit menandingi model proprietari seperti Gemini atau Claude, jadi meskipun model kecil seperti ini tentu ada gunanya, saya ingin tahu contoh penggunaan yang konkret

    • Ada rasa enggan menyerahkan data ke pihak ketiga
      Banyak orang tidak ingin prompt atau pertanyaan mereka dikirim ke pihak luar

    • Saya biasanya mencoba model lokal dulu untuk sebagian besar prompt, dan di luar dugaan, lebih dari separuh kasus hasilnya sudah cukup bagus
      Setiap kali tidak perlu memakai layanan cloud, rasanya memuaskan

    • Menurut saya, masa depan local LLM akan berbentuk sistem yang cepat menilai tugas lalu cepat mendelegasikannya
      Misalnya memilih apakah tugas itu bisa ditangani oleh sistem lokal seperti MCP, apakah perlu pemanggilan API sistem seperti kalender atau email, atau apakah harus diteruskan ke model cloud yang paling cocok
      Saya membayangkannya seperti Siri yang benar-benar berfungsi dengan baik

    • Saat ini saya sedang bereksperimen dengan agen coding lokal buatan sendiri berbasis Devstral
      Hal yang saya sukai dibanding Codex adalah akses penuh ke hardware, sehingga ia bisa melakukan hal yang tidak bisa dilakukan Codex seperti menjalankan VM atau membuat request jaringan
      Selain itu, dari setup sampai pembuatan patch juga jauh lebih cepat daripada Codex
      Memang hasilnya belum setara Codex, tetapi Devstral cukup layak untuk perubahan kecil atau refactoring, dan saya berharap seiring evolusi software-nya nanti ia bisa menangani perubahan yang lebih besar juga

    • Secara prinsip saya sebisa mungkin tidak memakai cloud
      Misalnya, ada kabar bahwa OpenAI belakangan bahkan mengerjakan semacam layanan jejaring sosial untuk membagikan percakapan ChatGPT
      Kalau menjalankan secara lokal, saya juga jadi lebih memahami cara kerja internal AI sehingga nilai pasar saya ikut naik
      Saya bebas bereksperimen dengan backend LLM seperti web search atau agent, tidak terbebani biaya cloud, dan saat LLaMa pertama keluar saya memang sudah punya desktop gaming

  • Proyek LocalScore dari Mozilla juga layak diperhatikan
    Layanan ini membandingkan dan menganalisis seberapa baik berbagai model berjalan di berbagai hardware

  • Saya setuju dengan saran subreddit LocalLLama
    Tempat itu bukan untuk memilihkan "model terbaik", tetapi sangat membantu untuk bertanya, mencari panduan, mendapatkan kabar terbaru atau info tool, dan membandingkan berbagai model
    Pada akhirnya, prosesnya tetap mencoba sendiri beberapa model dan menyesuaikan parameter sampai menemukan yang paling cocok untuk tujuan kita
    Jika Anda pengguna Hacker News, mungkin layak mempertimbangkan melewati Ollama atau LMStudio
    Akses ke model terbaru bisa kurang baik, dan sering kali kita harus memilih hanya dari model yang sudah mereka uji
    Selain itu, ada sedikit rasa kehilangan karena tidak bisa "membuka kap mesin" dan melihat cara kerjanya di dalam
    Hanya dengan llamacpp pun sebagian besar model terbaru sudah didukung, dan jika perlu biasanya cepat diperbarui
    Saya lebih suka mengunduh model dari huggingface lalu memakai format GGUF untuk menghemat memori lewat quantization rendah
    Dari ukuran file GGUF biasanya kita bisa memperkirakan apakah akan muat di VRAM; misalnya GGUF 24GB terlalu berat untuk 16GB, sedangkan 12GB masih mungkin—tetapi jika context diperbesar, konsumsi RAM juga ikut naik
    Perhatikan juga context window; model lama kebanyakan hanya 8K context, dan meski disetel ke 32K efeknya sering tidak terlalu besar
    llamacpp bisa diunduh sebagai binary untuk Linux, Windows, dan macOS, atau dibangun sendiri, serta bisa membagi model di antara VRAM/RAM
    Ada frontend React sederhana (llamacpp-server) dan juga REST API mirip OpenAI
    Karena itu ia bisa terhubung dengan banyak frontend seperti oobabooga (textgeneration webui)
    Koboldcpp juga bisa dipertimbangkan sebagai backend jika llamacpp terasa terlalu kasar, meski di dalamnya tetap berbasis llamacpp

    • Daya tarik Ollama adalah bisa langsung mengambil GGUF apa pun dari HuggingFace dan menjalankannya seperti ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:Q8_0

    • Salah satu kelebihan Ollama adalah model bisa dengan mudah di-load/unload ke GPU, sehingga di frontend seperti librechat atau openwebui kita bisa mengganti model cukup lewat dropdown
      Saya ingin menekankan betapa praktisnya mengganti model tanpa perlu menyentuh command line

    • Ollama bisa mengubah desktop menjadi server LLM dan juga bisa diakses dari perangkat jarak jauh lewat WiFi
      Saat mengganti model, Ollama juga menyediakan swap yang mulus tanpa harus mematikan server
      Dalam kasus llama.cpp, lewat CLI kita harus mematikan server, memberi flag baru, lalu menjalankannya lagi, jadi kurang nyaman untuk eksperimen atau pengembangan aplikasi cepat
      Bahkan ada aplikasi buatan saya yang memang perlu bisa mengganti model seperti 1B, 8B, atau 30B hanya lewat parameter request web tanpa restart server

  • Saya cuma punya VRAM 8GB, tetapi dengan OpenWebUI sebagai frontend untuk Ollama saya memuat beberapa model sekaligus dan mengujinya bergantian dengan metode round robin
    Saya juga terus memantau hasil jawabannya sehingga dalam jangka panjang bisa memilih model mana yang lebih sesuai tujuan saya
    OpenWebUI memberi pengalaman penggunaan yang unik

    • Sebagai pengguna AMD 6700XT (12GB VRAM), setelah berhasil menyiapkan ROCm lokal, saya bisa menjalankan Ollama dengan akselerasi GPU tanpa masalah
      Menghubungkan instance OpenWebUI yang dijalankan via Docker ke server Ollama lokal juga cukup dengan mengatur satu variabel ENV
      Ini memang bukan production, melainkan lingkungan uji pribadi, tetapi untuk tujuan yang dijelaskan di atas pengalaman ini sangat cocok

    • Perlu diketahui bahwa OpenWebUI baru-baru ini mengubah lisensinya dan tidak lagi open source

  • Keluarga Qwen3 (dan distill R1 qwen3-8b) menempati posisi teratas untuk coding dan penalaran logis
    Namun, karena berasal dari Tiongkok, sensor untuk isu politik cukup kuat
    Untuk pengetahuan umum dunia dan informasi terbaru, saya merekomendasikan Gemma3
    Informasi di posting ini kemungkinan besar sudah usang sebulan lagi, jadi lihat benchmark terbaru di livebench.ai atau leaderboard aider.chat

    • Kecepatan perubahannya di luar bayangan
      Bukan hanya model, tetapi juga tool, router, MCP, library, dan SDK terus berevolusi
      Jika saya mengembangkan sendirian dan tidak punya rekan atau komunitas sekitar untuk berbagi info, saya butuh saran untuk memperoleh informasi dan mengikuti tren terbaru
  • Sumber informasi terbaik adalah HuggingFace
    Seri Qwen cukup bagus di banyak aspek, dan saya merekomendasikan model Qwen/Qwen3-14B-GGUF Q4_K_M
    Model ini hanya memakai sekitar 7–8GB VRAM, jadi bebannya ringan, dan saya merekomendasikan memakai llama-server atau LM Studio
    Llama 3.3 juga pilihan yang bagus
    Devstral terlalu besar sehingga realistisnya hanya bisa dicoba dalam bentuk model terkuantisasi
    Gemma memang sering menolak, tetapi berguna untuk tujuan tertentu seperti Medgemma
    Model Dolphin “Uncensored” dari Eric Hartford dan model abliterated layak direkomendasikan jika Anda butuh model yang tidak mudah menolak, misalnya untuk membuat lelucon atau tugas terkait keamanan dan pertahanan; untuk penggunaan harian ini tidak selalu perlu
    Dengan dtype bf16, kapasitas model tanpa quantization bisa dihitung sebagai jumlah parameter x2
    Jika memakai model quantized Q4_K_M (4-bit), kebutuhan VRAM kira-kira setengah dari jumlah parameternya
    Karena masih ada activation overhead dan lain-lain, saya sarankan mulai bereksperimen dari model yang jauh di bawah 16GB
    llama-server juga mendukung GUI dan pengunduhan model lewat opsi -hf
    LM Studio juga mudah untuk instalasi dan pengelolaan model
    Jika ingin respons cepat, server sebaiknya dijalankan sekali saja lalu model dipakai bersama untuk banyak query; kalau model dimuat ulang setiap pertanyaan, hasilnya akan lambat

  • Untuk 16GB, Mistral Small 3.1 Q4 quant atau Qwen3-14B FP8 bisa berjalan cukup nyaman tanpa beban besar
    Namun, tergantung penggunaan VRAM, saat memakai context length panjang, Qwen3-14B Q4 quant punya performa lebih rendah daripada FP8 tetapi memberi ruang memori lebih lega
    Mistral Small mendukung input gambar, sementara Qwen3 lebih unggul untuk matematika dan coding
    Menurunkan quantization di bawah Q4 tidak disarankan karena efisiensinya buruk
    Jika tujuannya context panjang, Qwen3-8B Q4 quant lebih baik, dan Qwen3-30B-A3 kemungkinan sedikit terlalu berat untuk VRAM 16GB karena model berat bisa memakan lebih dari 15GB dalam format GGUF
    Model dense (semua parameter digunakan) punya performa per parameter lebih baik dibanding model sparse, tetapi lebih lambat; pada GPU kelas 5060, 14B sudah cukup nyaman
    Jika memakai arsitektur Blackwell, model yang di-quantize ke NVFP4 lebih cepat daripada FP8, tetapi kualitasnya sedikit lebih rendah, dan di ollama belum didukung sehingga perlu memakai vLLM terpisah
    Dukungan untuk model NVFP4 yang sudah pre-quantized masih terbatas, jadi lebih disarankan melakukan quantization sendiri dengan llmcompressor atau alat serupa
    Sebaiknya alat seperti ini dipakai nanti saja setelah memilih LLM yang diinginkan dan ingin mengoptimalkan performanya

  • Jawaban yang objektif dan jelas soal LLM hampir mustahil, dan yang paling penting adalah pengalaman mencoba sendiri beberapa model terbaru pada tugas yang bermakna bagi Anda
    Perbedaan kualitas hasil bisa sangat besar tergantung jenis pekerjaannya

  • Banyak yang penasaran bagaimana biasanya orang memperkirakan penggunaan VRAM
    Sayangnya, pada info model yang bisa diunduh seperti gguf, kebutuhan VRAM/memori sering tidak tertulis jelas

    • Secara sangat kasar, jumlah parameter (dalam B) bisa dianggap sebagai kebutuhan memori dalam GB
      Contoh berdasarkan quantization:
      FP16 = 2 x 8GB = 16GB (model 8B)
      Q8 = 1 x 8GB, Q4 = 0.5 x 8GB = 4GB
      Di praktik nyata memang sedikit berbeda, tetapi biasanya tidak meleset jauh, dan memori tambahan seperti context length juga harus diperhitungkan terpisah
      Prinsipnya adalah jumlah nilai float x jumlah bit tipe data (4, 8, 16...)

    • Selain quantization, jika ingin menghitung lebih akurat termasuk KV cache, saya rekomendasikan memakai kalkulator VRAM