Bereksperimen dengan LLM lokal di macOS

(blog.6nok.org)

11 poin oleh GN⁺ 2025-09-09 | 3 komentar | Bagikan ke WhatsApp

Penjelasan tentang cara menjalankan LLM lokal di macOS dan alat yang direkomendasikan
LLM lokal adalah model bahasa kecerdasan buatan yang dapat dijalankan di komputer pribadi, sehingga privasi data tetap terjaga sekaligus memungkinkan eksplorasi teknologi eksperimental
Dengan memanfaatkan berbagai model open-weight, LLM lokal berguna untuk ringkasan teks dan pencatatan pribadi, tetapi tidak memiliki kreativitas atau kemampuan berpikir
Dua alat utama yang dapat dijalankan di macOS adalah llama.cpp dan LM Studio, yang masing-masing menawarkan open source dan UI yang ramah pengguna
Saat memilih model, perlu mempertimbangkan kapasitas memori, runtime, tingkat kuantisasi, serta kemampuan visi dan penalaran
Menjalankan LLM lokal membantu melindungi privasi dan memuaskan rasa ingin tahu teknis, sementara model kecil memberi nilai eksperimental sebagai alternatif model besar

Pendahuluan: sudut pandang pribadi tentang LLM dan cara memakainya

Artikel ini membahas pengalaman memasang dan bereksperimen langsung dengan LLM lokal (Local Large Language Model) di macOS
Penulis bersikap skeptis terhadap LLM, tetapi menyukai eksperimen dengan teknologi baru sehingga mencoba mengunduh dan memakainya sendiri
Pandangannya berada di antara anggapan bahwa LLM hanyalah autocomplete tingkat lanjut dan klaim yang memperlakukannya seolah makhluk dengan emosi dan hak
Pada praktiknya, LLM memang berbasis prediksi kata berikutnya, tetapi juga menunjukkan perilaku kompleks yang tidak disengaja (kemampuan emergen)
LLM tidak memiliki kreativitas ataupun kesadaran diri; mesin yang lebih maju mungkin muncul di masa depan, tetapi teknologi saat ini belum sampai ke tahap itu

Contoh penggunaan utama LLM

Sangat berguna untuk ringkasan teks, penyediaan informasi internet, dan informasi medis sederhana
Dalam kasus penulis, LLM dipakai untuk brain-dumping (menuangkan pikiran) dan berguna saat membutuhkan lawan bicara
Fokusnya bukan pada jawaban itu sendiri, melainkan hanya sebagai sarana pencatatan
Penting untuk tidak terlalu berempati atau memanusiakan kecerdasan buatan
Perilaku respons model bisa diatur lewat system prompt, tetapi penulis cenderung tidak terlalu memikirkannya

Kekhawatiran soal produktivitas dan keandalan

Penulis tidak setuju dengan klaim bahwa LLM meningkatkan ‘produktivitas’
Karena ada masalah keandalan jawaban (omong kosong, halusinasi), cek fakta tetap wajib dilakukan
Menghindari pertanyaan yang sulit diverifikasi membantu mencegah pencemaran informasi

Alasan menggunakan LLM lokal

Ada kesenangan dalam eksperimen teknis dan rasa takjub melihat komputer merespons bahasa alami secara lokal
Saat hanya berjalan di komputer sendiri, ada keuntungan dari sisi privasi dan perlindungan informasi sensitif
- Banyak layanan AI komersial menyimpan data pengguna secara terpisah dan memanfaatkannya untuk pelatihan
Karena ketidakpercayaan pada perusahaan AI komersial, masalah etika, promosi berlebihan, kerusakan lingkungan, dan pelanggaran hak cipta, penulis lebih memilih model open source lokal

Cara menjalankan LLM di macOS

Dua alat utama yang bisa dipakai di macOS adalah llama.cpp dan LM Studio
1. llama.cpp (open source)
- Dikembangkan oleh Georgi Gerganov
- Menyediakan opsi konfigurasi yang beragam dan mendetail, mendukung banyak platform, serta menawarkan unduhan model dan web UI sederhana
- Contoh:
  - Dengan perintah llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF, model yang direkomendasikan Gemma 3 4B QAT dapat dijalankan
  - Saat membuka http://127.0.0.1:8080 di browser, tersedia UI minimal mirip ChatGPT yang cocok untuk eksperimen
2. LM Studio (closed source, mudah digunakan)
- Menawarkan UI yang intuitif dan canggih, fitur penelusuran/unduhan model/manajemen percakapan, serta panduan apakah model bisa dijalankan atau tidak
- Memiliki guardrail bawaan untuk mencegah sistem down akibat memuat model yang terlalu besar
- Di macOS, mendukung penggunaan dua runtime: llama.cpp dan engine MLX dari Apple
  - MLX lebih cepat, tetapi pengaturan rinci lebih terbatas
- Tips penggunaan utama:
  - Model bisa diganti di tengah percakapan
  - Bisa membuat branch percakapan dan melakukan berbagai eksperimen
  - Pesan pengguna dan pesan asisten sama-sama bisa diedit
  - Mendukung pembuatan dan penggunaan ulang preset system prompt
  - Bisa mengatur cara menangani konteks saat jendela konteks terlampaui (dengan pengaturan default seperti mempertahankan pesan awal/akhir)

Kriteria memilih model LLM yang baik

Ukuran model: RAM adalah kendala utama, bukan kapasitas disk
- Di lingkungan dengan RAM 16GB, model 12GB atau lebih kecil direkomendasikan; jika melebihi itu, sistem bisa menjadi tidak stabil
- Semakin besar model, semakin lambat, dan jika memori kurang, seluruh sistem bisa menjadi tidak stabil
Pemilihan runtime:
- llama.cpp dan runtime bawaan LM Studio memerlukan model berformat GGUF
- Runtime MLX di LM Studio memerlukan model khusus MLX
- Model GGUF stabil di berbagai platform dan kaya opsi pengaturan
- Model MLX memberi performa yang sedikit lebih cepat di Apple Silicon
Kuantisasi (Quantization): keseimbangan antara performa model dan efisiensi memori
- Sebagian besar LLM dilatih dengan presisi 16-bit
- Bahkan jika dikuantisasi ke bit yang lebih rendah seperti 4-bit, penurunan performanya relatif kecil sampai tingkat tertentu; umumnya Q4 cocok
- Ada notasi kuantisasi kernel yang rumit seperti Q4_K_M, tetapi pemula disarankan memakai nilai default
Model visi: model yang dapat memproses gambar
- Beberapa model bisa menganalisis input gambar dengan melakukan tokenisasi (membaca teks, mengenali objek, memperkirakan emosi/gaya, dll.)
- Untuk OCR sederhana bisa dipakai, tetapi keandalannya masih di bawah alat OCR khusus
Kemampuan penalaran: beberapa model menyertakan proses berpikir sebelum menghasilkan jawaban
- Beberapa model menambahkan proses penalaran sebelum menghasilkan jawaban, sehingga fungsi ‘berpikir’ lebih kuat dibanding model umum
- Model kecil yang dioptimalkan untuk penalaran bisa melampaui model umum menengah-besar tertentu (tercermin dalam benchmark)
- Model penalaran membutuhkan waktu lebih lama untuk menjawab dan lebih cepat memenuhi jendela konteks
Penggunaan alat: bisa memanggil alat eksternal
- Dengan token pemanggilan alat, model dapat memanfaatkan fungsi MCP (server alat) yang ditentukan lewat system prompt
- Di LM Studio, penambahan dan pengelolaan alat mudah dilakukan, tetapi pemanggilan alat berpotensi menjadi ancaman keamanan (kemungkinan serangan kebocoran data) sehingga secara default memerlukan konfirmasi pengguna
- Secara bawaan tersedia JavaScript MCP (berbasis Deno), yang memungkinkan otomatisasi seperti komputasi kompleks, analisis data, dan pembuatan bilangan acak
- Jika menambahkan MCP pencarian web, hasil pencarian real-time dapat dimasukkan sehingga model dengan pengetahuan terbatas bisa diperluas kemampuannya
- Jika memerlukan memori jangka panjang, berbagai server ekstensi seperti MCP untuk Obsidian juga dapat digunakan
  - Namun, karena MCP cepat memenuhi konteks, sebaiknya hanya diaktifkan saat benar-benar diperlukan
Agents
- Agent berarti struktur model yang menggunakan alat secara berulang
- Model yang menggabungkan kemampuan penalaran dan penggunaan alat umumnya diklasifikasikan sebagai agent
- Belum sempurna, tetapi menawarkan konsep yang menantang dan menarik

Model rekomendasi dan tips penggunaan

Di UI bawaan LM Studio, runtime, kuantisasi, karakteristik model, dan ukuran dapat dibandingkan serta dijelajahi dengan mudah
Untuk llama.cpp, bagian model GGUF di Hugging Face dapat dimanfaatkan
Karena tidak banyak model yang memenuhi semua kemampuan sekaligus, disarankan mengunduh berbagai model dan bereksperimen
Daftar model rekomendasi:
- Gemma 3 12B QAT: unggul dalam kecerdasan visi, cepat, dan menghasilkan teks yang bagus
- Qwen3 4B 2507 Thinking: kecil, unggul dalam kecepatan/kualitas, tersedia versi penalaran dan versi umum
- GPT-OSS 20B: performa terbaik saat ini, mendukung penalaran 3 tahap, lambat tetapi paling mumpuni
- Phi-4 (14B) : dulu menjadi favorit, dan kini masih tersedia versi penalaran + versi umum

Penutup dan tips penggunaan

Meski model kecil belum bisa sepenuhnya menggantikan model terbaru berskala besar, kegunaan eksekusi lokal tetap jelas
Pengujian lokal membantu memahami cara kerja algoritme dan meningkatkan kemampuan untuk menutupi kelemahannya
LM Studio menampilkan penggunaan jendela konteks secara real-time
- Tepat sebelum konteks penuh, meminta model merangkum isi percakapan efektif untuk menjaga informasi penting
Anggap LLM lokal sebagai semacam ‘jin digital (Genie) di dalam komputer pribadi’ dan nikmati pengalaman eksperimen yang menyenangkan

3 komentar

tensun 2025-09-11

Pakai qwen3:4b di ollama itu bagus.

yolatengo 2025-09-11

Tidak ada pembahasan tentang Ollama ya.

GN⁺ 2025-09-09

Opini Hacker News

Aku juga takjub bagaimana rasanya seperti sulap: cukup unduh file sekitar 10GB, lalu laptop bisa melakukan ringkasan teks, menjawab pertanyaan, bahkan penalaran sederhana. Yang penting adalah keseimbangan antara ukuran model dan RAM. Di mesin 16GB, batasnya kira-kira dekat di 12B~20B. Namun model-model seperti ini sebenarnya tidak memakai Apple Neural Engine (ANE), melainkan berjalan di GPU melalui Metal. Core ML masih belum terlalu bagus untuk runtime kustom, dan Apple juga tidak menyediakan akses pengembang tingkat rendah ke ANE. Ada juga isu terkait bandwidth memori dan SRAM. Semoga suatu hari Apple bisa memetakan beban kerja transformer ke ANE dengan baik lewat optimasi Core ML
- Aku sudah lama merasa Apple butuh CEO baru. Kalau aku yang memimpin Apple, aku akan agresif mengadopsi local LLM dan membuat inference engine yang juga mengoptimalkan model yang dirancang untuk Nvidia. Aku juga akan menjual prosesor Apple Silicon kelas server dan membuka spesifikasi GPU agar semua orang bisa memanfaatkannya sendiri. Apple terasa terlalu sering bermain aman. Tim Cook memang hebat sebagai COO, tapi dia masih menjalankan perusahaan dengan pola itu. Sekarang menurutku yang dibutuhkan bukan COO, melainkan inovator
- Dari informasi reverse engineering (termasuk kasus akses langsung ke ANE di Asahi Linux), Apple Neural Engine pada M1/M2 tampaknya hanya dioptimalkan untuk MADD yang dijadwalkan statis dengan nilai INT8 atau FP16. Model lokal terbaru makin agresif dikuantisasi, sehingga saat nilai model dipadding ke FP16/INT8, bandwidth memori jadi terbuang. Sebaliknya, GPU bisa dengan cepat melakukan dekuantisasi input dan memaddingnya di register sebelum memasok ke unit matriks, sehingga bandwidth memori dipakai lebih efisien. Meski begitu, NPU/ANE tetap bisa berguna untuk hal seperti prapemrosesan prompt. Pada bagian ini, batasannya lebih pada throughput komputasi daripada generasi token, jadi pemakaian daya bisa ditekan dan batas pendinginan juga bisa dihindari. Info tambahan: Whisper.cpp Pull Request, info ANE lama, ringkasan detail dari tinygrad. M3/M4 belum didukung Asahi, jadi bagaimana perkembangannya nanti masih belum jelas. Seri M3 juga tampaknya tidak jauh berbeda performanya dari M2
- Kalau berharap workload transformer bisa berjalan baik di ANE, sebenarnya sudah ada alat untuk mengonversi model.<br>Cara mengonversi model dari TensorFlow, PyTorch, dan lainnya ke Core ML: CoreML Tools Docs
- Aku juga merasa menarik bahwa Apple Neural Engine belum terintegrasi dengan local LLM. Apple, AMD, dan Intel semuanya tampaknya belum benar-benar berhasil mendukung NPU di llama.cpp. Aku penasaran kenapa begitu
- Aku menjalankan GLM 4.5 Air dan gpt-oss-120b dengan cukup layak. Latensi GPT OSS khususnya lumayan bagus. Ini di MacBook M4 128GB. Sekarang memang sangat bertenaga, tapi sebentar lagi akan terasa biasa. Model-model seperti ini kini mulai mendekati model state-of-the-art
Sampai sekarang local LLM terasa terlalu terbatas, seperti ChatGPT versi awal tahun 2022, jadi aku belum benar-benar menemukan use case yang sangat berguna. Aku penasaran apakah komunitas punya contoh penggunaan yang bermanfaat. Misalnya ada cerita local LLM mengarang wawancara dengan Sun Tzu, dan keterbatasan seperti itu cukup menggangguku. Jadi aku ingin tahu sebenarnya ini bisa dipakai untuk apa
- Aku sudah mencoba banyak LLM, dan di MacBook 48GB ke atas, Gemma3:27b adalah yang terbaik untuk menganalisis jurnal pribadi atau data sensitif. Model asal Tiongkok terlalu komikal saat memberi nasihat hidup. Misalnya, ketika aku curhat ke Deepseek, ia malah menyusun rencana hidup ala Konfusianisme. Gemma terasa jauh lebih bernuansa Barat
- Local LLM kebanyakan kupakai untuk otomasi yang bukan berbasis fakta. Misalnya klasifikasi, ringkasan, pencarian, pemeriksaan ejaan, dan sejenisnya. Model itu tetap perlu memahami bahasa atau konsep sehari-hari yang kuinginkan, tetapi tidak harus menguasai seluruh sejarah manusia, bahasa pemrograman, atau kesehatan. Bahkan kita tidak harus mem-prompt LLM secara langsung; OS atau aplikasi bisa dibuat agar otomatis memakai LLM kapan pun diperlukan
- Aku mencatat semua emosi, pikiran, dan aktivitas di Obsidian. Karena aku tidak mau catatan yang sangat pribadi seperti ini diunggah ke cloud, aku mengelolanya dengan chromeDB lalu bercakap-cakap dengannya memakai LLM. Belakangan ini aku juga memakai model abliterated yang sudah menghapus refusal (penghapusan refusal di transformers). Aku juga memakainya untuk pekerjaan. Aku membuat mcp untuk mengotomatisasi pekerjaan data finansial, dan karena modelnya berjalan lokal, aku tidak khawatir soal kebocoran informasi
- Ini juga bisa dipakai di lingkungan yang internetnya buruk atau sering putus. Bahkan LLM yang bukan state-of-the-art tetap jauh lebih baik daripada tidak ada sama sekali. Misalnya, ketika internet mati karena badai, kamu tetap bisa langsung mendapatkan panduan keselamatan yang dibutuhkan dari local LLM
- Aku memakai model lokal untuk membuat prototipe aplikasi atau pada tahap awal pengembangan.<br>Pertama, biaya pengembangan jelas berkurang. Kedua, keterbatasan performa justru membantu karena memaksa kita menyusun komposisi dengan lebih hati-hati. Kalau alur kerja sudah dirancang memakai model lokal yang cukup layak (gpt-oss, qwen3, dan sebagainya), saat nanti diganti ke model cloud (misalnya gpt-5-mini), performanya bisa langsung naik. Tentu saja, kalau semua dokumen bisa dimasukkan ke context window model cloud dan hasilnya sudah bagus, tidak ada alasan kuat untuk menerima keterbatasan model lokal. Tapi dalam jangka panjang, membagi task dan menjalankannya secara lokal mungkin justru lebih murah dan lebih cepat
Aku pernah menjalankan Hermes Mistral, dan sejak awal halusinasinya parah. Belakangan ini aku menyimpan jurnal mimpi audio secara pribadi di folder Obsidian. Aku menerima file .wav lewat Whisper, mengubahnya menjadi teks, lalu ingin local LLM hanya memperbaiki tanda baca dan paragraf. Aku bilang jangan tambahkan apa pun, cukup tingkatkan keterbacaan, tapi Hermes tiba-tiba mulai mengarang wawancara Sun Tzu tentang The Art of War. Saat prosesnya kuhentikan, ia minta maaf tetapi juga tidak bisa menjelaskan kenapa tiba-tiba Sun Tzu muncul. Kalau harus terus menangkap halusinasi aneh seperti ini, lebih baik aku edit sendiri. Logika ini berlaku untuk hampir semua bidang yang ingin memanfaatkan local LLM. Semoga suatu saat membaik
- Dulu aku mengira akurasi atau “jawaban benar” akan mudah bagi komputer selama logikanya tepat. Sebaliknya, aku menduga orisinalitas dan kreativitaslah yang sulit karena bersifat nonlogis. Tapi justru kemampuan AI untuk mengarang hal-hal aneh jauh lebih menonjol, dan itu membuatku heran. Pada akhirnya, mungkin ini konsekuensi wajar karena kita melatih AI dengan komunikasi manusia. Memasukkan data seperti Reddit sebagai sumber pelatihan mungkin memang bukan keputusan terbaik. Kalau memasukkan Reddit, ya yang keluar juga Reddit
Menurutku era menjalankan LLM state-of-the-art langsung di ponsel atau laptop masih jauh. Yang lebih realistis dalam waktu dekat adalah punya kotak server AI di rumah untuk menjalankan LLM. Thin client seperti laptop cukup terhubung ke kotak itu, dan bila perlu memproses hal yang sesuai dengan model kecil secara lokal. Kalau Apple melanjutkan strategi seperti ini lewat Mac Pro, rasanya masuk akal. Kotak LLM rumahan seharga 10.000~20.000 dolar pun masih bisa diterima
- Saat ini kamu sudah bisa menjalankan model open source terbaru di Mac Studio dengan memori 512GB (sekitar 10.000 dolar). Contohnya video Qwen3-Coder-480B-A35B-Instruct berjalan di 4bit dengan kecepatan 24 token per detik, Deep Seek V3 0324 di 4bit dengan 20 token per detik. Dua Mac Studio juga bisa digabungkan dengan MLX untuk menjalankan model yang lebih besar. Contoh DeepSeek R1 671B 8bit
- Menurutku Mac Pro terlalu mahal hanya karena biaya casing besarnya, jadi kurang praktis. Studio lebih masuk akal. Nvidia dan AMD juga kabarnya akan segera mendukung GPU memory bandwidth tinggi dalam jumlah besar di desktop form factor. Akan sangat ideal kalau laptop atau perangkat lain bisa terhubung ke server LLM rumahan, lalu dipakai tanpa khawatir baterai di sisi lokal
- Dalam kasusku, aku menjalankan beberapa container docker di AMD 395+ dan mengoperasikan berbagai aplikasi. Aku terutama memakai Qwen Code dan model GPT OSS 120b. Begitu generasi baru dirilis, aku berniat upgrade meski mahal. Menurutku memang sepadan
- Harga 10.000~20.000 dolar itu bagi kebanyakan orang benar-benar tidak masuk akal. Dengan gaji Silicon Valley mungkin bisa, tapi bahkan Apple Vision Pro yang jauh lebih murah pun penjualannya lesu
- Bukankah gpt-oss-120b memberi performa lebih baik dengan kebutuhan memori yang jauh lebih kecil? Dengan Mac Studio 128GB seharga 4.000 dolar saja seharusnya sudah cukup untuk menjalankannya
Tidak terkait topik, tapi teks efek gelombang pada paragraf pertama “opinions” itu mengesankan
- Terima kasih. Itu memang inti utama dari seluruh postingan
Aku pikir local LLM adalah masa depan. Seiring waktu, ini akan terus membaik. Jika model setingkat tahun lalu saja bisa didistribusikan, tidak ada alasan besar untuk terus memakai ChatGPT, Anthropic, atau layanan cloud lain. Kita juga tidak membutuhkan satu model besar yang mengerjakan segalanya. Gagasan memanggil beberapa model kecil sesuai tugas masing-masing kini jadi kenyataan. Tidak ada lagi moat
- Performa local LLM memang akan terus membaik, tetapi aku kurang yakin kapan ini akan benar-benar praktis bagi orang awam. Kemampuan penalaran dan coding model lokal memang melonjak pesat, tetapi alasannya berasal dari perbaikan data pelatihan (RLHF, DPO, CoT, dan lain-lain) serta kemajuan teknis. Meski begitu, hal yang benar-benar penting adalah meminimalkan halusinasi melalui keluaran statistik murni dari kumpulan parameter full precision yang sangat besar, dan jarak perangkat keras antara model seperti itu dan konsumen umum masih sangat lebar. Menurutku setidaknya masih butuh lebih dari 10 tahun
- Menurutku masa depan justru ada pada cloud computing yang aman dan privat
Dalam blog atau tulisan tentang penggunaan local LLM, seharusnya selalu disebutkan perangkat keras apa yang dipakai untuk pengujian
- Pendapat bagus, akan kutambahkan catatan singkat secepatnya
Aku pilih LM Studio. Pilihan konfigurasinya beragam, jadi intuitif untuk memahami apa yang bisa dilakukan MacBook-ku dan bagaimana cara mengaturnya. Pengalaman 1~2 jam yang sangat bagus
- Sudah termasuk tool CLI dan server yang kompatibel dengan OpenAI secara bawaan. Kamu bisa memuat model dan membuka endpoint untuk dipakai juga di skrip lokal. Bisa dipahami dulu lewat antarmuka chat, lalu setelah itu diperluas secara terprogram
Aku punya hobi mengunduh model secara acak dan menjalankannya di Mac Mini 16GB, dan daftar rekomendasi model dari penulis sangat membantu. Menyisakan hanya 4~5 model per ukuran untuk dicoba ternyata paling efisien
Mozilla-Ocho/llamafile juga layak dilihat