Menjalankan LLM secara lokal

(abishekmuthian.com)

27 poin oleh GN⁺ 2024-12-30 | Belum ada komentar. | Bagikan ke WhatsApp

Informasi berguna untuk mulai menjalankan LLM lokal bisa diperoleh dari subreddit r/LocalLLaMA dan blog Ollama

Konfigurasi perangkat keras

Menggunakan laptop berbasis Linux dengan CPU Core i9 (32 thread), GPU 4090 (VRAM 16GB), dan RAM 96GB
Model yang muat di VRAM berjalan cepat, sedangkan model besar dapat di-offload ke RAM sehingga kecepatannya bisa menurun
Tidak memerlukan komputer berperforma tinggi; model kecil juga dapat berjalan di GPU lama atau bahkan CPU

Ollama: middleware yang mencakup pustaka Python dan JavaScript untuk menjalankan Llama.cpp, digunakan di Docker
Open WebUI: menyediakan antarmuka yang ramah untuk input teks dan gambar
llamafile: dapat menjalankan LLM sebagai satu berkas eksekusi
AUTOMATIC1111 dan Fooocus: alat pembuat gambar, dengan ComfyUI digunakan untuk alur kerja yang kompleks
Continue: mendukung pelengkapan kode otomatis di VSCode
Obsidian Smart Connections: menyediakan kemampuan untuk melakukan kueri pada catatan menggunakan Ollama

Mengunduh LLM terbaru melalui halaman model Ollama
Melacak pembaruan model dengan RSS
Mengunduh model pembuat gambar dari CivitAI (perhatian: beberapa model dioptimalkan untuk pembuatan gambar dewasa)
Model yang terutama digunakan:
- Llama3.2: digunakan untuk kueri umum dan Smart Connections
- Deepseek-coder-v2: pelengkapan kode di VSCode
- Qwen2.5-coder: percakapan terkait kode
- Stable Diffusion: pembuatan gambar

Saat ini tidak melakukan fine-tuning maupun kuantisasi (menghindari beban kerja bersuhu tinggi dalam waktu lama karena kemungkinan adanya cacat CPU)

Menjalankan LLM secara lokal memberikan kontrol penuh atas data dan latensi respons yang rendah
Hal ini dimungkinkan berkat proyek open source dan model gratis
Isi akan diperbarui saat menggunakan alat atau model baru