Panduan Llama.cpp – Cara Menjalankan LLM secara Lokal dari Awal di Semua Perangkat Keras

(steelph0enix.github.io)

2 poin oleh GN⁺ 2024-11-30 | 1 komentar | Bagikan ke WhatsApp

1 komentar

GN⁺ 2024-11-30

Meningkatnya penulisan blog adalah hal yang positif, tetapi cara membangun llama.cpp terasa rumit
- Dengan perintah ccmake ., parameter bisa diatur sesuai perangkat keras lalu dibangun
Berbagi pengalaman berhasil menjalankan Llama.cpp di laptop Dell lama
- Berjalan bahkan dengan spesifikasi minimum, dan meski lambat tetap memberikan jawaban yang akurat
- Ingin mencoba menjalankan model yang lebih besar di perangkat keras yang lebih baik
Ingin memasang Llama.cpp, tetapi akhirnya memasang kobold.cpp yang UX-nya lebih baik
Berbagi pengalaman mencoba build di Windows dan AMD
- Vulkan dan MSYS2 adalah cara termudah untuk menjalankannya
Pertanyaan tentang keterbatasan LLM yang didukung oleh Llama.cpp
- Penasaran apakah hanya model transformer tertentu yang didukung
Berbagi pengalaman beralih ke Ollama
- Pengaturan server dan klien Ollama bekerja dengan sederhana
Menekankan bahwa Ollama bukan sekadar wrapper sederhana untuk llama.cpp
- Ollama menyediakan berbagai fitur untuk antarmuka model dan packaging
Pertanyaan tentang alasan menggunakan Llama.cpp alih-alih antarmuka web ChatGPT
- Penasaran apakah privasi adalah alasan utamanya
Menggunakan ChatGPT dan Claude setiap hari, tetapi belum menemukan alasan untuk memakai LLM di luar layanan-layanan tersebut
Diskusi tentang Ollama dan menjalankan llama.cpp secara langsung
- Pengaturan CUDA tidak selalu mudah, dan inferensi lokal bisa lebih cepat
- Menjalankan PyTorch lebih mudah, dan model AWQ dapat dipasang dengan sederhana