- Menyediakan fitur pelengkapan otomatis teks berbasis LLM lokal di dalam VIM
- Saran otomatis saat kursor bergerak dalam mode
Insert
- Dapat beralih ke saran manual dengan
Ctrl+F
- Terima saran dengan
Tab
- Terima saran baris pertama dengan
Shift+Tab
- Dapat mengatur waktu maksimum pembuatan teks
- Dapat mengatur jangkauan konteks di sekitar kursor
- Membangun cincin konteks menggunakan potongan konteks dari file yang terbuka, file yang sedang diedit, dan teks yang disalin
- Mendukung konteks yang sangat besar melalui penggunaan ulang konteks cerdas bahkan pada perangkat keras berspesifikasi rendah
- Menampilkan statistik performa
Instalasi
- vim-plug :
Plug 'ggml-org/llama.vim'
- Vundle :
Konfigurasi llama.cpp
- Plugin ini memerlukan instance server llama.cpp yang berjalan di
g:llama_config.endpoint
- Mac OS :
brew install llama.cpp
- OS lain : build dari source atau gunakan binary terbaru: llama.cpp releases
Konfigurasi llama.cpp
- Rekomendasi pengaturan berdasarkan kapasitas VRAM:
- 16GB VRAM atau lebih:
Qwen2.5-Coder-7B-Q8_0-GGUF
- Kurang dari 16GB VRAM:
Qwen2.5-Coder-3B-Q8_0-GGUF
- Kurang dari 8GB VRAM:
Qwen2.5-Coder-1.5B-Q8_0-GGUF
- Untuk detail lebih lanjut, lihat
:help llama
LLM yang direkomendasikan
Detail implementasi
- Plugin ini menargetkan pelengkapan FIM lokal yang sederhana dan ringan, sekaligus memberikan performa berkualitas tinggi bahkan pada perangkat keras kelas konsumen
IDE lain
1 komentar
Komentar Hacker News
Disarankan untuk melihat detail teknis implementasi server, yang memuat ide-ide menarik dan keren. Plugin ini juga bisa digunakan di VS Code. Performa meningkat berkat caching di sisi klien.
Pengguna ini telah banyak berkontribusi pada ekosistem AI open source, dan diharapkan dapat memperoleh pendanaan yang cukup agar bisa terus mengembangkan perangkat lunak dan merilisnya sebagai open source yang benar-benar "tanpa syarat".
Ada pendapat bahwa integrasi alat LLM yang lebih erat dengan LSP, compiler, dan alat analisis statis lainnya dapat memberikan lebih banyak konteks dan keluaran yang lebih baik. Akan bagus jika LLM bisa di-fine-tune per bahasa dan dibundel bersama alat editor umum. Juga disorot bahwa alat AI bekerja lebih baik untuk bahasa yang sudah lama dan populer, dan ini bisa menjadi faktor penting saat memilih bahasa. Akan menarik jika bisa memasang model khusus Gleam yang menerima data dari LSP dan compiler agar tidak menghasilkan sintaks yang salah.
Ada rasa penasaran tentang bagaimana "ring context" bekerja, sekaligus usulan solusi untuk cara mengelola cache KV dalam proyek serupa. Idenya adalah mempertahankan pohon token dan menyimpan snapshot penuh state LLM pada interval kedalaman tetap, sehingga saat buffer berubah hanya beberapa token yang perlu "diputar ulang". Mungkin ada sifat matematis tentang bagaimana bagian penting dari state bekerja.
Kursor yang berkedip di video demo bikin jantung berdebar, tetapi tetap terlihat sangat keren. Ada juga rasa penasaran tentang bagaimana Linux berjalan di perangkat keras M*.
Ada yang bertanya-tanya apakah plugin ini sama dengan versi VSCode.
Ada rasa penasaran tentang apa yang akan mungkin terjadi dalam 10 tahun ke depan dengan hardware konsumen dan peningkatan kuantisasi. Saat ini bahkan GPU 24GB pun belum bisa menyamai performa layanan hosting.
Ada preferensi untuk coding di terminal, dan saat mentok bisa menggunakan
askdsuntuk melakukan analisis yang lebih mendalam dari terminal.Ada yang penasaran apakah llama bisa dipakai di hardware kelas menengah, dan menduga crash terjadi karena kekurangan RAM. VRAM 2G dan RAM sistem 16G terasa tidak cukup, dan meskipun pada kebanyakan produk Apple memori terintegrasi bekerja dengan baik, di luar itu tampaknya dibutuhkan GPU Nvidia mahal dengan VRAM besar. Ada pertanyaan apakah tersedia opsi yang lebih murah.
Ada yang meminta saran dari orang yang memahami bidang ini, sambil mencari cara membeli kartu grafis dengan harga masuk akal untuk menjalankan LLM secara lokal.