ExLlamaV2: library inferensi cepat untuk menjalankan LLM lokal di GPU biasa

(github.com/turboderp)

3 poin oleh GN⁺ 2023-09-14 | 1 komentar | Bagikan ke WhatsApp

Library inferensi yang dirancang untuk menjalankan LLM lokal di GPU seperti 3090/4090
Ini adalah rilis awal dan kodenya masih dalam tahap pengujian, dengan beberapa fitur utama yang belum diimplementasikan
Dibandingkan V1, ExLlamaV2 memiliki kernel yang lebih cepat dan lebih baik, basis kode yang lebih rapi dan beragam, serta mendukung format kuantisasi baru
Bergantung pada ekstensi Torch C++ untuk fungsi CUDA, yang dikompilasi saat runtime. Saat library pertama kali digunakan, proses ini memerlukan 10-20 detik, tetapi ekstensi tersebut akan di-cache untuk penggunaan berikutnya
Mendukung model GPTQ 4-bit yang sama seperti V1, tetapi juga mendukung format baru "EXL2" yang dapat mencapai bitrate rata-rata antara 2-bit hingga 8-bit dengan mencampur tingkat kuantisasi di dalam model
Pemilihan parameter untuk kuantisasi dilakukan secara otomatis, dan disediakan skrip untuk mengkuantisasi model
Disebutkan juga bahwa beberapa model yang dikuantisasi dengan EXL2 telah diunggah ke HuggingFace agar pengguna bisa mencobanya
Rencana ke depan mencakup paket PyPi dengan ekstensi yang sudah dibangun sebelumnya, dukungan LoRA, contoh web UI, web server, dan lebih banyak sampler

1 komentar

GN⁺ 2023-09-14

Opini Hacker News

Artikel ini membahas Exllamav2, pustaka inferensi baru yang memungkinkan menjalankan model bahasa (LLM) di GPU konsumen.
Ini bisa menjadi momen pertama ketika LLM besar dapat dijalankan di GPU konsumen dengan kecepatan yang kompetitif, dengan potensi melampaui GPT-3.5-turbo atau GPT-4.
Pustaka ini menggunakan metode unik untuk mengkuantisasi lapisan atau modul yang berbeda guna meminimalkan perplexity sambil menyesuaikan parameter.
Ada minat untuk membandingkan performa GPU lain seperti 3090 dan 4090, serta bagaimana keduanya menangani model yang berbeda.
Artikel ini juga menyebut penambahan dukungan ROCm yang masih tahap awal, dan memicu rasa ingin tahu tentang bagaimana RTX4090/3090 akan dibandingkan dengan seri 7900.
Para pembaca tertarik pada perbandingan kecepatan dan bagaimana model besar bekerja di perangkat keras kelas atas seperti kartu Nvidia kelas atas.
Ada pertanyaan tentang performa model yang membutuhkan beberapa kartu agar bisa dijalankan dalam memori.
Artikel ini juga memicu diskusi tentang rilis tersebut di subreddit "Local LLaMA".
Para pembaca penasaran tentang efek mengecilkan model ke lebar bit tunggal, dan apakah model itu masih berfungsi atau justru menghasilkan omong kosong.
Ada pertanyaan tentang biaya ELX2 dan benchmark perplexity, serta beberapa keluhan tentang Facebook yang membuat llama v2 menjadi 70B alih-alih 65B.
Para pembaca mencari informasi lebih lanjut tentang kuantisasi EXL2/GPTQ, yang tampaknya menjadi penyebab utama peningkatan kecepatan pada model ini.
Ada perbandingan antara "70B Llama 2" dan ChatGPT 3.5/4.0, beserta pertanyaan tentang performa relatif mereka.

ExLlamaV2: library inferensi cepat untuk menjalankan LLM lokal di GPU biasa

Bacaan terkait

1 komentar

Opini Hacker News