3 poin oleh GN⁺ 2023-09-14 | 1 komentar | Bagikan ke WhatsApp
  • Library inferensi yang dirancang untuk menjalankan LLM lokal di GPU seperti 3090/4090
  • Ini adalah rilis awal dan kodenya masih dalam tahap pengujian, dengan beberapa fitur utama yang belum diimplementasikan
  • Dibandingkan V1, ExLlamaV2 memiliki kernel yang lebih cepat dan lebih baik, basis kode yang lebih rapi dan beragam, serta mendukung format kuantisasi baru
  • Bergantung pada ekstensi Torch C++ untuk fungsi CUDA, yang dikompilasi saat runtime. Saat library pertama kali digunakan, proses ini memerlukan 10-20 detik, tetapi ekstensi tersebut akan di-cache untuk penggunaan berikutnya
  • Mendukung model GPTQ 4-bit yang sama seperti V1, tetapi juga mendukung format baru "EXL2" yang dapat mencapai bitrate rata-rata antara 2-bit hingga 8-bit dengan mencampur tingkat kuantisasi di dalam model
  • Pemilihan parameter untuk kuantisasi dilakukan secara otomatis, dan disediakan skrip untuk mengkuantisasi model
  • Disebutkan juga bahwa beberapa model yang dikuantisasi dengan EXL2 telah diunggah ke HuggingFace agar pengguna bisa mencobanya
  • Rencana ke depan mencakup paket PyPi dengan ekstensi yang sudah dibangun sebelumnya, dukungan LoRA, contoh web UI, web server, dan lebih banyak sampler

1 komentar

 
GN⁺ 2023-09-14
Opini Hacker News
  • Artikel ini membahas Exllamav2, pustaka inferensi baru yang memungkinkan menjalankan model bahasa (LLM) di GPU konsumen.
  • Ini bisa menjadi momen pertama ketika LLM besar dapat dijalankan di GPU konsumen dengan kecepatan yang kompetitif, dengan potensi melampaui GPT-3.5-turbo atau GPT-4.
  • Pustaka ini menggunakan metode unik untuk mengkuantisasi lapisan atau modul yang berbeda guna meminimalkan perplexity sambil menyesuaikan parameter.
  • Ada minat untuk membandingkan performa GPU lain seperti 3090 dan 4090, serta bagaimana keduanya menangani model yang berbeda.
  • Artikel ini juga menyebut penambahan dukungan ROCm yang masih tahap awal, dan memicu rasa ingin tahu tentang bagaimana RTX4090/3090 akan dibandingkan dengan seri 7900.
  • Para pembaca tertarik pada perbandingan kecepatan dan bagaimana model besar bekerja di perangkat keras kelas atas seperti kartu Nvidia kelas atas.
  • Ada pertanyaan tentang performa model yang membutuhkan beberapa kartu agar bisa dijalankan dalam memori.
  • Artikel ini juga memicu diskusi tentang rilis tersebut di subreddit "Local LLaMA".
  • Para pembaca penasaran tentang efek mengecilkan model ke lebar bit tunggal, dan apakah model itu masih berfungsi atau justru menghasilkan omong kosong.
  • Ada pertanyaan tentang biaya ELX2 dan benchmark perplexity, serta beberapa keluhan tentang Facebook yang membuat llama v2 menjadi 70B alih-alih 65B.
  • Para pembaca mencari informasi lebih lanjut tentang kuantisasi EXL2/GPTQ, yang tampaknya menjadi penyebab utama peningkatan kecepatan pada model ini.
  • Ada perbandingan antara "70B Llama 2" dan ChatGPT 3.5/4.0, beserta pertanyaan tentang performa relatif mereka.