18 poin oleh GN⁺ 2023-08-16 | 3 komentar | Bagikan ke WhatsApp
  • Berkat LLaMA.cpp, yang menulis ulang kode inferensi LLaMA dalam C++ murni, model ini dapat dijalankan di berbagai perangkat keras seperti Pixel 5, MacBook Pro M2, dan Raspberry Pi
  • Model besar umumnya memerlukan GPU mahal, jadi bagaimana hal ini bisa terjadi?
  • GPU unggul untuk deep learning karena bandwidth memori dan kemampuan komputasinya yang besar, tetapi bandwidth memori sering kali menjadi bottleneck dalam inferensi
    • Ini karena untuk komputasi nyata, data harus dipindahkan dari memori HBM (RAM) ke memori on-chip
  • Quantization penting dalam penggunaan RAM untuk bobot LLaMA
    • Dengan menurunkan presisi, jumlah memori yang dibutuhkan untuk menyimpan model dapat dikurangi secara drastis
    • Melalui quantization, kebutuhan memori untuk menyimpan model berkurang sehingga model bisa muat di memori GPU pusat data standar maupun GPU konsumen kelas atas
  • Bandwidth memori adalah faktor pembatas dalam hampir semua pekerjaan yang terkait dengan sampling pada transformer
  • Jika kebutuhan memori dikurangi dengan metode seperti quantization, penyajian model menjadi jauh lebih mudah
  • Ini juga menjadi alasan lain untuk distillation atau "melatih model yang lebih kecil lebih lama"

3 komentar

 
breezymind 2023-08-17

Saya mencoba memuat llama2 dengan LlamaCpp di mesin lokal dan menguji embedding.

https://breezymind.com/llamacpp-embedding

 
xguru 2023-08-17

Komentar pertama di HN cukup membantu

"Bagi yang penasaran, perlu diketahui bahwa ada biaya saat model dikuantisasi.
https://oobabooga.github.io/blog/posts/perplexities/

Pada dasarnya, akurasi akan sedikit menurun dan jawaban aneh bisa muncul, serta kemungkinan menghasilkan respons yang melenceng atau berhalusinasi menjadi lebih tinggi. Namun, semakin banyak parameternya, semakin kecil penurunan kualitasnya. Jadi, jika ukuran modelnya sangat besar, perbedaannya bisa diabaikan. Selain itu, ini hanyalah biaya untuk inferensi. Pelatihan adalah masalah yang sama sekali berbeda dan membutuhkan daya yang jauh lebih besar.

Meski begitu, kita sudah melihat performa setingkat GPT-3 dalam satu rak server. Ini pencapaian yang luar biasa jika mengingat bahwa baru setahun lalu AI seperti ini benar-benar terasa seperti sihir, dan hanya bisa dijalankan di pusat data berskala besar. Menurut pemikiran awam saya, bandwidth dan kapasitas memori mungkin lebih mudah ditingkatkan daripada komputasi mentah, jadi mungkin tak lama lagi kita benar-benar akan memiliki perangkat yang "cerdas"."

 
GN⁺ 2023-08-16
Komentar Hacker News
  • Artikel tentang biaya kuantisasi model, kehilangan akurasi yang ditimbulkannya, dan kemungkinan respons yang tidak normal. Namun, semakin banyak parameter model, semakin tidak signifikan kehilangan ini.
  • Artikel yang menyoroti performa luar biasa GPT3, yang kini bisa berjalan di satu rak server, sebuah peningkatan besar dibanding AI tahun lalu yang memerlukan pusat data berskala besar.
  • Teks yang menunjukkan bahwa pembuatan token bersifat serial dan dibatasi bandwidth, tetapi penyisipan prompt tidak demikian dan dapat dijalankan pada batch 512+.
  • Llama.cpp kini memiliki kuantisasi ~4-bit yang tidak terlalu memengaruhi kompleksitas. Q6_K memiliki kompleksitas yang hampir sama dengan FP16 tetapi jauh lebih kecil.
  • Keajaiban sejati Llama.cpp adalah pemisahan model, yang memungkinkan GPU diskret kecil untuk meng-offload sepenuhnya penyisipan prompt dan sebagian inferensi model. Ini unik di ranah AI generatif.
  • Backend GPU (OpenCL, Metal, CUDA, segera ROCm dan Vulkan) adalah cara yang lebih disukai untuk menjalankan Llama.cpp. Tanpa ini, mustahil menjalankan 70B di desktop, atau 33B di laptop dengan RAM 16GB.
  • Proyek ini dipuji karena mudah diperluas dengan Go, Python, dan runtime lainnya. Dengan ini, dibuat alat yang menarik dan menjalankan banyak model dengan Go, lalu menyediakannya melalui REST API.
  • Menjalankan inferensi pada CPU modern dengan AVX2 lebih lambat daripada GPU, tetapi menawarkan keunggulan berupa satu wilayah RAM kontinu yang panjang. Namun, tidak adanya opsi untuk melakukan inferensi dengan selain fp32 pada CPU x86_64 sambil tetap menggunakan kuantisasi 4-bit adalah kekurangan besar.
  • Artikel tersebut menyebut replikasi yang berhasil untuk dataset 13B pada satu Pi4 8gig, dan dataset 65B pada tiga node pi4, yang menunjukkan aksesibilitas teknik ini.
  • Artikel itu dikritik karena sembarangan dalam menangani satuan saat membahas angka latensi.
  • Artikel tersebut menimbulkan pertanyaan tentang mengapa pembuat chip memasukkan begitu banyak unit fungsional ke dalam chip ketika sebagian besar beban kerja dibatasi oleh memori.
  • Artikel ini dipuji karena memuat hal-hal unik yang jarang ditemukan di luar Hacker News.
  • Teks tersebut membahas keterbatasan pada transformer decoder untuk pembuatan token yang dibatasi memori, dan mengharapkan model masa depan yang lebih ramah perangkat keras.
  • Artikel tersebut mempertanyakan mengapa perangkat keras khusus dirancang seperti itu mengingat bottleneck bandwidth memori yang signifikan, dan apakah perubahan paradigma perangkat lunak dapat mengubah keseimbangan ini.