Show HN: Fine-tuning Llama dengan peningkatan kecepatan 80%, penggunaan memori 50% lebih rendah, dan kehilangan akurasi 0%
(github.com/unslothai)Peningkatan efisiensi tuning model QLoRA
- Model QLoRA/LoRA mencapai kecepatan 80% lebih tinggi dan penggunaan memori 50% lebih rendah melalui langkah backpropagation yang diturunkan secara manual.
- Semua kernel yang ditulis dengan bahasa Triton milik OpenAI dioptimalkan tanpa kehilangan akurasi.
- Dapat digunakan pada GPU NVIDIA tanpa perubahan perangkat keras (model sejak 2018, mendukung CUDA 7.5+).
- Pelatihan model yang efisien dimungkinkan melalui dukungan Flash Attention serta fine-tuning LoRA 4-bit dan 16-bit.
- Model Slim Orca dapat dilatih di lingkungan lokal dalam waktu yang dipangkas drastis dari 1301 jam menjadi 260 jam.
- Versi open source menawarkan pelatihan 5 kali lebih cepat, sedangkan jalur kode Unsloth Pro dan Max menawarkan pelatihan hingga 30 kali lebih cepat.
Petunjuk instalasi
- Unsloth hanya didukung pada distribusi Linux dan Pytorch versi 2.1 atau lebih baru.
- Dapat diinstal melalui Conda dan Pip, dengan memilih paket yang sesuai menurut versi CUDA.
Contoh model Alpaca
- Muat model Llama menggunakan FastLlamaModel, dan kurangi penggunaan memori melalui kuantisasi 4-bit.
- Tingkatkan performa dengan patch model dan penambahan bobot LoRA cepat.
- Pelatihan model dimungkinkan menggunakan Trainer dari Huggingface dan pemuatan dataset.
Tujuan dan keterbatasan ke depan
- Dukungan sqrt gradient checkpointing yang dapat mengurangi penggunaan memori 25% tambahan direncanakan.
- Saat ini hanya model Llama yang didukung, tetapi ada rencana untuk mendukung model lain di masa depan.
Perbandingan performa
- Saat menggunakan GPU Tesla T4, Unsloth menunjukkan waktu epoch yang jauh lebih cepat dan penggunaan memori yang lebih rendah dibandingkan Huggingface.
- Pada sistem GPU tunggal maupun multi-GPU, versi Pro dan Max dari Unsloth memberikan performa yang lebih tinggi.
Pemecahan masalah
- Menyediakan cara mengatasi ketika
bitsandbytesatauxformerstidak terhubung dengan benar. - Windows saat ini belum didukung, dan Unsloth akan mendukungnya jika Xformers dan Triton resmi mendukung Windows.
- Jika ada masalah saat instalasi, memperbarui
pipbisa menjadi solusinya.
Opini GN⁺
Poin terpenting dalam artikel ini adalah bahwa tuning model QLoRA/LoRA jauh lebih cepat dan jauh lebih efisien dalam penggunaan memori dibandingkan metode yang ada. Optimalisasi seperti ini dapat memangkas waktu dan biaya pelatihan model AI secara drastis, sehingga bisa menjadi solusi yang menarik bahkan bagi software engineer pemula. Selain itu, artikel ini memberikan contoh menarik tentang perkembangan teknologi open source dan bagaimana hal itu dapat meningkatkan aksesibilitas teknologi.
Belum ada komentar.