Show HN: Fine-tuning Llama dengan kecepatan 80% lebih tinggi, penggunaan memori 50% lebih rendah, dan kehilangan akurasi 0%

(github.com/unslothai)

2 poin oleh GN⁺ 2023-12-03 | 1 komentar | Bagikan ke WhatsApp

Unsloth menyediakan Unsloth Studio untuk menjalankan dan melatih model secara lokal, serta Unsloth Core berbasis kode; mendukung model teks, audio, embedding, dan vision di Windows, Linux, WSL, dan macOS
Fitur pelatihannya mendukung fine-tuning, RL, dan pretraining untuk lebih dari 500 model, dengan target performa utama: pelatihan hingga 2x lebih cepat, penggunaan VRAM hingga 70% lebih rendah, dan tanpa kehilangan akurasi
Fitur inferensinya mencakup pencarian, pengunduhan, dan eksekusi model GGUF, adaptor LoRA, dan model safetensors; ekspor model; tool calling; pencarian web; eksekusi kode; serta endpoint inferensi API lokal
Unsloth Studio secara default bind ke localhost; --secure menggunakan tunnel HTTPS Cloudflare, sementara -H 0.0.0.0 dapat mengekspos port mentah ke luar, sehingga perlindungan API key dan penggunaan --disable-tools menjadi penting
Lisensinya memakai struktur ganda Apache 2.0 dan AGPL-3.0; paket Core berlisensi Apache 2.0, sementara beberapa komponen opsional seperti Studio UI berlisensi AGPL-3.0

Yang disediakan Unsloth

Unsloth Studio (Beta) adalah UI web untuk menjalankan dan melatih model secara lokal
- Berjalan di Windows, Linux, WSL, dan macOS
- Mendukung model teks, audio, embedding, dan vision
Unsloth Core adalah versi berbasis kode, dengan persyaratan yang berbeda dari Studio
Perintah instalasi awal disediakan per sistem operasi
- macOS, Linux, WSL: curl -fsSL https://unsloth.ai/install.sh | sh
- Windows: irm https://unsloth.ai/install.ps1 | iex

Fitur inferensi

Mendukung pencarian, pengunduhan, dan eksekusi model, dengan format target yang mencakup GGUF, adaptor LoRA, dan safetensors
Model dapat disimpan atau diekspor ke GGUF, safetensors 16-bit, dan format lainnya
Tool calling mendukung auto-healing tool calling dan pencarian web
Eksekusi kode memungkinkan LLM menguji kode dalam lingkungan Claude artifacts dan sandbox
Melalui endpoint inferensi API, LLM lokal dapat di-deploy dan dijalankan bersama Claude Code dan Codex tools
Dapat terhubung ke penyedia API seperti OpenAI dan Anthropic, atau ke server seperti vLLM dan Ollama
Dapat melakukan chat dengan gambar, audio, PDF, kode, DOCX, dan lainnya
Disebutkan bahwa mereka memperbaiki bug yang meningkatkan akurasi model melalui kolaborasi langsung dengan tim terkait gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1-3, dan Phi-4

Fitur pelatihan dan performa

Unsloth mendukung pelatihan dan RL untuk lebih dari 500 model
- Pelatihan hingga 2x lebih cepat
- VRAM hingga 70% lebih rendah
- Tanpa kehilangan akurasi
Menggunakan Triton kustom dan kernel matematika
- Tautan ke contoh kolaborasi FP8 reinforcement learning dengan PyTorch
- Tautan ke contoh kolaborasi MoE yang lebih cepat dengan Hugging Face
Data Recipes secara otomatis membuat dataset dari PDF, CSV, DOCX, dan lainnya, serta memungkinkan pengeditan data dalam workflow node visual
Reinforcement learning disebut menggunakan VRAM hingga 80% lebih rendah untuk GRPO, FP8, dan lainnya
Metode pelatihan yang didukung mencakup full fine-tuning, RL, pretraining, pelatihan 4-bit, 16-bit, dan FP8
Fitur observability memungkinkan pemantauan status pelatihan secara real time serta mendukung loss, penggunaan GPU, dan kustomisasi grafik
Mendukung pelatihan Multi-GPU, dengan peningkatan besar yang akan segera tersedia

Instalasi dan persyaratan menjalankan

Unsloth Studio berjalan di Windows, Linux, WSL, dan macOS
- CPU: saat ini mendukung Chat dan Data Recipes
- NVIDIA: mendukung pelatihan di RTX 30/40/50, Blackwell, DGX Spark, Station, dan lainnya
- macOS: mendukung pelatihan, MLX, dan inferensi GGUF
- AMD: mendukung Chat dan Data; pelatihan menggunakan Unsloth Core, sementara dukungan Studio akan segera tersedia
- Multi-GPU: sudah tersedia saat ini, dengan upgrade besar yang direncanakan
Perintah untuk menjalankan Studio adalah unsloth studio -p 8888
Image Docker tersedia sebagai container unsloth/unsloth
Instalasi Unsloth Core menyediakan contoh berbasis uv dan Python 3.13
- Linux, WSL: setelah uv venv unsloth_env --python 3.13, jalankan uv pip install unsloth --torch-backend=auto
- Windows: setelah memasang Python 3.13 dan astral-sh.uv, lakukan instalasi dengan cara yang sama
- Di Windows, pip install unsloth hanya berjalan jika PyTorch sudah terpasang
Instalasi GPU AMD dan Intel masing-masing mengikuti AMD Guide dan Intel Guide

Akses jarak jauh dan persyaratan keamanan

Secara default, unsloth studio bind ke 127.0.0.1, sehingga hanya dapat diakses dari mesin saat ini
--secure hanya menyediakan tautan HTTPS Cloudflare gratis
- Studio tetap berada di localhost
- Jika tunnel tidak dimulai, ia beroperasi dengan mekanisme fail-closed sehingga tidak mengekspos port mentah
-H 0.0.0.0 bind port mentah ke semua antarmuka jaringan
- Karena dapat diakses dari mana saja di jaringan, ini hanya boleh digunakan pada jaringan tepercaya
Tool sisi server seperti pencarian web, Python, dan eksekusi kode terminal berjalan dengan hak pengguna dan aktif secara default
Siapa pun yang dapat mengakses server dan memiliki API key dapat menjalankan kode di mesin tersebut, sehingga API key perlu dijaga tetap privat dan --disable-tools perlu digunakan saat mengekspos Studio

Notebook gratis dan contoh model yang didukung

Dengan Unsloth Studio notebook gratis, model dapat dijalankan dan dilatih dari UI web
Contoh notebook yang disediakan menampilkan angka performa dan penghematan memori per model
- Gemma 4 (E2B): 1,5x lebih cepat, memori 50% lebih rendah
- Qwen3.5 (4B): 1,5x lebih cepat, memori 60% lebih rendah
- gpt-oss (20B): 2x lebih cepat, memori 70% lebih rendah
- gpt-oss (20B): GRPO: 2x lebih cepat, memori 80% lebih rendah
- Llama 3.1 (8B) Alpaca: 2x lebih cepat, memori 70% lebih rendah
- Orpheus-TTS (3B): 1,5x lebih cepat, memori 50% lebih rendah
Daftar notebook untuk Kaggle, GRPO, TTS, embedding, dan Vision juga disediakan secara terpisah
Daftar lengkap model dapat dilihat di Unsloth Catalog, dan daftar lengkap notebook di Unsloth notebooks

Fitur terbaru

Connections: mendukung koneksi ke penyedia API seperti OpenAI dan Anthropic, atau server seperti vLLM dan Ollama
MTP: mendukung eksekusi Qwen3.6 MTP dan otomatis menetapkan konfigurasi MTP sesuai hardware
Qwen3.6: Qwen3.6-35B-A3B dapat dilatih dan dijalankan di Unsloth Studio
Gemma 4: model baru Google dapat langsung dijalankan dan dilatih di Unsloth
MoE LLM: untuk DeepSeek, GLM, Qwen, dan gpt-oss, disebutkan pelatihan 12x lebih cepat dan VRAM 35% lebih rendah
Embedding models: mendukung fine-tuning embedding sekitar 1,8–3,3x lebih cepat
7x longer context RL: algoritme batching baru menyediakan RL dengan konteks 7x lebih panjang dibanding konfigurasi lain
500K Context: di GPU 80GB, model 20B dapat dilatih dengan konteks lebih dari 500K
FP8 & Vision RL: FP8 dan VLM GRPO dapat dijalankan di GPU konsumen

Lisensi dan proyek dasar

Unsloth menggunakan model lisensi ganda Apache 2.0 dan AGPL-3.0
- Paket inti Unsloth tetap menggunakan Apache 2.0
- Beberapa komponen opsional seperti Unsloth Studio UI menerapkan AGPL-3.0
Proyek ini menyebut llama.cpp, Hugging Face transformers, TRL, PyTorch, Torch AO, NVIDIA NeMo DataDesigner, dan lainnya

1 komentar

GN⁺ 2023-12-03

Komentar Hacker News

Saya belum menjalankan kodenya sendiri, tapi saya tidak begitu paham bagaimana ini bisa terjadi
Jika memprofilkan fine-tuning QLoRA Llama-2-70B dengan PyTorch, sebagian besar waktu eksekusi dihabiskan oleh perkalian matriks besar di lapisan MLP, dengan sedikit tambahan dari attention
Secara internal, repositori ini juga tampaknya memanggil torch.matmul() untuk MLP dan flash_attn_func() untuk attention, memakai jalur yang sama seperti HuggingFace, jadi saya bertanya-tanya bagaimana bisa jauh lebih cepat seperti ini
Memang ada beberapa kernel Triton, tetapi tampaknya tidak ada Triton untuk MLP atau attention yang menjadi sebagian besar bottleneck
- Mereka menjelaskan bahwa ini berkat custom autograd yang dioptimalkan, dan itu masuk akal karena autograd adalah komponen inti dalam perhitungan diferensial
  Mereka juga menyebut perbaikan sederhana seperti function inlining atau optimasi memori, dan bagian-bagian seperti ini memang punya banyak ruang untuk dioptimalkan
  Namun saya tidak begitu yakin apakah manfaat itu bisa tetap berada di versi “pro” yang closed-source
  Kalau itu buah yang mudah dipetik, implementasi open-source kemungkinan besar akan segera mengambilnya
- Penjelasan yang lebih rinci ada di https://unsloth.ai/introducing
- Klaim-klaim yang cukup besar dikunci di balik versi pro berbayar. Ini terlihat seperti tanda bahaya
Untuk sementara abaikan dulu kritik soal harga di sini; sebaiknya segera cari sales atau solution engineer yang pernah bekerja di perusahaan database tahap awal, lalu mulai cold call ke pelanggan kelas atas yang memiliki ribuan GPU
Untuk menjual ini, jalur yang paling mungkin tampaknya adalah transaksi B2B senilai 200 ribu–300 ribu dolar atau lebih
Bagi yang tertarik, kami baru saja menerbitkan posting blog baru yang membahas semua optimasinya
Ada juga 59 benchmark yang sepenuhnya dapat direproduksi: https://unsloth.ai/blog/mistral-benchmark
Hasilnya terlihat menjanjikan, jadi saya ingin mencobanya sendiri
Pertanyaan terkait benchmark performa: saya penasaran mengapa semua hasil yang memakai 2 GPU dan DDP memakan waktu lebih lama daripada satu GPU
Kedua benchmark melakukan jumlah pekerjaan yang sama dalam satu epoch pelatihan, jadi penskalaan terbalik seperti ini cukup mengejutkan
- Alasan utamanya ada dua
  Pertama, DDP sendiri punya overhead. Di setiap langkah pelatihan, GPU0 dan GPU1 harus melakukan sinkronisasi dengan mengirim gradien ke GPU0
  Kedua, HuggingFace tampaknya tidak dioptimalkan dengan baik untuk DDP karena perpindahan data yang tidak efisien, dan kami memperbaiki bagian ini. Menariknya, ini juga menjadi lebih cepat bahkan pada satu GPU
Akan bagus kalau ada kronologi yang merangkum berbagai upaya seperti ini. Variasinya sudah terlalu banyak sampai saya kehilangan alurnya cukup lama lalu
Kecuali kita menerima begitu saja metrik yang dilaporkan sendiri sebagai kebenaran, ini tampaknya akan menjadi pekerjaan yang cukup besar
Itu pun selalu bergantung pada hardware dan cakupan penggunaan
Agar benar-benar berguna, dibutuhkan pipeline CI/CD dengan berbagai konfigurasi mesin dan benchmark, serta cara yang masuk akal untuk menyampaikan hasilnya
Jika ada yang berhasil melakukannya, itu akan benar-benar menjadi sesuatu yang tak tergantikan
- Saya juga berpikir persis seperti itu
  Saya sedang menulis posting blog di https://colab.research.google.com/drive/1AOuhMVILE06mD-Go7-R..., yang menunjukkan semua perubahan yang saya lakukan langkah demi langkah, beserta pengukuran waktu dan penghematan memori
  Kalau tertarik, saya akan mengunggahnya begitu selesai
Saya penasaran bagaimana ini dibandingkan dengan optimasi Sam dan llama2 dari PyTorch Labs
https://github.com/pytorch-labs/segment-anything-fast
https://github.com/pytorch-labs/gpt-fast
- Itu untuk inference, sedangkan kode kami untuk pelatihan
  Ke depannya kami juga berencana membuat inference yang lebih cepat
  Saya melihat GPT Fast dari Chillee, dan itu benar-benar sangat cepat
Sedikit terkait, saya penasaran apakah memakai P100 atau P40 masih layak
Saya sempat ingin membeli salah satunya, tetapi sepertinya dukungan untuk Pascal makin banyak dihapus dari berbagai proyek
- P100 sepertinya akan didukung oleh Flash Attention dari Xformers, tetapi Triton mendukung Compute Capability 7.0 ke atas, sedangkan P100 adalah 6.0, jadi ini jadi masalah
  Secara teknis kodenya bisa dijalankan, tetapi harus dimodifikasi untuk menghapus perubahan terkait Triton
Ini terlihat sangat menarik, tetapi saya bingung kenapa versi dengan peningkatan kecepatan maksimum dibatasi hanya untuk enterprise
Rasanya lebih masuk akal kalau hanya paket Free dan Paid yang dibedakan berdasarkan performa, sementara Enterprise dibedakan lewat hal seperti dukungan
- Masukan yang bagus. Kami juga sudah memikirkannya, dan karena kami masih terus menyesuaikan kebijakan harga, semua saran sangat kami terima
  Ini semua hal baru bagi kami, jadi kami sedang membangunnya sambil benar-benar menjalankannya
Disebutkan GPU setelah 2018, tapi saya penasaran kenapa ini tidak berjalan misalnya di 1080 Ti
Kalau melihat spesifikasi hardware secara kasar, tampaknya mendukung CUDA 8 ke atas, sementara di sini tertulis 7.5
Adakah yang bisa menjelaskan lebih lanjut?
- Sayangnya untuk 1080 Ti, Triton dan Xformers mendukung CUDA 7.0, jadi selama OpenAI dan Meta tidak mendukung CUDA 6.0, kami juga sulit mendukungnya
  Alasan utamanya adalah sejak Turing tersedia Tensor Cores, sehingga perkalian matriks berubah menjadi berbasis Tensor Cores
- CUDA Compute Capability 1080 Ti adalah 6.1

Show HN: Fine-tuning Llama dengan kecepatan 80% lebih tinggi, penggunaan memori 50% lebih rendah, dan kehilangan akurasi 0%

Yang disediakan Unsloth

Fitur inferensi

Fitur pelatihan dan performa

Instalasi dan persyaratan menjalankan

Akses jarak jauh dan persyaratan keamanan

Notebook gratis dan contoh model yang didukung

Fitur terbaru

Lisensi dan proyek dasar

Bacaan terkait

1 komentar

Komentar Hacker News