Show HN: Fine-tuning Llama dengan kecepatan 80% lebih tinggi, penggunaan memori 50% lebih rendah, dan kehilangan akurasi 0%
(github.com/unslothai)- Unsloth menyediakan Unsloth Studio untuk menjalankan dan melatih model secara lokal, serta Unsloth Core berbasis kode; mendukung model teks, audio, embedding, dan vision di Windows, Linux, WSL, dan macOS
- Fitur pelatihannya mendukung fine-tuning, RL, dan pretraining untuk lebih dari 500 model, dengan target performa utama: pelatihan hingga 2x lebih cepat, penggunaan VRAM hingga 70% lebih rendah, dan tanpa kehilangan akurasi
- Fitur inferensinya mencakup pencarian, pengunduhan, dan eksekusi model GGUF, adaptor LoRA, dan model safetensors; ekspor model; tool calling; pencarian web; eksekusi kode; serta endpoint inferensi API lokal
- Unsloth Studio secara default bind ke localhost;
--securemenggunakan tunnel HTTPS Cloudflare, sementara-H 0.0.0.0dapat mengekspos port mentah ke luar, sehingga perlindungan API key dan penggunaan--disable-toolsmenjadi penting - Lisensinya memakai struktur ganda Apache 2.0 dan AGPL-3.0; paket Core berlisensi Apache 2.0, sementara beberapa komponen opsional seperti Studio UI berlisensi AGPL-3.0
Yang disediakan Unsloth
- Unsloth Studio (Beta) adalah UI web untuk menjalankan dan melatih model secara lokal
- Unsloth Core adalah versi berbasis kode, dengan persyaratan yang berbeda dari Studio
- Perintah instalasi awal disediakan per sistem operasi
- macOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | sh - Windows:
irm https://unsloth.ai/install.ps1 | iex
- macOS, Linux, WSL:
Fitur inferensi
- Mendukung pencarian, pengunduhan, dan eksekusi model, dengan format target yang mencakup GGUF, adaptor LoRA, dan safetensors
- Model dapat disimpan atau diekspor ke GGUF, safetensors 16-bit, dan format lainnya
- Tool calling mendukung auto-healing tool calling dan pencarian web
- Eksekusi kode memungkinkan LLM menguji kode dalam lingkungan Claude artifacts dan sandbox
- Melalui endpoint inferensi API, LLM lokal dapat di-deploy dan dijalankan bersama Claude Code dan Codex tools
- Dapat terhubung ke penyedia API seperti OpenAI dan Anthropic, atau ke server seperti vLLM dan Ollama
- Dapat melakukan chat dengan gambar, audio, PDF, kode, DOCX, dan lainnya
- Disebutkan bahwa mereka memperbaiki bug yang meningkatkan akurasi model melalui kolaborasi langsung dengan tim terkait gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1-3, dan Phi-4
Fitur pelatihan dan performa
- Unsloth mendukung pelatihan dan RL untuk lebih dari 500 model
- Pelatihan hingga 2x lebih cepat
- VRAM hingga 70% lebih rendah
- Tanpa kehilangan akurasi
- Menggunakan Triton kustom dan kernel matematika
- Tautan ke contoh kolaborasi FP8 reinforcement learning dengan PyTorch
- Tautan ke contoh kolaborasi MoE yang lebih cepat dengan Hugging Face
- Data Recipes secara otomatis membuat dataset dari PDF, CSV, DOCX, dan lainnya, serta memungkinkan pengeditan data dalam workflow node visual
- Reinforcement learning disebut menggunakan VRAM hingga 80% lebih rendah untuk GRPO, FP8, dan lainnya
- Metode pelatihan yang didukung mencakup full fine-tuning, RL, pretraining, pelatihan 4-bit, 16-bit, dan FP8
- Fitur observability memungkinkan pemantauan status pelatihan secara real time serta mendukung loss, penggunaan GPU, dan kustomisasi grafik
- Mendukung pelatihan Multi-GPU, dengan peningkatan besar yang akan segera tersedia
Instalasi dan persyaratan menjalankan
- Unsloth Studio berjalan di Windows, Linux, WSL, dan macOS
- CPU: saat ini mendukung Chat dan Data Recipes
- NVIDIA: mendukung pelatihan di RTX 30/40/50, Blackwell, DGX Spark, Station, dan lainnya
- macOS: mendukung pelatihan, MLX, dan inferensi GGUF
- AMD: mendukung Chat dan Data; pelatihan menggunakan Unsloth Core, sementara dukungan Studio akan segera tersedia
- Multi-GPU: sudah tersedia saat ini, dengan upgrade besar yang direncanakan
- Perintah untuk menjalankan Studio adalah
unsloth studio -p 8888 - Image Docker tersedia sebagai container unsloth/unsloth
- Instalasi Unsloth Core menyediakan contoh berbasis
uvdan Python 3.13- Linux, WSL: setelah
uv venv unsloth_env --python 3.13, jalankanuv pip install unsloth --torch-backend=auto - Windows: setelah memasang Python 3.13 dan
astral-sh.uv, lakukan instalasi dengan cara yang sama - Di Windows,
pip install unslothhanya berjalan jika PyTorch sudah terpasang
- Linux, WSL: setelah
- Instalasi GPU AMD dan Intel masing-masing mengikuti AMD Guide dan Intel Guide
Akses jarak jauh dan persyaratan keamanan
- Secara default,
unsloth studiobind ke 127.0.0.1, sehingga hanya dapat diakses dari mesin saat ini --securehanya menyediakan tautan HTTPS Cloudflare gratis- Studio tetap berada di localhost
- Jika tunnel tidak dimulai, ia beroperasi dengan mekanisme fail-closed sehingga tidak mengekspos port mentah
-H 0.0.0.0bind port mentah ke semua antarmuka jaringan- Karena dapat diakses dari mana saja di jaringan, ini hanya boleh digunakan pada jaringan tepercaya
- Tool sisi server seperti pencarian web, Python, dan eksekusi kode terminal berjalan dengan hak pengguna dan aktif secara default
- Siapa pun yang dapat mengakses server dan memiliki API key dapat menjalankan kode di mesin tersebut, sehingga API key perlu dijaga tetap privat dan
--disable-toolsperlu digunakan saat mengekspos Studio
Notebook gratis dan contoh model yang didukung
- Dengan Unsloth Studio notebook gratis, model dapat dijalankan dan dilatih dari UI web
- Contoh notebook yang disediakan menampilkan angka performa dan penghematan memori per model
- Gemma 4 (E2B): 1,5x lebih cepat, memori 50% lebih rendah
- Qwen3.5 (4B): 1,5x lebih cepat, memori 60% lebih rendah
- gpt-oss (20B): 2x lebih cepat, memori 70% lebih rendah
- gpt-oss (20B): GRPO: 2x lebih cepat, memori 80% lebih rendah
- Llama 3.1 (8B) Alpaca: 2x lebih cepat, memori 70% lebih rendah
- Orpheus-TTS (3B): 1,5x lebih cepat, memori 50% lebih rendah
- Daftar notebook untuk Kaggle, GRPO, TTS, embedding, dan Vision juga disediakan secara terpisah
- Daftar lengkap model dapat dilihat di Unsloth Catalog, dan daftar lengkap notebook di Unsloth notebooks
Fitur terbaru
- Connections: mendukung koneksi ke penyedia API seperti OpenAI dan Anthropic, atau server seperti vLLM dan Ollama
- MTP: mendukung eksekusi Qwen3.6 MTP dan otomatis menetapkan konfigurasi MTP sesuai hardware
- Qwen3.6: Qwen3.6-35B-A3B dapat dilatih dan dijalankan di Unsloth Studio
- Gemma 4: model baru Google dapat langsung dijalankan dan dilatih di Unsloth
- MoE LLM: untuk DeepSeek, GLM, Qwen, dan gpt-oss, disebutkan pelatihan 12x lebih cepat dan VRAM 35% lebih rendah
- Embedding models: mendukung fine-tuning embedding sekitar 1,8–3,3x lebih cepat
- 7x longer context RL: algoritme batching baru menyediakan RL dengan konteks 7x lebih panjang dibanding konfigurasi lain
- 500K Context: di GPU 80GB, model 20B dapat dilatih dengan konteks lebih dari 500K
- FP8 & Vision RL: FP8 dan VLM GRPO dapat dijalankan di GPU konsumen
Lisensi dan proyek dasar
- Unsloth menggunakan model lisensi ganda Apache 2.0 dan AGPL-3.0
- Paket inti Unsloth tetap menggunakan Apache 2.0
- Beberapa komponen opsional seperti Unsloth Studio UI menerapkan AGPL-3.0
- Proyek ini menyebut llama.cpp, Hugging Face transformers, TRL, PyTorch, Torch AO, NVIDIA NeMo DataDesigner, dan lainnya
1 komentar
Komentar Hacker News
Saya belum menjalankan kodenya sendiri, tapi saya tidak begitu paham bagaimana ini bisa terjadi
Jika memprofilkan fine-tuning QLoRA Llama-2-70B dengan PyTorch, sebagian besar waktu eksekusi dihabiskan oleh perkalian matriks besar di lapisan MLP, dengan sedikit tambahan dari attention
Secara internal, repositori ini juga tampaknya memanggil
torch.matmul()untuk MLP danflash_attn_func()untuk attention, memakai jalur yang sama seperti HuggingFace, jadi saya bertanya-tanya bagaimana bisa jauh lebih cepat seperti iniMemang ada beberapa kernel Triton, tetapi tampaknya tidak ada Triton untuk MLP atau attention yang menjadi sebagian besar bottleneck
Mereka juga menyebut perbaikan sederhana seperti function inlining atau optimasi memori, dan bagian-bagian seperti ini memang punya banyak ruang untuk dioptimalkan
Namun saya tidak begitu yakin apakah manfaat itu bisa tetap berada di versi “pro” yang closed-source
Kalau itu buah yang mudah dipetik, implementasi open-source kemungkinan besar akan segera mengambilnya
Untuk sementara abaikan dulu kritik soal harga di sini; sebaiknya segera cari sales atau solution engineer yang pernah bekerja di perusahaan database tahap awal, lalu mulai cold call ke pelanggan kelas atas yang memiliki ribuan GPU
Untuk menjual ini, jalur yang paling mungkin tampaknya adalah transaksi B2B senilai 200 ribu–300 ribu dolar atau lebih
Bagi yang tertarik, kami baru saja menerbitkan posting blog baru yang membahas semua optimasinya
Ada juga 59 benchmark yang sepenuhnya dapat direproduksi: https://unsloth.ai/blog/mistral-benchmark
Hasilnya terlihat menjanjikan, jadi saya ingin mencobanya sendiri
Pertanyaan terkait benchmark performa: saya penasaran mengapa semua hasil yang memakai 2 GPU dan DDP memakan waktu lebih lama daripada satu GPU
Kedua benchmark melakukan jumlah pekerjaan yang sama dalam satu epoch pelatihan, jadi penskalaan terbalik seperti ini cukup mengejutkan
Pertama, DDP sendiri punya overhead. Di setiap langkah pelatihan, GPU0 dan GPU1 harus melakukan sinkronisasi dengan mengirim gradien ke GPU0
Kedua, HuggingFace tampaknya tidak dioptimalkan dengan baik untuk DDP karena perpindahan data yang tidak efisien, dan kami memperbaiki bagian ini. Menariknya, ini juga menjadi lebih cepat bahkan pada satu GPU
Akan bagus kalau ada kronologi yang merangkum berbagai upaya seperti ini. Variasinya sudah terlalu banyak sampai saya kehilangan alurnya cukup lama lalu
Kecuali kita menerima begitu saja metrik yang dilaporkan sendiri sebagai kebenaran, ini tampaknya akan menjadi pekerjaan yang cukup besar
Itu pun selalu bergantung pada hardware dan cakupan penggunaan
Agar benar-benar berguna, dibutuhkan pipeline CI/CD dengan berbagai konfigurasi mesin dan benchmark, serta cara yang masuk akal untuk menyampaikan hasilnya
Jika ada yang berhasil melakukannya, itu akan benar-benar menjadi sesuatu yang tak tergantikan
Saya sedang menulis posting blog di https://colab.research.google.com/drive/1AOuhMVILE06mD-Go7-R..., yang menunjukkan semua perubahan yang saya lakukan langkah demi langkah, beserta pengukuran waktu dan penghematan memori
Kalau tertarik, saya akan mengunggahnya begitu selesai
Saya penasaran bagaimana ini dibandingkan dengan optimasi Sam dan llama2 dari PyTorch Labs
https://github.com/pytorch-labs/segment-anything-fast
https://github.com/pytorch-labs/gpt-fast
Ke depannya kami juga berencana membuat inference yang lebih cepat
Saya melihat GPT Fast dari Chillee, dan itu benar-benar sangat cepat
Sedikit terkait, saya penasaran apakah memakai P100 atau P40 masih layak
Saya sempat ingin membeli salah satunya, tetapi sepertinya dukungan untuk Pascal makin banyak dihapus dari berbagai proyek
Secara teknis kodenya bisa dijalankan, tetapi harus dimodifikasi untuk menghapus perubahan terkait Triton
Ini terlihat sangat menarik, tetapi saya bingung kenapa versi dengan peningkatan kecepatan maksimum dibatasi hanya untuk enterprise
Rasanya lebih masuk akal kalau hanya paket Free dan Paid yang dibedakan berdasarkan performa, sementara Enterprise dibedakan lewat hal seperti dukungan
Ini semua hal baru bagi kami, jadi kami sedang membangunnya sambil benar-benar menjalankannya
Disebutkan GPU setelah 2018, tapi saya penasaran kenapa ini tidak berjalan misalnya di 1080 Ti
Kalau melihat spesifikasi hardware secara kasar, tampaknya mendukung CUDA 8 ke atas, sementara di sini tertulis 7.5
Adakah yang bisa menjelaskan lebih lanjut?
Alasan utamanya adalah sejak Turing tersedia Tensor Cores, sehingga perkalian matriks berubah menjadi berbasis Tensor Cores