- Model SmolLM3 adalah LLM open source berukuran 3B parameter yang mengejar efisiensi dan performa sekaligus
- Mendukung 6 bahasa, yaitu Inggris, Prancis, Spanyol, Jerman, Italia, dan Portugis, serta dapat diperluas hingga panjang konteks maksimum 128k
- Dengan dual mode (reasoning/non-reasoning), mode penalaran dapat diubah menggunakan flag
/think,/no_think - Menyediakan seluruh tahap pelatihan yang beragam, termasuk pretraining, mid-training, post-training, beserta dataset terbuka dan blueprint engineering
- Dari sisi performa, model ini melampaui Llama-3.2-3B dan Qwen2.5-3B, serta memiliki daya saing setara model 4B
Ringkasan
SmolLM3 adalah model bahasa besar open source yang mengejar efisiensi dan performa sekaligus pada skala 3B parameter. Diferensiasi utamanya adalah ukurannya yang kecil dan cepat, namun tetap mendukung long-context, multibahasa, dan penalaran.
- Dilatih dengan 11 triliun (11T) token pada 3B parameter
- Mencapai performa mutakhir (SoTA), mampu bersaing dengan model 4B
- Model instruct mode ganda: mendukung perpindahan antara reasoning dan non-reasoning melalui
/thinkdan/no_think - Mendukung Inggris, Prancis, Spanyol, Jerman, Italia, dan Portugis
- NoPE, YaRN diterapkan untuk konteks hingga 128k
Seluruh proses pelatihan, termasuk arsitektur, komposisi data, dan recipe tiap tahap, dibuka sepenuhnya.
Pretraining
Arsitektur dan pengaturan pelatihan
SmolLM3 berbasis transformer decoder, dan memodifikasi arsitektur Llama untuk meningkatkan efisiensi serta performa pada konteks panjang.
- Grouped Query Attention(GQA): lebih efisien memori dibanding multi-head attention, dengan performa setara
- NoPE: rotary position embedding dihapus setiap lapisan ke-4 untuk meningkatkan performa konteks panjang
- Masking dalam dokumen: menerapkan masking agar dokumen yang berbeda tidak saling attending, sehingga mendukung pelatihan long-context yang stabil
- Weight decay di embedding dihapus: untuk memastikan perilaku pelatihan yang stabil
Konfigurasi pelatihannya:
- Global batch 2.36M token, panjang sekuens 4096, learning rate 2e-4, AdamW(β1:0.9, β2:0.95), weight decay 0.1, gradient clipping 1
- Scheduler WSD: 2000 warmup, penurunan linear pada 10% terakhir
- Menggunakan framework distributed training nanotron, data datatrove, dan alat evaluasi lighteval
- 384 GPU H100, dilatih selama 24 hari
Campuran data dan pelatihan bertahap
Pretraining 3 tahap:
- Tahap 1 (0T→8T): web (85%, 12% multibahasa), kode (12%), matematika (3%)
- Tahap 2 (8T→10T): web (75%, 12% multibahasa), kode (15%), matematika (10%) - menambahkan data kode dan matematika berkualitas lebih tinggi
- Tahap 3 (10T→11.1T): web (63%, 12% multibahasa), kode (24%), matematika (13%) - upsampling kode dan matematika berkualitas tinggi, serta memasukkan data instruction/penalaran
Rasio campuran data di setiap tahap dioptimalkan melalui banyak eksperimen ablation.
Setelah pretraining, proses mid-training tambahan diterapkan untuk memperkuat performa long-context dan reasoning.
Mid-training
Pelatihan long-context
Setelah pretraining, model diberi tambahan 100B token untuk meningkatkan panjang konteks dalam 2 tahap (4k→32k→64k).
- Ekstensi panjang melalui penyesuaian RoPE theta
- Upsampling data matematika, kode, dan penalaran
- Mengoptimalkan performa sekuens panjang dengan NoPE dan decay mixture
- Saat pelatihan hingga 64k, dan dengan YaRN saat inferensi dapat memproses hingga 128k
Mid-training reasoning
Untuk meningkatkan kemampuan penalaran, model dilatih ulang menggunakan 35B token (OpenThoughts3-1.2M, Llama-Nemotron-Post-Training-Dataset, dll.).
- Mempelajari kemampuan reasoning umum tanpa orientasi domain spesifik
- Menggunakan template ChatML dan wrapped packing
- Menjalankan 4 epoch (~140B token) lalu menyimpan checkpoint
Post-training
Sebagian besar model reasoning membutuhkan proses RL yang tertutup atau kompleks, tetapi SmolLM3 membangun struktur dual instruction (penalaran/non-penalaran) dengan data terbuka dan recipe yang jelas.
Template chat
- Mode reasoning diubah dengan memasukkan flag
/think,/no_thinkke system prompt - Menyediakan seksi terpisah untuk XML Tools dan Python Tools guna mendukung kode/pemanggilan tool
- Menggunakan pesan system, metadata(date, knowledge cut-off, reasoning mode), dan dapat dioverride secara fleksibel
Supervised Finetuning(SFT)
Setelah mid-training reasoning 140B data, dilakukan supervised finetuning dengan 1.8B token (data SFT: penalaran logis/non-penalaran).
- Untuk melengkapi domain reasoning yang jarang, dibuat data synthetic reasoning menggunakan Qwen3-32B
- Memaksimalkan memori/efisiensi dengan teknik seperti best-fit decreasing packing
- Seluruh data dan skrip pelatihan akan dibuka
Anchored Preference Optimization(APO)
- Setelah SFT, model disejajarkan menggunakan APO, varian DPO, berbasis preferensi Tulu3 (non-reasoning) dan synthetic preference pairs Qwen3-32B/0.6B (reasoning)
- Loss disusun dengan triplet prompt + response, untuk optimisasi yang stabil dan performa yang terjaga
- Karena dampak mid-training reasoning menurunkan performa long-context, hal ini diatasi lewat model merging
Model merging
- Menggunakan library MergeKit, melakukan linear merge dengan rasio checkpoint APO model soup(0.9) + checkpoint mid-training(0.1)
- Memulihkan performa long-context 128k dan mempertahankan performa keseluruhan
- Model akhir dirilis dari checkpoint terbaik
Evaluasi
Model dasar
Pada 12 benchmark utama, model ini mengungguli model 3B lain dan menunjukkan performa yang mendekati model 4B
- Kuat secara merata pada pemahaman dokumen, penalaran, matematika, hingga coding
- Kemampuan ekstensibilitas panjang terlihat jelas pada RULER 64k, dll.
- Kemampuan multibahasa terbukti melalui Global MMLU, MLMM HellaSwag, Flores-200, Belebele, dll.
- Performa konsisten juga terlihat pada 5 bahasa Eropa selain Inggris
Model Dual Instruct / Reasoning
Evaluasi non-reasoning
SmolLM3 lebih unggul daripada Llama3.2-3B Instruct dan Qwen2.5 3B Instruct, serta seimbang dari sisi efisiensi dan performa setara model reasoning 4B
Evaluasi reasoning
Saat /think diaktifkan, performa meningkat tajam pada sebagian besar benchmark
- AIME 2025(36.7% vs 9.3%), LiveCodeBench(30.0% vs 15.2%), GPQA Diamond(41.7% vs 35.7%), dan mampu menyelesaikan soal-soal sulit
- Penalaran 3B yang sebanding dengan Qwen3 4B, reasoning matematis, dan kemampuan memecahkan masalah kompleks
Mode ganda memungkinkan pilihan antara kecepatan dan analisis mendalam
Panduan penggunaan nyata
SmolLM3 didukung secara resmi pada transformers v4.53.0 atau lebih baru
- Memuat model, menulis prompt, dan menjalankan inferensi dengan kode sederhana
- reasoning/non-reasoning diubah melalui flag
/think,/no_thinkpada system prompt
Untuk pemanggilan tool (Agentic), didukung parameter xml_tools, python_tools
Kesimpulan
SmolLM3 adalah model fully open berskala 3B yang mendukung long-context, multibahasa, dan reasoning sekaligus.
- Seluruh blueprint engineering seperti recipe pelatihan per tahap, dataset, dan log pelatihan dibuka sepenuhnya
- Hal ini dapat memaksimalkan partisipasi komunitas dalam peningkatan dan verifikasi
Materi
- Model, skrip, dataset, dll.: HuggingFaceTB/SmolLM3-3B
- Paper, evaluasi, lightweighting, alat merging, dll. dapat dilihat melalui tautan GitHub, Hugging Face, dan paper masing-masing
1 komentar
Komentar Hacker News
llama.cpp). Saat ini, selain Microsoft, hampir tidak ada perusahaan yang terus-menerus serius melihat AI lokal. Biasanya saya tidak mengangkat hal seperti ini, tetapi meskipun HF benar-benar warga ekosistem yang sangat baik, menonjolkan keunggulan model lain tanpa menyebut superstar terasa seperti mengabaikan local SoTA yang sudah lama ada di bidang ini. Karena itu, kali ini saya merasa ada arti untuk angkat bicarallama.cppdan mesin inferensi lainnya, untuk menjalankannya masukkan perintah berikut./llama.cpp/llama-cli -hf unsloth/SmolLM3-3B-GGUF:Q4_K_XL --jinja -ngl 99big little planetatausmall big planet