- Arsitektur LLM selama 7 tahun terakhir berevolusi dari GPT-2 (2019) hingga DeepSeek-V3 dan Llama 4 (2024-2025) tanpa perubahan besar secara struktural, sehingga mempertahankan kemiripan yang mengejutkan
- Model terbaru seperti DeepSeek V3/R1, Llama 4 mengadopsi metode optimasi baru seperti Mixture-of-Experts(MoE), MLA, Sliding Window Attention untuk meningkatkan efisiensi memori dan kinerja inferensi
- Beberapa model open source seperti OLMo 2, Gemma 3 mendapat perhatian sebagai contoh desain yang baik untuk riset dan pengembangan berkat keterbukaan data yang transparan dan penempatan normalization layer yang unik
- Berbagai model dengan ukuran dan struktur yang beragam seperti Qwen3, SmolLM3, Kimi 2 bermunculan, memperluas pilihan berdasarkan kelebihan, kekurangan, dan tujuan penggunaan dari arsitektur MoE dan Dense
- Tren umum LLM terbaru adalah pembesaran skala dan peningkatan kecanggihan, bersamaan dengan perbaikan struktur yang efisien dan dukungan untuk berbagai lingkungan hardware
Pendahuluan
- Jika melihat dari prototipe GPT tahun 2017 hingga GPT-2 (2019), DeepSeek-V3, dan Llama 4 (2024-2025), arsitektur LLM pada garis besarnya tetap mirip (struktur transformer dasarnya tidak banyak berubah)
- Positional embedding telah berubah dari bentuk absolut ke metode seperti RoPE, dan Multi-Head Attention juga beralih ke GQA (grouped query attention) yang lebih efisien dalam memori/komputasi, tetapi struktur fundamentalnya tetap dipertahankan
- Perbandingan performa sulit dilakukan secara langsung karena bergantung pada dataset dan metode pelatihan
- Artikel ini berfokus pada analisis perubahan struktur arsitektur pada open LLM terbaru
1. DeepSeek V3/R1
- DeepSeek R1 (Januari 2025) dibangun berdasarkan arsitektur DeepSeek V3 (Desember 2024), dan menarik perhatian berkat kemampuan penalaran yang ditingkatkan serta parameter skala besar (671 miliar)
- Arsitektur inti: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
- MLA: mengompresi Key/Value ke dimensi rendah untuk mengurangi memori KV cache, dengan performa lebih baik dibanding GQA
- MoE: modul FeedForward didistribusikan ke beberapa expert, dengan struktur sparse yang hanya mengaktifkan sebagian expert untuk setiap token
- DeepSeek V3: 256 expert, total parameter 671B, hanya 9 expert (37B parameter) yang digunakan saat inferensi
- Shared expert yang selalu aktif meningkatkan efisiensi pembelajaran pola umum
- Karakteristik: meski berukuran besar (671B), tetap efisien saat inferensi, MLA unggul dibanding GQA, dan MoE menyediakan kapasitas pelatihan berskala besar
2. OLMo 2
- Model yang sepenuhnya terbuka dari Allen Institute for AI
- Keunggulannya bukan pada performa, melainkan pada desain yang transparan dan keterbukaan kode
- Poin arsitektur: posisi RMSNorm (penerapan Post-Norm), QK-Norm
- Model GPT konvensional menggunakan Pre-Norm, sedangkan OLMo 2 menerapkan normalization setelah Attention/FeedForward (varian Post-Norm)
- QK-Norm: RMSNorm tambahan pada query/key di Attention, meningkatkan stabilitas pelatihan
- Tetap mempertahankan struktur Multi-Head Attention(MHA) tradisional
- Mirip dengan Llama 3 dan lainnya, tetapi dibedakan oleh strategi normalization
3. Gemma 3
- Open LLM andalan Google, dengan ciri khas fokus pada vocabulary besar untuk dukungan multibahasa dan model berukuran 27B
- Sliding Window Attention (window lokal) secara drastis mengurangi memori KV cache
- Gemma 2: Global/Local 1:1, window 4k, Gemma 3: rasio 5:1, window diturunkan menjadi 1024
- Hampir tidak berdampak pada performa (Perplexity)
- Normalization: menerapkan RMSNorm Pre-Norm dan Post-Norm di sekitar modul GQA
- Gemma 3n: untuk perangkat kecil, diringankan dengan Per-Layer Embedding (hanya parameter per layer yang tetap berada di GPU) dan MatFormer (menggunakan pemisahan sebagian model)
4. Mistral Small 3.1
- Mistral Small 3.1 24B, lebih cepat daripada Gemma 3 27B dan berada di papan atas benchmark
- Menggunakan tokenizer kustom serta pengurangan KV cache dan jumlah layer untuk meminimalkan latensi inferensi
- Meninggalkan sliding window attention, dan menggunakan GQA yang dioptimalkan + FlashAttention dengan fokus pada kecepatan inferensi dan efisiensi kode
5. Llama 4
- Secara aktif mengadopsi arsitektur MoE untuk mendapatkan efisiensi inferensi sekaligus kapasitas model, dengan struktur yang mirip DeepSeek-V3
- Menggunakan GQA, dengan jumlah expert MoE dan hidden size yang berbeda
- DeepSeek-V3: 9 expert (2,048), Llama 4: 2 expert (8,192), parameter aktif 17B (DeepSeek 37B)
- Desain MoE klasik yang menyisipkan blok MoE dan blok Dense secara bergantian
- Menunjukkan popularitas MoE pada LLM terbaru
6. Qwen3
- Menyediakan versi Dense (0.6B~32B) dan MoE (30B-A3B, 235B-A22B) dalam berbagai ukuran
- Versi kecil (0.6B) unggul dalam efisiensi pelatihan·inferensi dan token throughput. Mencapai performa yang sangat baik di kelas LLM ultra-ringan, serta sangat efisien dalam memori dan mudah dilatih
- Dense: lebih banyak layer, memori lebih kecil, tetapi lebih lambat (dibanding Llama 3 1B)
- MoE: Qwen3 235B-A22B memiliki 22B active param, tidak menggunakan shared expert (Qwen2.5-MoE sebelumnya menyertakan shared expert), sehingga efisiensinya meningkat
- Qwen3 235B-A22B dan DeepSeek-V3 sangat mirip dalam struktur keseluruhan
- Menyediakan baik Dense maupun MoE untuk mendukung beragam tujuan penggunaan
7. SmolLM3
- Model kecil kelas 3B parameter, bersaing dengan Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
- Arsitekturnya standar, tetapi menerapkan NoPE(No Positional Embedding)
- Memanfaatkan hanya causal mask tanpa positional encoding seperti RoPE
- Meningkatkan generalisasi panjang urutan (Length Generalization) pada sekuens panjang
- Struktur eksperimental, hanya diterapkan pada sebagian layer
8. Kimi 2
- Model terbuka besar dengan 1 triliun parameter, skala terbesar di antara model terbuka
- Berdasarkan struktur DeepSeek-V3, dengan penambahan jumlah layer MoE dan penyesuaian jumlah head pada MLA
- Menggunakan optimizer Muon alih-alih AdamW untuk meningkatkan efisiensi pelatihan, dengan loss decay yang unggul
- Memiliki lebih banyak expert MoE daripada DeepSeek-V3, dengan jumlah head MLA yang lebih sedikit
- Berdasarkan pengalaman dari Kimi 1.5, Kimi 2 mencapai rilis open-weight dan performa tingkat tertinggi
Kesimpulan dan Tren
- LLM terbaru mempertahankan struktur fundamental, tetapi ditandai oleh pembesaran arsitektur serta adopsi MoE dan berbagai struktur efisiensi
- Untuk model terbuka, keterbukaan data, desain, dan kode meningkatkan nilai untuk riset dan pemanfaatan industri
- Dense dan MoE, MLA·GQA·Sliding Window Attention, serta berbagai strategi normalization menunjukkan bahwa setiap model memiliki arah optimasi yang berbeda
- Ini adalah periode ketika pilihan arsitektur makin beragam tergantung pada lingkungan hardware, tujuan penggunaan, dan efisiensi pelatihan·inferensi
2 komentar
Sepertinya Qwen bekerja dengan baik untuk bahasa Korea.
Opini Hacker News
Link ke hasil Claude
Tetapi saya sendiri tidak terlalu yakin apakah hasil ini benar-benar berguna