- Galeri online yang merangkum dalam satu tampilan diagram struktur dan spesifikasi inti dari large language model (LLM) terbaru, mencakup model-model utama yang dirilis pada 2024~2026
- Setiap model disusun dalam bentuk tabel yang merangkum jumlah parameter, tipe decoder, metode attention, dan poin desain utama
- Materi diambil dari tulisan analisis perbandingan Sebastian Raschka, ‘The Big LLM Architecture Comparison’ dan ‘A Dream of Spring for Open-Weight LLMs’
- Pengguna dapat mengeklik nama model untuk menuju penjelasan detail terkait, atau mengeklik gambar untuk memperbesar diagram arsitektur resolusi tinggi (182 megapiksel)
- Berfungsi sebagai database arsitektur referensi bagi peneliti dan pengembang open-weight LLM, sehingga evolusi struktur MoE·Hybrid·Dense terbaru dapat dilihat di satu tempat
Ikhtisar
- Halaman ini adalah galeri yang mengumpulkan diagram arsitektur LLM dan lembar fakta, disusun dengan mengekstrak hanya bagan dari dua artikel perbandingan utama Raschka
- Sumber asli: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- Setiap entri model terdiri dari nama model, jumlah parameter, tanggal rilis, tipe decoder, metode attention, fitur desain utama, dan tautan konsep terkait
- Jika menemukan informasi yang salah atau tautan yang bermasalah, pengguna dapat melaporkannya melalui GitHub issue tracker
- Karena banyak permintaan, juga tersedia versi poster (PNG 56MB) beresolusi 14570×12490 melalui Zazzle
Contoh model utama
Llama 3 8B
- Model berbasis Dense decoder dengan 8 miliar parameter, menjadi stack acuan untuk membandingkan pilihan normalisasi dan attention pada OLMo 2
- Menggunakan attention GQA + RoPE, dengan struktur Pre-norm tetap dipertahankan
- Dirilis pada 18 April 2024
OLMo 2 7B
- Model Dense dengan 7 miliar parameter, menggunakan attention MHA + QK-Norm
- Struktur Inside-residual post-norm untuk meningkatkan stabilitas pelatihan
- Dirilis pada 25 November 2024
DeepSeek V3
- Model Sparse MoE dengan 37 miliar parameter aktif dari total 671 miliar parameter
- Menggabungkan MLA attention dengan struktur shared expert
- Template representatif yang memicu gelombang model open MoE berskala besar
DeepSeek R1
- Versi khusus reasoning berbasis DeepSeek V3, mempertahankan arsitektur yang sama
- Dirilis pada 20 Januari 2025, dengan struktur Sparse MoE berbasis MLA
Gemma 3 27B
- Model Dense dengan 27 miliar parameter, menggunakan GQA + QK-Norm serta sliding-window/global attention 5:1
- Ditandai dengan perluasan kosakata multibahasa dan penguatan local attention
- Dirilis pada 11 Maret 2025
Ekspansi arsitektur MoE dan Hybrid
Llama 4 Maverick
- Model Sparse MoE dari Meta yang berbasis struktur DeepSeek V3, tetapi mengadopsi attention GQA tradisional
- 17 miliar parameter aktif dari total 400 miliar parameter
- Blok Dense dan MoE ditempatkan secara bergantian, mengurangi jumlah expert sambil memperbesar skalanya
Qwen3 235B-A22B
- Struktur Sparse MoE yang mirip DeepSeek V3, tetapi tanpa shared expert
- 22 miliar parameter aktif dari total 235 miliar parameter, menggunakan GQA + QK-Norm
- Dirilis pada 28 April 2025
Kimi K2
- Model Sparse MoE berskala 1 triliun parameter, memperluas DeepSeek V3
- Menggunakan MLA attention, dengan jumlah expert lebih banyak dan jumlah head MLA lebih sedikit
- Dirilis pada 10 Juli 2025
GLM-4.5 355B
- Model Sparse MoE berorientasi agen yang mengadopsi struktur Dense-prefix MoE dari DeepSeek
- 32 miliar parameter aktif dari total 355 miliar parameter, menggunakan GQA + QK-Norm
- Dirilis pada 28 Juli 2025
GPT-OSS 20B / 120B
- Seri open-weight MoE dari OpenAI, menggunakan cross-attention sliding-window/global berbasis GQA
- Model 20B memiliki struktur dangkal dan lebar, sedangkan model 120B memperluas desain yang sama
- Dirilis pada 4 Agustus 2025
Hybrid dan struktur generasi berikutnya
Qwen3 Next 80B-A3B
- Model Sparse Hybrid yang menggunakan attention campuran Gated DeltaNet + Gated Attention
- 3 miliar parameter aktif dari total 80 miliar parameter, mendukung konteks 262k
- Dirilis pada 9 September 2025
Kimi Linear 48B-A3B
- Struktur hibrida yang menggabungkan Linear Attention + MLA
- Meningkatkan efisiensi konteks panjang dengan NoPE dan gating per kanal
- Dirilis pada 30 Oktober 2025
Nemotron 3 Nano / Super
- Model Transformer-State-Space Hybrid dari NVIDIA
- Nano (30B) menggunakan Mamba-2 + MoE, sementara Super (120B) menambahkan LatentMoE + MTP
- Dirilis masing-masing pada 4 Desember 2025 dan 11 Maret 2026
Ling 2.5 1T
- Model Sparse Hybrid dengan 1 triliun parameter, memadukan Lightning Attention + MLA
- 63 miliar parameter aktif, dengan komposisi attention linear/MLA berrasio 7:1
- Dirilis pada 15 Februari 2026
Model open-weight terbaru
Qwen3.5 397B
- Model andalan yang mewarisi hybrid attention dari Qwen3 Next
- 17 miliar parameter aktif dari total 397 miliar parameter, dengan konfigurasi 512 expert
- Dirilis pada 16 Februari 2026
Sarvam 30B / 105B
- Model Sparse MoE yang berfokus pada dukungan bahasa India
- 30B menggunakan GQA + QK-Norm, sedangkan 105B menggunakan MLA + NoPE + RoPE
- Dirilis pada 3 Maret 2026
Artikel referensi
- The Big LLM Architecture Comparison: menjelaskan perbedaan desain struktur decoder Dense, MoE, MLA, dan Hybrid
- A Dream of Spring for Open-Weight LLMs: analisis tambahan model open-weight seperti MiniMax, Qwen, Ling, dan Sarvam yang dirilis pada awal 2026
2 komentar
Menarik ya.
Komentar Hacker News
Menarik melihat bahwa setelah bertahun-tahun eksperimen, model open-weight akhirnya berkumpul pada bentuk yang mirip
Ada berbagai percobaan seperti routing MoE, state-space model, linear attention, tetapi sekarang tampaknya menetap pada struktur dense decoder-only transformer yang dipadukan dengan RMSNorm, rotary position embedding, SwiGLU, dan grouped-query attention
Kini kunci diferensiasi telah bergeser ke resep pelatihan dan pipeline data
Inovasi sejati DeepSeek-R1 bukan pada arsitekturnya, melainkan reinforcement learning untuk rantai penalaran, dan Llama 3 juga nyaris mempertahankan arsitektur yang sama, tetapi data serta proses pascapemrosesannya benar-benar baru
Ini mirip dengan tren dalam desain chip, ketika proses fabrikasi dan mikroarsitektur menjadi lebih penting daripada ISA
Tulisan Sebastian selalu layak dibaca
Saya sangat merekomendasikan bukunya, Build an LLM From Scratch. Baru lewat buku itu saya akhirnya benar-benar memahami mekanisme Transformer
Jika melihat LLM Architecture Gallery, perbedaan antar model memang menarik, tetapi selama 7 tahun terakhir sejak GPT-2, hampir tidak ada inovasi mendasar
Model open-weight masa kini pun, jika dilihat dari jauh, pada dasarnya masih berupa struktur berulang attention + feed-forward layer yang mirip GPT-2
Lompatan besar belakangan ini datang berkat scaling dan teknik pelatihan baru (RLVR, dll.), dan ini tampak seperti contoh lain dari Bitter Lesson
Visualisasi yang sangat keren. Mengingatkan pada Neural Network Zoo yang pernah saya lihat dulu
Seperti proyek itu yang memungkinkan kita melihat beragam arsitektur jaringan saraf dalam satu pandangan, yang ini juga berhasil menampilkan keragaman arsitektur dengan baik
Pekerjaan yang luar biasa
Saya penasaran apakah ada kriteria pengurutan. Akan lebih bagus jika alur evolusi atau silsilah inovasi bisa dilihat dalam bentuk pohon keluarga
Selain itu, jika perubahan ukuran model divisualisasikan dengan skala, rasanya laju perkembangannya bisa dipahami lebih intuitif
Keren sekali. Terima kasih sudah membagikannya
Versi yang bisa diperbesar dapat dilihat di sini
Sebagai seorang ahli statistik, saya selalu menginginkan cara memahami yang modular, yang menghubungkan konsep “jaringan saraf mengaproksimasi fungsi” dengan rekayasa model machine learning yang nyata
Materi ini terasa seperti menjembatani kesenjangan itu
Saya penasaran diagram ini dibuat dengan alat apa
Koleksi yang menarik
Jika benar-benar membandingkan pola prompt, perbedaan arsitektur ternyata muncul dengan cara yang tak terduga
Misalnya, jendela konteks panjang bukan hanya soal menangani lebih banyak teks, tetapi juga membuat struktur input itu sendiri dirancang berbeda
Saya penasaran model mana yang secara struktural paling sederhana namun tetap kompetitif
Dalam beberapa tahun terakhir hampir tidak ada inovasi arsitektural, dan sebagian besar perubahan ditujukan untuk meningkatkan efisiensi pelatihan
Model Transformer adalah hasil perkembangan bertahap di atas akumulasi banyak riset sebelumnya
Saat mengklik, saya sempat berharap ini akan membahas LLM yang merancang gedung pencakar langit, bendungan, atau jembatan
Saya bahkan sudah menyiapkan popcorn, jadi agak kecewa