Galeri Arsitektur LLM

(sebastianraschka.com)

50 poin oleh GN⁺ 2026-03-16 | 2 komentar | Bagikan ke WhatsApp

Galeri online yang merangkum dalam satu tampilan diagram struktur dan spesifikasi inti dari large language model (LLM) terbaru, mencakup model-model utama yang dirilis pada 2024~2026
Setiap model disusun dalam bentuk tabel yang merangkum jumlah parameter, tipe decoder, metode attention, dan poin desain utama
Materi diambil dari tulisan analisis perbandingan Sebastian Raschka, ‘The Big LLM Architecture Comparison’ dan ‘A Dream of Spring for Open-Weight LLMs’
Pengguna dapat mengeklik nama model untuk menuju penjelasan detail terkait, atau mengeklik gambar untuk memperbesar diagram arsitektur resolusi tinggi (182 megapiksel)
Berfungsi sebagai database arsitektur referensi bagi peneliti dan pengembang open-weight LLM, sehingga evolusi struktur MoE·Hybrid·Dense terbaru dapat dilihat di satu tempat

Ikhtisar

Halaman ini adalah galeri yang mengumpulkan diagram arsitektur LLM dan lembar fakta, disusun dengan mengekstrak hanya bagan dari dua artikel perbandingan utama Raschka
- Sumber asli: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
Setiap entri model terdiri dari nama model, jumlah parameter, tanggal rilis, tipe decoder, metode attention, fitur desain utama, dan tautan konsep terkait
Jika menemukan informasi yang salah atau tautan yang bermasalah, pengguna dapat melaporkannya melalui GitHub issue tracker
Karena banyak permintaan, juga tersedia versi poster (PNG 56MB) beresolusi 14570×12490 melalui Zazzle

Contoh model utama

Llama 3 8B

Model berbasis Dense decoder dengan 8 miliar parameter, menjadi stack acuan untuk membandingkan pilihan normalisasi dan attention pada OLMo 2
Menggunakan attention GQA + RoPE, dengan struktur Pre-norm tetap dipertahankan
Dirilis pada 18 April 2024

OLMo 2 7B

Model Dense dengan 7 miliar parameter, menggunakan attention MHA + QK-Norm
Struktur Inside-residual post-norm untuk meningkatkan stabilitas pelatihan
Dirilis pada 25 November 2024

DeepSeek V3

Model Sparse MoE dengan 37 miliar parameter aktif dari total 671 miliar parameter
Menggabungkan MLA attention dengan struktur shared expert
Template representatif yang memicu gelombang model open MoE berskala besar

DeepSeek R1

Versi khusus reasoning berbasis DeepSeek V3, mempertahankan arsitektur yang sama
Dirilis pada 20 Januari 2025, dengan struktur Sparse MoE berbasis MLA

Gemma 3 27B

Model Dense dengan 27 miliar parameter, menggunakan GQA + QK-Norm serta sliding-window/global attention 5:1
Ditandai dengan perluasan kosakata multibahasa dan penguatan local attention
Dirilis pada 11 Maret 2025

Ekspansi arsitektur MoE dan Hybrid

Llama 4 Maverick

Model Sparse MoE dari Meta yang berbasis struktur DeepSeek V3, tetapi mengadopsi attention GQA tradisional
17 miliar parameter aktif dari total 400 miliar parameter
Blok Dense dan MoE ditempatkan secara bergantian, mengurangi jumlah expert sambil memperbesar skalanya

Qwen3 235B-A22B

Struktur Sparse MoE yang mirip DeepSeek V3, tetapi tanpa shared expert
22 miliar parameter aktif dari total 235 miliar parameter, menggunakan GQA + QK-Norm
Dirilis pada 28 April 2025

Kimi K2

Model Sparse MoE berskala 1 triliun parameter, memperluas DeepSeek V3
Menggunakan MLA attention, dengan jumlah expert lebih banyak dan jumlah head MLA lebih sedikit
Dirilis pada 10 Juli 2025

GLM-4.5 355B

Model Sparse MoE berorientasi agen yang mengadopsi struktur Dense-prefix MoE dari DeepSeek
32 miliar parameter aktif dari total 355 miliar parameter, menggunakan GQA + QK-Norm
Dirilis pada 28 Juli 2025

GPT-OSS 20B / 120B

Seri open-weight MoE dari OpenAI, menggunakan cross-attention sliding-window/global berbasis GQA
Model 20B memiliki struktur dangkal dan lebar, sedangkan model 120B memperluas desain yang sama
Dirilis pada 4 Agustus 2025

Hybrid dan struktur generasi berikutnya

Qwen3 Next 80B-A3B

Model Sparse Hybrid yang menggunakan attention campuran Gated DeltaNet + Gated Attention
3 miliar parameter aktif dari total 80 miliar parameter, mendukung konteks 262k
Dirilis pada 9 September 2025

Kimi Linear 48B-A3B

Struktur hibrida yang menggabungkan Linear Attention + MLA
Meningkatkan efisiensi konteks panjang dengan NoPE dan gating per kanal
Dirilis pada 30 Oktober 2025

Nemotron 3 Nano / Super

Model Transformer-State-Space Hybrid dari NVIDIA
Nano (30B) menggunakan Mamba-2 + MoE, sementara Super (120B) menambahkan LatentMoE + MTP
Dirilis masing-masing pada 4 Desember 2025 dan 11 Maret 2026

Ling 2.5 1T

Model Sparse Hybrid dengan 1 triliun parameter, memadukan Lightning Attention + MLA
63 miliar parameter aktif, dengan komposisi attention linear/MLA berrasio 7:1
Dirilis pada 15 Februari 2026

Model open-weight terbaru

Qwen3.5 397B

Model andalan yang mewarisi hybrid attention dari Qwen3 Next
17 miliar parameter aktif dari total 397 miliar parameter, dengan konfigurasi 512 expert
Dirilis pada 16 Februari 2026

Sarvam 30B / 105B

Model Sparse MoE yang berfokus pada dukungan bahasa India
30B menggunakan GQA + QK-Norm, sedangkan 105B menggunakan MLA + NoPE + RoPE
Dirilis pada 3 Maret 2026

Artikel referensi

The Big LLM Architecture Comparison: menjelaskan perbedaan desain struktur decoder Dense, MoE, MLA, dan Hybrid
A Dream of Spring for Open-Weight LLMs: analisis tambahan model open-weight seperti MiniMax, Qwen, Ling, dan Sarvam yang dirilis pada awal 2026

2 komentar

orange 2026-03-17

Menarik ya.

GN⁺ 2026-03-16

Komentar Hacker News

Menarik melihat bahwa setelah bertahun-tahun eksperimen, model open-weight akhirnya berkumpul pada bentuk yang mirip
Ada berbagai percobaan seperti routing MoE, state-space model, linear attention, tetapi sekarang tampaknya menetap pada struktur dense decoder-only transformer yang dipadukan dengan RMSNorm, rotary position embedding, SwiGLU, dan grouped-query attention
Kini kunci diferensiasi telah bergeser ke resep pelatihan dan pipeline data
Inovasi sejati DeepSeek-R1 bukan pada arsitekturnya, melainkan reinforcement learning untuk rantai penalaran, dan Llama 3 juga nyaris mempertahankan arsitektur yang sama, tetapi data serta proses pascapemrosesannya benar-benar baru
Ini mirip dengan tren dalam desain chip, ketika proses fabrikasi dan mikroarsitektur menjadi lebih penting daripada ISA
Tulisan Sebastian selalu layak dibaca
Saya sangat merekomendasikan bukunya, Build an LLM From Scratch. Baru lewat buku itu saya akhirnya benar-benar memahami mekanisme Transformer
Jika melihat LLM Architecture Gallery, perbedaan antar model memang menarik, tetapi selama 7 tahun terakhir sejak GPT-2, hampir tidak ada inovasi mendasar
Model open-weight masa kini pun, jika dilihat dari jauh, pada dasarnya masih berupa struktur berulang attention + feed-forward layer yang mirip GPT-2
Lompatan besar belakangan ini datang berkat scaling dan teknik pelatihan baru (RLVR, dll.), dan ini tampak seperti contoh lain dari Bitter Lesson
Visualisasi yang sangat keren. Mengingatkan pada Neural Network Zoo yang pernah saya lihat dulu
Seperti proyek itu yang memungkinkan kita melihat beragam arsitektur jaringan saraf dalam satu pandangan, yang ini juga berhasil menampilkan keragaman arsitektur dengan baik
Pekerjaan yang luar biasa
Saya penasaran apakah ada kriteria pengurutan. Akan lebih bagus jika alur evolusi atau silsilah inovasi bisa dilihat dalam bentuk pohon keluarga
Selain itu, jika perubahan ukuran model divisualisasikan dengan skala, rasanya laju perkembangannya bisa dipahami lebih intuitif
- Untuk materi yang menunjukkan evolusi keluarga DeepSeek, Anda bisa merujuk ke tulisan ini
Keren sekali. Terima kasih sudah membagikannya
Versi yang bisa diperbesar dapat dilihat di sini
Sebagai seorang ahli statistik, saya selalu menginginkan cara memahami yang modular, yang menghubungkan konsep “jaringan saraf mengaproksimasi fungsi” dengan rekayasa model machine learning yang nyata
Materi ini terasa seperti menjembatani kesenjangan itu
Saya penasaran diagram ini dibuat dengan alat apa
Koleksi yang menarik
Jika benar-benar membandingkan pola prompt, perbedaan arsitektur ternyata muncul dengan cara yang tak terduga
Misalnya, jendela konteks panjang bukan hanya soal menangani lebih banyak teks, tetapi juga membuat struktur input itu sendiri dirancang berbeda
Saya penasaran model mana yang secara struktural paling sederhana namun tetap kompetitif
- Daya saing lebih banyak berasal dari skala, data, dan data fine-tuning daripada arsitektur
  Dalam beberapa tahun terakhir hampir tidak ada inovasi arsitektural, dan sebagian besar perubahan ditujukan untuk meningkatkan efisiensi pelatihan
- Jika definisi “kompetitif” dibuat longgar, Markov chain pun bisa diimplementasikan langsung
  Model Transformer adalah hasil perkembangan bertahap di atas akumulasi banyak riset sebelumnya
Saat mengklik, saya sempat berharap ini akan membahas LLM yang merancang gedung pencakar langit, bendungan, atau jembatan
Saya bahkan sudah menyiapkan popcorn, jadi agak kecewa

Galeri Arsitektur LLM

Ikhtisar

Contoh model utama

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

Ekspansi arsitektur MoE dan Hybrid

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Hybrid dan struktur generasi berikutnya

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

Model open-weight terbaru

Qwen3.5 397B

Sarvam 30B / 105B

Artikel referensi

Bacaan terkait

2 komentar

Komentar Hacker News