50 poin oleh GN⁺ 2026-03-16 | 2 komentar | Bagikan ke WhatsApp
  • Galeri online yang merangkum dalam satu tampilan diagram struktur dan spesifikasi inti dari large language model (LLM) terbaru, mencakup model-model utama yang dirilis pada 2024~2026
  • Setiap model disusun dalam bentuk tabel yang merangkum jumlah parameter, tipe decoder, metode attention, dan poin desain utama
  • Materi diambil dari tulisan analisis perbandingan Sebastian Raschka, ‘The Big LLM Architecture Comparison’ dan ‘A Dream of Spring for Open-Weight LLMs’
  • Pengguna dapat mengeklik nama model untuk menuju penjelasan detail terkait, atau mengeklik gambar untuk memperbesar diagram arsitektur resolusi tinggi (182 megapiksel)
  • Berfungsi sebagai database arsitektur referensi bagi peneliti dan pengembang open-weight LLM, sehingga evolusi struktur MoE·Hybrid·Dense terbaru dapat dilihat di satu tempat

Ikhtisar

  • Halaman ini adalah galeri yang mengumpulkan diagram arsitektur LLM dan lembar fakta, disusun dengan mengekstrak hanya bagan dari dua artikel perbandingan utama Raschka
    • Sumber asli: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • Setiap entri model terdiri dari nama model, jumlah parameter, tanggal rilis, tipe decoder, metode attention, fitur desain utama, dan tautan konsep terkait
  • Jika menemukan informasi yang salah atau tautan yang bermasalah, pengguna dapat melaporkannya melalui GitHub issue tracker
  • Karena banyak permintaan, juga tersedia versi poster (PNG 56MB) beresolusi 14570×12490 melalui Zazzle

Contoh model utama

Llama 3 8B

  • Model berbasis Dense decoder dengan 8 miliar parameter, menjadi stack acuan untuk membandingkan pilihan normalisasi dan attention pada OLMo 2
  • Menggunakan attention GQA + RoPE, dengan struktur Pre-norm tetap dipertahankan
  • Dirilis pada 18 April 2024

OLMo 2 7B

  • Model Dense dengan 7 miliar parameter, menggunakan attention MHA + QK-Norm
  • Struktur Inside-residual post-norm untuk meningkatkan stabilitas pelatihan
  • Dirilis pada 25 November 2024

DeepSeek V3

  • Model Sparse MoE dengan 37 miliar parameter aktif dari total 671 miliar parameter
  • Menggabungkan MLA attention dengan struktur shared expert
  • Template representatif yang memicu gelombang model open MoE berskala besar

DeepSeek R1

  • Versi khusus reasoning berbasis DeepSeek V3, mempertahankan arsitektur yang sama
  • Dirilis pada 20 Januari 2025, dengan struktur Sparse MoE berbasis MLA

Gemma 3 27B

  • Model Dense dengan 27 miliar parameter, menggunakan GQA + QK-Norm serta sliding-window/global attention 5:1
  • Ditandai dengan perluasan kosakata multibahasa dan penguatan local attention
  • Dirilis pada 11 Maret 2025

Ekspansi arsitektur MoE dan Hybrid

Llama 4 Maverick

  • Model Sparse MoE dari Meta yang berbasis struktur DeepSeek V3, tetapi mengadopsi attention GQA tradisional
  • 17 miliar parameter aktif dari total 400 miliar parameter
  • Blok Dense dan MoE ditempatkan secara bergantian, mengurangi jumlah expert sambil memperbesar skalanya

Qwen3 235B-A22B

  • Struktur Sparse MoE yang mirip DeepSeek V3, tetapi tanpa shared expert
  • 22 miliar parameter aktif dari total 235 miliar parameter, menggunakan GQA + QK-Norm
  • Dirilis pada 28 April 2025

Kimi K2

  • Model Sparse MoE berskala 1 triliun parameter, memperluas DeepSeek V3
  • Menggunakan MLA attention, dengan jumlah expert lebih banyak dan jumlah head MLA lebih sedikit
  • Dirilis pada 10 Juli 2025

GLM-4.5 355B

  • Model Sparse MoE berorientasi agen yang mengadopsi struktur Dense-prefix MoE dari DeepSeek
  • 32 miliar parameter aktif dari total 355 miliar parameter, menggunakan GQA + QK-Norm
  • Dirilis pada 28 Juli 2025

GPT-OSS 20B / 120B

  • Seri open-weight MoE dari OpenAI, menggunakan cross-attention sliding-window/global berbasis GQA
  • Model 20B memiliki struktur dangkal dan lebar, sedangkan model 120B memperluas desain yang sama
  • Dirilis pada 4 Agustus 2025

Hybrid dan struktur generasi berikutnya

Qwen3 Next 80B-A3B

  • Model Sparse Hybrid yang menggunakan attention campuran Gated DeltaNet + Gated Attention
  • 3 miliar parameter aktif dari total 80 miliar parameter, mendukung konteks 262k
  • Dirilis pada 9 September 2025

Kimi Linear 48B-A3B

  • Struktur hibrida yang menggabungkan Linear Attention + MLA
  • Meningkatkan efisiensi konteks panjang dengan NoPE dan gating per kanal
  • Dirilis pada 30 Oktober 2025

Nemotron 3 Nano / Super

  • Model Transformer-State-Space Hybrid dari NVIDIA
  • Nano (30B) menggunakan Mamba-2 + MoE, sementara Super (120B) menambahkan LatentMoE + MTP
  • Dirilis masing-masing pada 4 Desember 2025 dan 11 Maret 2026

Ling 2.5 1T

  • Model Sparse Hybrid dengan 1 triliun parameter, memadukan Lightning Attention + MLA
  • 63 miliar parameter aktif, dengan komposisi attention linear/MLA berrasio 7:1
  • Dirilis pada 15 Februari 2026

Model open-weight terbaru

Qwen3.5 397B

  • Model andalan yang mewarisi hybrid attention dari Qwen3 Next
  • 17 miliar parameter aktif dari total 397 miliar parameter, dengan konfigurasi 512 expert
  • Dirilis pada 16 Februari 2026

Sarvam 30B / 105B

  • Model Sparse MoE yang berfokus pada dukungan bahasa India
  • 30B menggunakan GQA + QK-Norm, sedangkan 105B menggunakan MLA + NoPE + RoPE
  • Dirilis pada 3 Maret 2026

Artikel referensi

  • The Big LLM Architecture Comparison: menjelaskan perbedaan desain struktur decoder Dense, MoE, MLA, dan Hybrid
  • A Dream of Spring for Open-Weight LLMs: analisis tambahan model open-weight seperti MiniMax, Qwen, Ling, dan Sarvam yang dirilis pada awal 2026

2 komentar

 
orange 2026-03-17

Menarik ya.

 
GN⁺ 2026-03-16
Komentar Hacker News
  • Menarik melihat bahwa setelah bertahun-tahun eksperimen, model open-weight akhirnya berkumpul pada bentuk yang mirip
    Ada berbagai percobaan seperti routing MoE, state-space model, linear attention, tetapi sekarang tampaknya menetap pada struktur dense decoder-only transformer yang dipadukan dengan RMSNorm, rotary position embedding, SwiGLU, dan grouped-query attention
    Kini kunci diferensiasi telah bergeser ke resep pelatihan dan pipeline data
    Inovasi sejati DeepSeek-R1 bukan pada arsitekturnya, melainkan reinforcement learning untuk rantai penalaran, dan Llama 3 juga nyaris mempertahankan arsitektur yang sama, tetapi data serta proses pascapemrosesannya benar-benar baru
    Ini mirip dengan tren dalam desain chip, ketika proses fabrikasi dan mikroarsitektur menjadi lebih penting daripada ISA

  • Tulisan Sebastian selalu layak dibaca
    Saya sangat merekomendasikan bukunya, Build an LLM From Scratch. Baru lewat buku itu saya akhirnya benar-benar memahami mekanisme Transformer
    Jika melihat LLM Architecture Gallery, perbedaan antar model memang menarik, tetapi selama 7 tahun terakhir sejak GPT-2, hampir tidak ada inovasi mendasar
    Model open-weight masa kini pun, jika dilihat dari jauh, pada dasarnya masih berupa struktur berulang attention + feed-forward layer yang mirip GPT-2
    Lompatan besar belakangan ini datang berkat scaling dan teknik pelatihan baru (RLVR, dll.), dan ini tampak seperti contoh lain dari Bitter Lesson

  • Visualisasi yang sangat keren. Mengingatkan pada Neural Network Zoo yang pernah saya lihat dulu
    Seperti proyek itu yang memungkinkan kita melihat beragam arsitektur jaringan saraf dalam satu pandangan, yang ini juga berhasil menampilkan keragaman arsitektur dengan baik

  • Pekerjaan yang luar biasa
    Saya penasaran apakah ada kriteria pengurutan. Akan lebih bagus jika alur evolusi atau silsilah inovasi bisa dilihat dalam bentuk pohon keluarga
    Selain itu, jika perubahan ukuran model divisualisasikan dengan skala, rasanya laju perkembangannya bisa dipahami lebih intuitif

    • Untuk materi yang menunjukkan evolusi keluarga DeepSeek, Anda bisa merujuk ke tulisan ini
  • Keren sekali. Terima kasih sudah membagikannya
    Versi yang bisa diperbesar dapat dilihat di sini

  • Sebagai seorang ahli statistik, saya selalu menginginkan cara memahami yang modular, yang menghubungkan konsep “jaringan saraf mengaproksimasi fungsi” dengan rekayasa model machine learning yang nyata
    Materi ini terasa seperti menjembatani kesenjangan itu

  • Saya penasaran diagram ini dibuat dengan alat apa

  • Koleksi yang menarik
    Jika benar-benar membandingkan pola prompt, perbedaan arsitektur ternyata muncul dengan cara yang tak terduga
    Misalnya, jendela konteks panjang bukan hanya soal menangani lebih banyak teks, tetapi juga membuat struktur input itu sendiri dirancang berbeda

  • Saya penasaran model mana yang secara struktural paling sederhana namun tetap kompetitif

    • Daya saing lebih banyak berasal dari skala, data, dan data fine-tuning daripada arsitektur
      Dalam beberapa tahun terakhir hampir tidak ada inovasi arsitektural, dan sebagian besar perubahan ditujukan untuk meningkatkan efisiensi pelatihan
    • Jika definisi “kompetitif” dibuat longgar, Markov chain pun bisa diimplementasikan langsung
      Model Transformer adalah hasil perkembangan bertahap di atas akumulasi banyak riset sebelumnya
  • Saat mengklik, saya sempat berharap ini akan membahas LLM yang merancang gedung pencakar langit, bendungan, atau jembatan
    Saya bahkan sudah menyiapkan popcorn, jadi agak kecewa