26 poin oleh GN⁺ 2025-07-21 | 2 komentar | Bagikan ke WhatsApp
  • Arsitektur LLM selama 7 tahun terakhir berevolusi dari GPT-2 (2019) hingga DeepSeek-V3 dan Llama 4 (2024-2025) tanpa perubahan besar secara struktural, sehingga mempertahankan kemiripan yang mengejutkan
  • Model terbaru seperti DeepSeek V3/R1, Llama 4 mengadopsi metode optimasi baru seperti Mixture-of-Experts(MoE), MLA, Sliding Window Attention untuk meningkatkan efisiensi memori dan kinerja inferensi
  • Beberapa model open source seperti OLMo 2, Gemma 3 mendapat perhatian sebagai contoh desain yang baik untuk riset dan pengembangan berkat keterbukaan data yang transparan dan penempatan normalization layer yang unik
  • Berbagai model dengan ukuran dan struktur yang beragam seperti Qwen3, SmolLM3, Kimi 2 bermunculan, memperluas pilihan berdasarkan kelebihan, kekurangan, dan tujuan penggunaan dari arsitektur MoE dan Dense
  • Tren umum LLM terbaru adalah pembesaran skala dan peningkatan kecanggihan, bersamaan dengan perbaikan struktur yang efisien dan dukungan untuk berbagai lingkungan hardware

Pendahuluan

  • Jika melihat dari prototipe GPT tahun 2017 hingga GPT-2 (2019), DeepSeek-V3, dan Llama 4 (2024-2025), arsitektur LLM pada garis besarnya tetap mirip (struktur transformer dasarnya tidak banyak berubah)
  • Positional embedding telah berubah dari bentuk absolut ke metode seperti RoPE, dan Multi-Head Attention juga beralih ke GQA (grouped query attention) yang lebih efisien dalam memori/komputasi, tetapi struktur fundamentalnya tetap dipertahankan
  • Perbandingan performa sulit dilakukan secara langsung karena bergantung pada dataset dan metode pelatihan
  • Artikel ini berfokus pada analisis perubahan struktur arsitektur pada open LLM terbaru

1. DeepSeek V3/R1

  • DeepSeek R1 (Januari 2025) dibangun berdasarkan arsitektur DeepSeek V3 (Desember 2024), dan menarik perhatian berkat kemampuan penalaran yang ditingkatkan serta parameter skala besar (671 miliar)
  • Arsitektur inti: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
  • MLA: mengompresi Key/Value ke dimensi rendah untuk mengurangi memori KV cache, dengan performa lebih baik dibanding GQA
  • MoE: modul FeedForward didistribusikan ke beberapa expert, dengan struktur sparse yang hanya mengaktifkan sebagian expert untuk setiap token
    • DeepSeek V3: 256 expert, total parameter 671B, hanya 9 expert (37B parameter) yang digunakan saat inferensi
    • Shared expert yang selalu aktif meningkatkan efisiensi pembelajaran pola umum
  • Karakteristik: meski berukuran besar (671B), tetap efisien saat inferensi, MLA unggul dibanding GQA, dan MoE menyediakan kapasitas pelatihan berskala besar

2. OLMo 2

  • Model yang sepenuhnya terbuka dari Allen Institute for AI
  • Keunggulannya bukan pada performa, melainkan pada desain yang transparan dan keterbukaan kode
  • Poin arsitektur: posisi RMSNorm (penerapan Post-Norm), QK-Norm
    • Model GPT konvensional menggunakan Pre-Norm, sedangkan OLMo 2 menerapkan normalization setelah Attention/FeedForward (varian Post-Norm)
    • QK-Norm: RMSNorm tambahan pada query/key di Attention, meningkatkan stabilitas pelatihan
  • Tetap mempertahankan struktur Multi-Head Attention(MHA) tradisional
  • Mirip dengan Llama 3 dan lainnya, tetapi dibedakan oleh strategi normalization

3. Gemma 3

  • Open LLM andalan Google, dengan ciri khas fokus pada vocabulary besar untuk dukungan multibahasa dan model berukuran 27B
  • Sliding Window Attention (window lokal) secara drastis mengurangi memori KV cache
    • Gemma 2: Global/Local 1:1, window 4k, Gemma 3: rasio 5:1, window diturunkan menjadi 1024
    • Hampir tidak berdampak pada performa (Perplexity)
  • Normalization: menerapkan RMSNorm Pre-Norm dan Post-Norm di sekitar modul GQA
  • Gemma 3n: untuk perangkat kecil, diringankan dengan Per-Layer Embedding (hanya parameter per layer yang tetap berada di GPU) dan MatFormer (menggunakan pemisahan sebagian model)

4. Mistral Small 3.1

  • Mistral Small 3.1 24B, lebih cepat daripada Gemma 3 27B dan berada di papan atas benchmark
  • Menggunakan tokenizer kustom serta pengurangan KV cache dan jumlah layer untuk meminimalkan latensi inferensi
  • Meninggalkan sliding window attention, dan menggunakan GQA yang dioptimalkan + FlashAttention dengan fokus pada kecepatan inferensi dan efisiensi kode

5. Llama 4

  • Secara aktif mengadopsi arsitektur MoE untuk mendapatkan efisiensi inferensi sekaligus kapasitas model, dengan struktur yang mirip DeepSeek-V3
  • Menggunakan GQA, dengan jumlah expert MoE dan hidden size yang berbeda
    • DeepSeek-V3: 9 expert (2,048), Llama 4: 2 expert (8,192), parameter aktif 17B (DeepSeek 37B)
  • Desain MoE klasik yang menyisipkan blok MoE dan blok Dense secara bergantian
  • Menunjukkan popularitas MoE pada LLM terbaru

6. Qwen3

  • Menyediakan versi Dense (0.6B~32B) dan MoE (30B-A3B, 235B-A22B) dalam berbagai ukuran
  • Versi kecil (0.6B) unggul dalam efisiensi pelatihan·inferensi dan token throughput. Mencapai performa yang sangat baik di kelas LLM ultra-ringan, serta sangat efisien dalam memori dan mudah dilatih
  • Dense: lebih banyak layer, memori lebih kecil, tetapi lebih lambat (dibanding Llama 3 1B)
  • MoE: Qwen3 235B-A22B memiliki 22B active param, tidak menggunakan shared expert (Qwen2.5-MoE sebelumnya menyertakan shared expert), sehingga efisiensinya meningkat
  • Qwen3 235B-A22B dan DeepSeek-V3 sangat mirip dalam struktur keseluruhan
  • Menyediakan baik Dense maupun MoE untuk mendukung beragam tujuan penggunaan

7. SmolLM3

  • Model kecil kelas 3B parameter, bersaing dengan Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
  • Arsitekturnya standar, tetapi menerapkan NoPE(No Positional Embedding)
    • Memanfaatkan hanya causal mask tanpa positional encoding seperti RoPE
    • Meningkatkan generalisasi panjang urutan (Length Generalization) pada sekuens panjang
    • Struktur eksperimental, hanya diterapkan pada sebagian layer

8. Kimi 2

  • Model terbuka besar dengan 1 triliun parameter, skala terbesar di antara model terbuka
  • Berdasarkan struktur DeepSeek-V3, dengan penambahan jumlah layer MoE dan penyesuaian jumlah head pada MLA
  • Menggunakan optimizer Muon alih-alih AdamW untuk meningkatkan efisiensi pelatihan, dengan loss decay yang unggul
  • Memiliki lebih banyak expert MoE daripada DeepSeek-V3, dengan jumlah head MLA yang lebih sedikit
  • Berdasarkan pengalaman dari Kimi 1.5, Kimi 2 mencapai rilis open-weight dan performa tingkat tertinggi

Kesimpulan dan Tren

  • LLM terbaru mempertahankan struktur fundamental, tetapi ditandai oleh pembesaran arsitektur serta adopsi MoE dan berbagai struktur efisiensi
  • Untuk model terbuka, keterbukaan data, desain, dan kode meningkatkan nilai untuk riset dan pemanfaatan industri
  • Dense dan MoE, MLA·GQA·Sliding Window Attention, serta berbagai strategi normalization menunjukkan bahwa setiap model memiliki arah optimasi yang berbeda
  • Ini adalah periode ketika pilihan arsitektur makin beragam tergantung pada lingkungan hardware, tujuan penggunaan, dan efisiensi pelatihan·inferensi

2 komentar

 
tensun 2025-07-22

Sepertinya Qwen bekerja dengan baik untuk bahasa Korea.

 
GN⁺ 2025-07-21
Opini Hacker News
  • Tulisan ini punya tingkat abstraksi dan penjelasan detail yang pas untuk mempelajari arsitektur LLM, jadi saya bisa menyerap jauh lebih banyak informasi dengan jauh lebih mudah dibanding membaca makalah aslinya
  • Bagi orang yang berada di antara pemula dan ahli, diagram-diagram dalam tulisan ini terasa sangat mengesankan; sangat berguna melihat model-model terbaru dirangkum sekilas dalam satu tempat
  • Sebagai bacaan terkait, ada juga tulisan yang menjelaskan bagaimana DeepSeek meningkatkan arsitektur transformer dan beberapa bagian dari artikel analisis tentang superintelligence Meta
  • Bagi orang seperti saya yang belum bisa mengikuti tren terbaru, rangkuman seperti ini benar-benar jadi cara catch up yang sangat disambut baik
  • Ke depannya, saya berharap ada bagian 2 yang bahkan mencakup rumor tentang model frontier closed-source seperti o5, o3 Pro, o4 atau 4.5, Gemini 2.5 Pro, Grok 4, dan Claude Opus 4
  • Terima kasih sudah merangkum perbedaan di antara berbagai arsitektur LLM secara rinci; berkat itu jadi mudah dipahami dan sangat edukatif
  • Sejujurnya, dibanding era GPT-2 (2019), laju perkembangan sekarang terasa sulit dipercaya. Belakangan ini bahkan sulit membandingkan performa LLM dengan benar karena setiap dua minggu ada model baru yang memperbarui benchmark. Senang melihat DeepSeek disebut; inovasi arsitektur yang diperkenalkan di V3 sangat meningkatkan efisiensi komputasi, dan itulah poin penentu yang saat itu menghilangkan pembeda dengan model-model lain
  • Berbagai arsitektur baru telah menghasilkan banyak inovasi dari sisi akurasi maupun kecepatan, tetapi masalah mendasar untuk menjamin keluaran informasi yang akurat masih belum terselesaikan. Berbagai pendekatan seperti Retrieval Augmented Generation (RAG) atau agen memang membantu memperbaiki masalah ini, tetapi saya juga penasaran apakah arsitektur masa depan pada akhirnya akan menggantikan pendekatan-pendekatan tersebut
    • Pada dasarnya transformer dilatih dengan tujuan memprediksi teks, dan saya rasa pendekatan ini punya keterbatasan dalam meng-embedding logika. Untuk benar-benar mengurangi halusinasi lebih jauh, saya pikir dibutuhkan tujuan pelatihan yang sepenuhnya berbeda
    • Model tidak bisa membedakan kapan boleh melakukan generalisasi dan kapan membutuhkan lebih banyak informasi. Misalnya, model sulit membedakan mengapa suatu method ada tetapi fungsi lain yang mirip tidak ada. Waktu kecil saya pernah menyebut ibu saya sebagai cooker yang hebat, karena saya belum tahu bahwa kata yang berbeda dialokasikan untuk mesin dan manusia. Saya merasa generalisasi atas kata-kata yang mirip seperti ini juga berlaku pada model
    • Arsitektur terbaru seperti DeepSeek-V2 dan Llama 3.1 menunjukkan bahwa factuality bisa meningkat cukup signifikan hanya melalui perbaikan desain. Latar belakangnya terutama adalah mekanisme attention dan tujuan pelatihan yang dioptimalkan untuk menekan halusinasi
    • RAG (respons berbasis pencarian) secara struktural sederhana dan juga mudah diimplementasikan, tetapi saya selalu penasaran mengapa sampai sekarang belum diintegrasikan ke LLM dasar. Fakta bahwa ia belum benar-benar bisa diintegrasikan ke dalam model tampaknya justru membuktikan keterbatasan mendasar RAG dan berbagai turunannya. Kalau memang benar-benar efektif, saya rasa pendekatan itu akan diperkenalkan sebagai fitur dasar arsitektur, bukan sebagai tambahan eksternal
  • Saya meminta Claude membaca teks aslinya dan mencoba mengusulkan arsitektur baru
    Link ke hasil Claude
    Tetapi saya sendiri tidak terlalu yakin apakah hasil ini benar-benar berguna