Perbandingan mendetail evolusi arsitektur LLM setelah GPT-2: GPT-OSS vs. Qwen3

(magazine.sebastianraschka.com)

27 poin oleh GN⁺ 2025-08-11 | Belum ada komentar. | Bagikan ke WhatsApp

Setelah OpenAI merilis model gpt-oss-20b/120b sebagai open weight, untuk pertama kalinya sejak GPT-2 pada 2019 muncul LLM berbobot terbuka berskala besar dari OpenAI
Model gpt-oss berkembang dibanding GPT-2 dengan mengganti Dropout, Absolute Position Embedding, GELU, dan lainnya dengan teknik modern yang lebih efisien seperti RoPE, SwiGLU, dan RMSNorm
Dengan penerapan Mixture-of-Experts (struktur pakar modular), Sliding Window Attention, dan kuantisasi MXFP4, bukan hanya efisiensi performa yang meningkat, tetapi juga lingkungan eksekusi single-GPU menjadi jauh lebih baik
Dalam perbandingan dengan Qwen3, terlihat adanya berbagai perbedaan pada kedalaman/lebar arsitektur, jumlah pakar, bias attention, lisensi open source, dan aspek lainnya
gpt-oss-20b menghadirkan peringanan yang disesuaikan dengan hardware terbaru serta fitur pengaturan reasoning effort, sehingga cocok baik untuk penggunaan nyata maupun pengembangan riset

Ikhtisar dan inovasi utama

OpenAI merilis gpt-oss-20b/120b sebagai open weight untuk pertama kalinya sejak GPT-2 pada 2019
- Memungkinkan 20B dijalankan pada GPU pengguna umum (maksimum RAM 16GB), dan 120B pada H100 80GB
- Dengan optimasi MXFP4, eksekusi single-GPU dimungkinkan dan aksesibilitas bagi pengguna konsumen diperluas

Perubahan arsitektur utama dari GPT-2 → gpt-oss

Penghapusan Dropout

GPT-2 menyertakan Dropout, tetapi dalam lingkungan pelatihan data besar dengan satu epoch justru terkonfirmasi menurunkan performa
Hasil riset terbaru juga menunjukkan bahwa tanpa Dropout, LLM memberikan performa lebih baik pada tugas downstream

Adopsi RoPE (rotary position embedding)

Alih-alih absolute position embedding sebelumnya, RoPE (Rotary Position Embedding) kini menjadi pendekatan arus utama
RoPE memutar sudut vektor query/key sesuai posisi untuk memberikan informasi posisi yang lebih fleksibel dan lebih mudah digeneralisasi

Fungsi aktivasi SwiGLU dan adopsi GLU

Dengan adopsi pendekatan GLU seperti GEGLU/SwiGLU, model memperoleh kemampuan representasi yang lebih baik dengan parameter lebih sedikit dibanding FFN 2-layer sebelumnya
Swish juga lebih efisien secara komputasi dibanding GELU

Penerapan Mixture-of-Experts (MoE)

Alih-alih FFN tunggal, digunakan banyak jaringan pakar (Expert) sehingga hanya sebagian pakar yang diaktifkan saat menghasilkan tiap token
Jumlah parameter model dapat ditingkatkan drastis sambil tetap mempertahankan efisiensi inferensi (sparsity), sekaligus memperbesar kapasitas pelatihan

Adopsi Grouped Query Attention (GQA)

Dibanding Multi-Head Attention tradisional, berbagi key/value mengurangi memori dan beban komputasi
Efisiensi meningkat tanpa kehilangan performa, dan kini menjadi tren penerapan standar pada LLM skala besar

Pemanfaatan Sliding Window Attention

Pada sebagian layer, alih-alih seluruh konteks, perhitungan attention lokal dilakukan dengan sliding window terbatas pada 128 token terbaru, sehingga penggunaan memori diminimalkan
Inferensi menjadi lebih cepat tanpa penurunan performa, sekaligus mendukung konteks besar

Adopsi RMSNorm

RMSNorm digunakan menggantikan LayerNorm untuk meningkatkan efisiensi komputasi
Alih-alih menghitung rata-rata/varians seperti pada LayerNorm, RMS (root mean square) diterapkan sehingga beban komputasi GPU berkurang

Perbandingan gpt-oss dan Qwen3

Perbedaan skala/struktur

Qwen3 memiliki struktur yang lebih dalam (48 blok Transformer), sedangkan gpt-oss memiliki struktur yang lebih lebar (dimensi embedding, jumlah head meningkat)
Model yang dalam lebih fleksibel tetapi lebih sulit dilatih, sedangkan model yang lebar lebih menguntungkan untuk paralelisasi inferensi (menurut makalah Gemma 2, pada model 9B versi lebar sedikit unggul)

Perbedaan struktur MoE

gpt-oss-20b: 32 pakar besar, hanya 4 yang diaktifkan
Qwen3: banyak pakar kecil, 8 diaktifkan
Tren terbaru mengarah pada anggapan bahwa konfigurasi dengan lebih banyak pakar kecil lebih efektif, tetapi gpt-oss tetap mempertahankan struktur sedikit pakar besar (pada 20B dan 120B, hanya jumlah pakar dan blok yang disesuaikan)

Attention Bias dan Sinks

gpt-oss menggunakan unit bias pada attention (pendekatan yang jarang terlihat sejak era GPT-2)
- Namun, riset terbaru menunjukkan efeknya kecil pada key-proj
Attention sink adalah konsep token khusus yang selalu dihadiri pada posisi awal urutan, tetapi pada gpt-oss hal ini diterapkan ke tiap head dalam bentuk learned bias logit tanpa mengubah token input

Lisensi dan cakupan keterbukaan

Menggunakan lisensi open source Apache 2.0 sehingga bebas untuk penggunaan komersial maupun pembangunan model turunan
Namun, ini bukan open source sepenuhnya dalam arti sebenarnya (kode pelatihan dan dataset tidak dibuka; ini adalah model open weight)

Detail lain dan operasi nyata

Pelatihan/optimasi

gpt-oss dilatih dengan sumber daya komputasi sebesar 2.1M H100-hours
Berfokus pada bahasa Inggris dan menitikberatkan pada teks STEM, coding, dan pengetahuan umum
Menerapkan teknik modern seperti prapelatihan + fine-tuning terarah (Instruction), serta tahap reasoning berbasis RL

Pengaturan Reasoning Effort

Reasoning effort (rendah/sedang/tinggi) dapat diatur melalui system prompt untuk menyesuaikan panjang jawaban dan akurasi secara otomatis
Tugas sederhana bisa dijalankan cepat dengan efisiensi rendah, sementara tugas yang memerlukan reasoning kompleks dapat diatur lebih tinggi

Dukungan single-GPU dengan kuantisasi MXFP4

Dengan format MXFP4, model 20B pun dapat dijalankan pada 16GB VRAM (memerlukan GPU terbaru)
Untuk 120B, memori 80GB pada H100 sudah cukup untuk single-GPU, tanpa pemrosesan terdistribusi dan lebih mudah dijalankan

Benchmark dan kegunaan nyata

gpt-oss fokus pelatihannya berat ke reasoning, sehingga pada sebagian pertanyaan pengetahuan umum dapat menunjukkan kecenderungan halusinasi
Dari sisi kegunaan, ia termasuk model terbuka papan atas saat ini, dan diperkirakan akan makin praktis bila dipadukan dengan tool integration
Dalam penggunaan nyata, keseimbangan antara akurasi dan reasoning serta perbandingan lanjutan dengan model terbuka lain masih perlu dilihat

Perbandingan dengan GPT-5

gpt-oss-120b menunjukkan performa yang mendekati model komersial OpenAI (GPT-5) berdasarkan benchmark
Keunggulan di lingkungan nyata masih perlu diamati lebih lanjut, tetapi ini merupakan alternatif kuat di antara LLM terbaru yang tersedia sebagai open weight
Benchmark saja memiliki keterbatasan untuk sepenuhnya menjelaskan daya saing di praktik nyata, namun memberi peluang besar bagi perbandingan eksternal dan riset ke depan

Ringkasan

Kehadiran seri gpt-oss menetapkan tolok ukur baru bagi LLM open weight berskala besar, sekaligus menghadirkan perbandingan dan analisis rinci tentang bagaimana inovasi arsitektur modern pada LLM benar-benar diimplementasikan dan diterapkan
Dengan melihat perbedaan dan tren dibanding model terbaru lain seperti Qwen3 dan GPT-5, pembaca dapat memahami perkembangan mutakhir yang berguna untuk penerapan nyata maupun riset

Perbandingan mendetail evolusi arsitektur LLM setelah GPT-2: GPT-OSS vs. Qwen3

Ikhtisar dan inovasi utama

Perubahan arsitektur utama dari GPT-2 → gpt-oss

Penghapusan Dropout

Adopsi RoPE (rotary position embedding)

Fungsi aktivasi SwiGLU dan adopsi GLU

Penerapan Mixture-of-Experts (MoE)

Adopsi Grouped Query Attention (GQA)

Pemanfaatan Sliding Window Attention

Adopsi RMSNorm

Perbandingan gpt-oss dan Qwen3

Perbedaan skala/struktur

Perbedaan struktur MoE

Attention Bias dan Sinks

Lisensi dan cakupan keterbukaan

Detail lain dan operasi nyata

Pelatihan/optimasi

Pengaturan Reasoning Effort

Dukungan single-GPU dengan kuantisasi MXFP4

Benchmark dan kegunaan nyata

Perbandingan dengan GPT-5

Ringkasan

Bacaan terkait

Belum ada komentar.