Perbandingan mendetail evolusi arsitektur LLM setelah GPT-2: GPT-OSS vs. Qwen3
(magazine.sebastianraschka.com)- Setelah OpenAI merilis model gpt-oss-20b/120b sebagai open weight, untuk pertama kalinya sejak GPT-2 pada 2019 muncul LLM berbobot terbuka berskala besar dari OpenAI
- Model gpt-oss berkembang dibanding GPT-2 dengan mengganti Dropout, Absolute Position Embedding, GELU, dan lainnya dengan teknik modern yang lebih efisien seperti RoPE, SwiGLU, dan RMSNorm
- Dengan penerapan Mixture-of-Experts (struktur pakar modular), Sliding Window Attention, dan kuantisasi MXFP4, bukan hanya efisiensi performa yang meningkat, tetapi juga lingkungan eksekusi single-GPU menjadi jauh lebih baik
- Dalam perbandingan dengan Qwen3, terlihat adanya berbagai perbedaan pada kedalaman/lebar arsitektur, jumlah pakar, bias attention, lisensi open source, dan aspek lainnya
- gpt-oss-20b menghadirkan peringanan yang disesuaikan dengan hardware terbaru serta fitur pengaturan reasoning effort, sehingga cocok baik untuk penggunaan nyata maupun pengembangan riset
Ikhtisar dan inovasi utama
- OpenAI merilis gpt-oss-20b/120b sebagai open weight untuk pertama kalinya sejak GPT-2 pada 2019
- Memungkinkan 20B dijalankan pada GPU pengguna umum (maksimum RAM 16GB), dan 120B pada H100 80GB
- Dengan optimasi MXFP4, eksekusi single-GPU dimungkinkan dan aksesibilitas bagi pengguna konsumen diperluas
Perubahan arsitektur utama dari GPT-2 → gpt-oss
Penghapusan Dropout
- GPT-2 menyertakan Dropout, tetapi dalam lingkungan pelatihan data besar dengan satu epoch justru terkonfirmasi menurunkan performa
- Hasil riset terbaru juga menunjukkan bahwa tanpa Dropout, LLM memberikan performa lebih baik pada tugas downstream
Adopsi RoPE (rotary position embedding)
- Alih-alih absolute position embedding sebelumnya, RoPE (Rotary Position Embedding) kini menjadi pendekatan arus utama
- RoPE memutar sudut vektor query/key sesuai posisi untuk memberikan informasi posisi yang lebih fleksibel dan lebih mudah digeneralisasi
Fungsi aktivasi SwiGLU dan adopsi GLU
- Dengan adopsi pendekatan GLU seperti GEGLU/SwiGLU, model memperoleh kemampuan representasi yang lebih baik dengan parameter lebih sedikit dibanding FFN 2-layer sebelumnya
- Swish juga lebih efisien secara komputasi dibanding GELU
Penerapan Mixture-of-Experts (MoE)
- Alih-alih FFN tunggal, digunakan banyak jaringan pakar (Expert) sehingga hanya sebagian pakar yang diaktifkan saat menghasilkan tiap token
- Jumlah parameter model dapat ditingkatkan drastis sambil tetap mempertahankan efisiensi inferensi (sparsity), sekaligus memperbesar kapasitas pelatihan
Adopsi Grouped Query Attention (GQA)
- Dibanding Multi-Head Attention tradisional, berbagi key/value mengurangi memori dan beban komputasi
- Efisiensi meningkat tanpa kehilangan performa, dan kini menjadi tren penerapan standar pada LLM skala besar
Pemanfaatan Sliding Window Attention
- Pada sebagian layer, alih-alih seluruh konteks, perhitungan attention lokal dilakukan dengan sliding window terbatas pada 128 token terbaru, sehingga penggunaan memori diminimalkan
- Inferensi menjadi lebih cepat tanpa penurunan performa, sekaligus mendukung konteks besar
Adopsi RMSNorm
- RMSNorm digunakan menggantikan LayerNorm untuk meningkatkan efisiensi komputasi
- Alih-alih menghitung rata-rata/varians seperti pada LayerNorm, RMS (root mean square) diterapkan sehingga beban komputasi GPU berkurang
Perbandingan gpt-oss dan Qwen3
Perbedaan skala/struktur
- Qwen3 memiliki struktur yang lebih dalam (48 blok Transformer), sedangkan gpt-oss memiliki struktur yang lebih lebar (dimensi embedding, jumlah head meningkat)
- Model yang dalam lebih fleksibel tetapi lebih sulit dilatih, sedangkan model yang lebar lebih menguntungkan untuk paralelisasi inferensi (menurut makalah Gemma 2, pada model 9B versi lebar sedikit unggul)
Perbedaan struktur MoE
- gpt-oss-20b: 32 pakar besar, hanya 4 yang diaktifkan
- Qwen3: banyak pakar kecil, 8 diaktifkan
- Tren terbaru mengarah pada anggapan bahwa konfigurasi dengan lebih banyak pakar kecil lebih efektif, tetapi gpt-oss tetap mempertahankan struktur sedikit pakar besar (pada 20B dan 120B, hanya jumlah pakar dan blok yang disesuaikan)
Attention Bias dan Sinks
- gpt-oss menggunakan unit bias pada attention (pendekatan yang jarang terlihat sejak era GPT-2)
- Namun, riset terbaru menunjukkan efeknya kecil pada key-proj
- Attention sink adalah konsep token khusus yang selalu dihadiri pada posisi awal urutan, tetapi pada gpt-oss hal ini diterapkan ke tiap head dalam bentuk learned bias logit tanpa mengubah token input
Lisensi dan cakupan keterbukaan
- Menggunakan lisensi open source Apache 2.0 sehingga bebas untuk penggunaan komersial maupun pembangunan model turunan
- Namun, ini bukan open source sepenuhnya dalam arti sebenarnya (kode pelatihan dan dataset tidak dibuka; ini adalah model open weight)
Detail lain dan operasi nyata
Pelatihan/optimasi
- gpt-oss dilatih dengan sumber daya komputasi sebesar 2.1M H100-hours
- Berfokus pada bahasa Inggris dan menitikberatkan pada teks STEM, coding, dan pengetahuan umum
- Menerapkan teknik modern seperti prapelatihan + fine-tuning terarah (Instruction), serta tahap reasoning berbasis RL
Pengaturan Reasoning Effort
- Reasoning effort (rendah/sedang/tinggi) dapat diatur melalui system prompt untuk menyesuaikan panjang jawaban dan akurasi secara otomatis
- Tugas sederhana bisa dijalankan cepat dengan efisiensi rendah, sementara tugas yang memerlukan reasoning kompleks dapat diatur lebih tinggi
Dukungan single-GPU dengan kuantisasi MXFP4
- Dengan format MXFP4, model 20B pun dapat dijalankan pada 16GB VRAM (memerlukan GPU terbaru)
- Untuk 120B, memori 80GB pada H100 sudah cukup untuk single-GPU, tanpa pemrosesan terdistribusi dan lebih mudah dijalankan
Benchmark dan kegunaan nyata
- gpt-oss fokus pelatihannya berat ke reasoning, sehingga pada sebagian pertanyaan pengetahuan umum dapat menunjukkan kecenderungan halusinasi
- Dari sisi kegunaan, ia termasuk model terbuka papan atas saat ini, dan diperkirakan akan makin praktis bila dipadukan dengan tool integration
- Dalam penggunaan nyata, keseimbangan antara akurasi dan reasoning serta perbandingan lanjutan dengan model terbuka lain masih perlu dilihat
Perbandingan dengan GPT-5
- gpt-oss-120b menunjukkan performa yang mendekati model komersial OpenAI (GPT-5) berdasarkan benchmark
- Keunggulan di lingkungan nyata masih perlu diamati lebih lanjut, tetapi ini merupakan alternatif kuat di antara LLM terbaru yang tersedia sebagai open weight
- Benchmark saja memiliki keterbatasan untuk sepenuhnya menjelaskan daya saing di praktik nyata, namun memberi peluang besar bagi perbandingan eksternal dan riset ke depan
Ringkasan
- Kehadiran seri gpt-oss menetapkan tolok ukur baru bagi LLM open weight berskala besar, sekaligus menghadirkan perbandingan dan analisis rinci tentang bagaimana inovasi arsitektur modern pada LLM benar-benar diimplementasikan dan diterapkan
- Dengan melihat perbedaan dan tren dibanding model terbaru lain seperti Qwen3 dan GPT-5, pembaca dapat memahami perkembangan mutakhir yang berguna untuk penerapan nyata maupun riset
1 komentar
Opini Hacker News
Saya menemukan bahwa Qwen3 jauh lebih unggul dalam pengujian lokal. Pada versi 32B parameter, model ini hampir selalu mengikuti prompt dengan sempurna dan menghasilkan keluaran yang natural. Sebaliknya, simplebench gpt-oss(120B) menunjukkan performa yang buruk pada teka-teki logika. Saya rasa perbedaan ini berasal dari cara training, dimensi model, serta pendekatan sedikit expert besar vs banyak expert kecil
Tulisan blog Sebastian Raschk seperti harta karun informasi. Saya memakai get-oss dan model qwen3 secara lokal lewat Ollama dan LM Studio, dan untuk model besar memakai API komersial. get-oss memberi hasil bagus jika prompt diberi banyak informasi konteks, dan qwen3 memang luar biasa. Sampai 3 tahun lalu saya cukup paham untuk benar-benar mengimplementasikan machine learning seperti neural network, GAN, RNN, dan LSTM, tetapi LLM belakangan ini tidak semudah itu untuk dikembangkan sendiri, dan itu agak disayangkan. Saya juga sedang melihat buku karya Sebastian Raschk, meski kemungkinan saya tidak akan menamatkannya
Saya menjalankan qwen3 coder instruct 30b-a3b exl3 q6 di GPU 3090 lokal, lalu mencoba membuat halaman contoh, menjalankan server, mendeteksi server yang masih tersisa, mematikannya sendiri setelah meminta izin, lalu menjalankannya lagi dan otomatis menemukan ip untuk dibuka di browser. Sekarang ini sudah bukan sekadar demo sederhana, tetapi bantuan yang benar-benar berguna bahkan untuk junior atau intern
Dari pengalaman saya, qwen3-coder jauh lebih unggul. Saya juga memasang gpt-oss:20b, tetapi saat diminta merangkum kode, qwen3 memberi hasil dalam hitungan detik sedangkan gpt-oss tidak melakukan apa-apa selama lebih dari 5 menit, jadi saya hentikan. Karena itu saya hanya memakai qwen3. Jika saya tidak mendapatkan jawaban yang saya mau, saya memakai mesin pencari atau Perplexity. Saya menggunakan 10GB 3080, Ryzen 3600x, dan RAM 32GB. Qwen3-coder adalah yang terbaik yang pernah saya pakai sejauh ini
Menarik bahwa LLM open-weight belakangan ini punya arsitektur yang sangat mirip, dan inovasi tampaknya hanya terjadi di sisi data atau RL. Dulu di organisasi ML besar, tuning arsitektur dianggap yang paling penting, tetapi kenyataannya sekarang tampak berbeda
Saya benar-benar sangat puas memakai model Qwen3 4B secara lokal. Saya hampir tidak memakai model online lagi, dan pencarian web juga jadi jauh lebih terarah. Saya tidak sepenuhnya memercayainya, tetapi secara keseluruhan cukup baik. Saya yakin model open-source seperti ini akan mengubah peta otomatisasi pengetahuan lokal
Di LM Arena, model dengan performa terbaik yang bukan murni berbasis Transformer adalah Jamba (struktur hibrida antara Transformers dan model state space, peringkat 96). hunyuan-turbos dari Tencent juga hibrida, dan berada di peringkat 22. Lihat paper arxiv
LLM biasanya dilatih pada dataset yang sangat besar hanya sekali saja (single epoch). Ini adalah lingkungan yang berbeda dari metode Dropout yang mengasumsikan pembelajaran berulang berkali-kali (ratusan epoch)
Saya penasaran sejauh mana model yang dirilis lab besar masih bisa berkembang jika diberi training tambahan. Misalnya, jika GPT-OSS dilatih selama 2,1 juta jam, saya ingin tahu seberapa besar peningkatannya jika itu digandakan
Saat membuka situsnya saya mendapat pesan error "Koneksi Anda tidak aman". Tertulis "Situs magazine.sebastianraschka.com menggunakan HSTS sehingga Anda tidak dapat mengunjunginya saat ini". Saya memakai Chrome versi terbaru di Ubuntu