- Setelah OpenAI merilis model gpt-oss-20b/120b sebagai open weight, untuk pertama kalinya sejak GPT-2 pada 2019 muncul LLM berbobot terbuka berskala besar dari OpenAI
- Model gpt-oss berkembang dibanding GPT-2 dengan mengganti Dropout, Absolute Position Embedding, GELU, dan lainnya dengan teknik modern yang lebih efisien seperti RoPE, SwiGLU, dan RMSNorm
- Dengan penerapan Mixture-of-Experts (struktur pakar modular), Sliding Window Attention, dan kuantisasi MXFP4, bukan hanya efisiensi performa yang meningkat, tetapi juga lingkungan eksekusi single-GPU menjadi jauh lebih baik
- Dalam perbandingan dengan Qwen3, terlihat adanya berbagai perbedaan pada kedalaman/lebar arsitektur, jumlah pakar, bias attention, lisensi open source, dan aspek lainnya
- gpt-oss-20b menghadirkan peringanan yang disesuaikan dengan hardware terbaru serta fitur pengaturan reasoning effort, sehingga cocok baik untuk penggunaan nyata maupun pengembangan riset
Ikhtisar dan inovasi utama
- OpenAI merilis gpt-oss-20b/120b sebagai open weight untuk pertama kalinya sejak GPT-2 pada 2019
- Memungkinkan 20B dijalankan pada GPU pengguna umum (maksimum RAM 16GB), dan 120B pada H100 80GB
- Dengan optimasi MXFP4, eksekusi single-GPU dimungkinkan dan aksesibilitas bagi pengguna konsumen diperluas
Perubahan arsitektur utama dari GPT-2 → gpt-oss
Penghapusan Dropout
- GPT-2 menyertakan Dropout, tetapi dalam lingkungan pelatihan data besar dengan satu epoch justru terkonfirmasi menurunkan performa
- Hasil riset terbaru juga menunjukkan bahwa tanpa Dropout, LLM memberikan performa lebih baik pada tugas downstream
Adopsi RoPE (rotary position embedding)
- Alih-alih absolute position embedding sebelumnya, RoPE (Rotary Position Embedding) kini menjadi pendekatan arus utama
- RoPE memutar sudut vektor query/key sesuai posisi untuk memberikan informasi posisi yang lebih fleksibel dan lebih mudah digeneralisasi
Fungsi aktivasi SwiGLU dan adopsi GLU
- Dengan adopsi pendekatan GLU seperti GEGLU/SwiGLU, model memperoleh kemampuan representasi yang lebih baik dengan parameter lebih sedikit dibanding FFN 2-layer sebelumnya
- Swish juga lebih efisien secara komputasi dibanding GELU
Penerapan Mixture-of-Experts (MoE)
- Alih-alih FFN tunggal, digunakan banyak jaringan pakar (Expert) sehingga hanya sebagian pakar yang diaktifkan saat menghasilkan tiap token
- Jumlah parameter model dapat ditingkatkan drastis sambil tetap mempertahankan efisiensi inferensi (sparsity), sekaligus memperbesar kapasitas pelatihan
Adopsi Grouped Query Attention (GQA)
- Dibanding Multi-Head Attention tradisional, berbagi key/value mengurangi memori dan beban komputasi
- Efisiensi meningkat tanpa kehilangan performa, dan kini menjadi tren penerapan standar pada LLM skala besar
Pemanfaatan Sliding Window Attention
- Pada sebagian layer, alih-alih seluruh konteks, perhitungan attention lokal dilakukan dengan sliding window terbatas pada 128 token terbaru, sehingga penggunaan memori diminimalkan
- Inferensi menjadi lebih cepat tanpa penurunan performa, sekaligus mendukung konteks besar
Adopsi RMSNorm
- RMSNorm digunakan menggantikan LayerNorm untuk meningkatkan efisiensi komputasi
- Alih-alih menghitung rata-rata/varians seperti pada LayerNorm, RMS (root mean square) diterapkan sehingga beban komputasi GPU berkurang
Perbandingan gpt-oss dan Qwen3
Perbedaan skala/struktur
- Qwen3 memiliki struktur yang lebih dalam (48 blok Transformer), sedangkan gpt-oss memiliki struktur yang lebih lebar (dimensi embedding, jumlah head meningkat)
- Model yang dalam lebih fleksibel tetapi lebih sulit dilatih, sedangkan model yang lebar lebih menguntungkan untuk paralelisasi inferensi (menurut makalah Gemma 2, pada model 9B versi lebar sedikit unggul)
Perbedaan struktur MoE
- gpt-oss-20b: 32 pakar besar, hanya 4 yang diaktifkan
- Qwen3: banyak pakar kecil, 8 diaktifkan
- Tren terbaru mengarah pada anggapan bahwa konfigurasi dengan lebih banyak pakar kecil lebih efektif, tetapi gpt-oss tetap mempertahankan struktur sedikit pakar besar (pada 20B dan 120B, hanya jumlah pakar dan blok yang disesuaikan)
Attention Bias dan Sinks
- gpt-oss menggunakan unit bias pada attention (pendekatan yang jarang terlihat sejak era GPT-2)
- Namun, riset terbaru menunjukkan efeknya kecil pada key-proj
- Attention sink adalah konsep token khusus yang selalu dihadiri pada posisi awal urutan, tetapi pada gpt-oss hal ini diterapkan ke tiap head dalam bentuk learned bias logit tanpa mengubah token input
Lisensi dan cakupan keterbukaan
- Menggunakan lisensi open source Apache 2.0 sehingga bebas untuk penggunaan komersial maupun pembangunan model turunan
- Namun, ini bukan open source sepenuhnya dalam arti sebenarnya (kode pelatihan dan dataset tidak dibuka; ini adalah model open weight)
Detail lain dan operasi nyata
Pelatihan/optimasi
- gpt-oss dilatih dengan sumber daya komputasi sebesar 2.1M H100-hours
- Berfokus pada bahasa Inggris dan menitikberatkan pada teks STEM, coding, dan pengetahuan umum
- Menerapkan teknik modern seperti prapelatihan + fine-tuning terarah (Instruction), serta tahap reasoning berbasis RL
Pengaturan Reasoning Effort
- Reasoning effort (rendah/sedang/tinggi) dapat diatur melalui system prompt untuk menyesuaikan panjang jawaban dan akurasi secara otomatis
- Tugas sederhana bisa dijalankan cepat dengan efisiensi rendah, sementara tugas yang memerlukan reasoning kompleks dapat diatur lebih tinggi
Dukungan single-GPU dengan kuantisasi MXFP4
- Dengan format MXFP4, model 20B pun dapat dijalankan pada 16GB VRAM (memerlukan GPU terbaru)
- Untuk 120B, memori 80GB pada H100 sudah cukup untuk single-GPU, tanpa pemrosesan terdistribusi dan lebih mudah dijalankan
Benchmark dan kegunaan nyata
- gpt-oss fokus pelatihannya berat ke reasoning, sehingga pada sebagian pertanyaan pengetahuan umum dapat menunjukkan kecenderungan halusinasi
- Dari sisi kegunaan, ia termasuk model terbuka papan atas saat ini, dan diperkirakan akan makin praktis bila dipadukan dengan tool integration
- Dalam penggunaan nyata, keseimbangan antara akurasi dan reasoning serta perbandingan lanjutan dengan model terbuka lain masih perlu dilihat
Perbandingan dengan GPT-5
- gpt-oss-120b menunjukkan performa yang mendekati model komersial OpenAI (GPT-5) berdasarkan benchmark
- Keunggulan di lingkungan nyata masih perlu diamati lebih lanjut, tetapi ini merupakan alternatif kuat di antara LLM terbaru yang tersedia sebagai open weight
- Benchmark saja memiliki keterbatasan untuk sepenuhnya menjelaskan daya saing di praktik nyata, namun memberi peluang besar bagi perbandingan eksternal dan riset ke depan
Ringkasan
- Kehadiran seri gpt-oss menetapkan tolok ukur baru bagi LLM open weight berskala besar, sekaligus menghadirkan perbandingan dan analisis rinci tentang bagaimana inovasi arsitektur modern pada LLM benar-benar diimplementasikan dan diterapkan
- Dengan melihat perbedaan dan tren dibanding model terbaru lain seperti Qwen3 dan GPT-5, pembaca dapat memahami perkembangan mutakhir yang berguna untuk penerapan nyata maupun riset
Belum ada komentar.