27 poin oleh GN⁺ 2025-08-11 | 1 komentar | Bagikan ke WhatsApp
  • Setelah OpenAI merilis model gpt-oss-20b/120b sebagai open weight, untuk pertama kalinya sejak GPT-2 pada 2019 muncul LLM berbobot terbuka berskala besar dari OpenAI
  • Model gpt-oss berkembang dibanding GPT-2 dengan mengganti Dropout, Absolute Position Embedding, GELU, dan lainnya dengan teknik modern yang lebih efisien seperti RoPE, SwiGLU, dan RMSNorm
  • Dengan penerapan Mixture-of-Experts (struktur pakar modular), Sliding Window Attention, dan kuantisasi MXFP4, bukan hanya efisiensi performa yang meningkat, tetapi juga lingkungan eksekusi single-GPU menjadi jauh lebih baik
  • Dalam perbandingan dengan Qwen3, terlihat adanya berbagai perbedaan pada kedalaman/lebar arsitektur, jumlah pakar, bias attention, lisensi open source, dan aspek lainnya
  • gpt-oss-20b menghadirkan peringanan yang disesuaikan dengan hardware terbaru serta fitur pengaturan reasoning effort, sehingga cocok baik untuk penggunaan nyata maupun pengembangan riset

Ikhtisar dan inovasi utama

  • OpenAI merilis gpt-oss-20b/120b sebagai open weight untuk pertama kalinya sejak GPT-2 pada 2019
    • Memungkinkan 20B dijalankan pada GPU pengguna umum (maksimum RAM 16GB), dan 120B pada H100 80GB
    • Dengan optimasi MXFP4, eksekusi single-GPU dimungkinkan dan aksesibilitas bagi pengguna konsumen diperluas

Perubahan arsitektur utama dari GPT-2 → gpt-oss

Penghapusan Dropout

  • GPT-2 menyertakan Dropout, tetapi dalam lingkungan pelatihan data besar dengan satu epoch justru terkonfirmasi menurunkan performa
  • Hasil riset terbaru juga menunjukkan bahwa tanpa Dropout, LLM memberikan performa lebih baik pada tugas downstream

Adopsi RoPE (rotary position embedding)

  • Alih-alih absolute position embedding sebelumnya, RoPE (Rotary Position Embedding) kini menjadi pendekatan arus utama
  • RoPE memutar sudut vektor query/key sesuai posisi untuk memberikan informasi posisi yang lebih fleksibel dan lebih mudah digeneralisasi

Fungsi aktivasi SwiGLU dan adopsi GLU

  • Dengan adopsi pendekatan GLU seperti GEGLU/SwiGLU, model memperoleh kemampuan representasi yang lebih baik dengan parameter lebih sedikit dibanding FFN 2-layer sebelumnya
  • Swish juga lebih efisien secara komputasi dibanding GELU

Penerapan Mixture-of-Experts (MoE)

  • Alih-alih FFN tunggal, digunakan banyak jaringan pakar (Expert) sehingga hanya sebagian pakar yang diaktifkan saat menghasilkan tiap token
  • Jumlah parameter model dapat ditingkatkan drastis sambil tetap mempertahankan efisiensi inferensi (sparsity), sekaligus memperbesar kapasitas pelatihan

Adopsi Grouped Query Attention (GQA)

  • Dibanding Multi-Head Attention tradisional, berbagi key/value mengurangi memori dan beban komputasi
  • Efisiensi meningkat tanpa kehilangan performa, dan kini menjadi tren penerapan standar pada LLM skala besar

Pemanfaatan Sliding Window Attention

  • Pada sebagian layer, alih-alih seluruh konteks, perhitungan attention lokal dilakukan dengan sliding window terbatas pada 128 token terbaru, sehingga penggunaan memori diminimalkan
  • Inferensi menjadi lebih cepat tanpa penurunan performa, sekaligus mendukung konteks besar

Adopsi RMSNorm

  • RMSNorm digunakan menggantikan LayerNorm untuk meningkatkan efisiensi komputasi
  • Alih-alih menghitung rata-rata/varians seperti pada LayerNorm, RMS (root mean square) diterapkan sehingga beban komputasi GPU berkurang

Perbandingan gpt-oss dan Qwen3

Perbedaan skala/struktur

  • Qwen3 memiliki struktur yang lebih dalam (48 blok Transformer), sedangkan gpt-oss memiliki struktur yang lebih lebar (dimensi embedding, jumlah head meningkat)
  • Model yang dalam lebih fleksibel tetapi lebih sulit dilatih, sedangkan model yang lebar lebih menguntungkan untuk paralelisasi inferensi (menurut makalah Gemma 2, pada model 9B versi lebar sedikit unggul)

Perbedaan struktur MoE

  • gpt-oss-20b: 32 pakar besar, hanya 4 yang diaktifkan
  • Qwen3: banyak pakar kecil, 8 diaktifkan
  • Tren terbaru mengarah pada anggapan bahwa konfigurasi dengan lebih banyak pakar kecil lebih efektif, tetapi gpt-oss tetap mempertahankan struktur sedikit pakar besar (pada 20B dan 120B, hanya jumlah pakar dan blok yang disesuaikan)

Attention Bias dan Sinks

  • gpt-oss menggunakan unit bias pada attention (pendekatan yang jarang terlihat sejak era GPT-2)
    • Namun, riset terbaru menunjukkan efeknya kecil pada key-proj
  • Attention sink adalah konsep token khusus yang selalu dihadiri pada posisi awal urutan, tetapi pada gpt-oss hal ini diterapkan ke tiap head dalam bentuk learned bias logit tanpa mengubah token input

Lisensi dan cakupan keterbukaan

  • Menggunakan lisensi open source Apache 2.0 sehingga bebas untuk penggunaan komersial maupun pembangunan model turunan
  • Namun, ini bukan open source sepenuhnya dalam arti sebenarnya (kode pelatihan dan dataset tidak dibuka; ini adalah model open weight)

Detail lain dan operasi nyata

Pelatihan/optimasi

  • gpt-oss dilatih dengan sumber daya komputasi sebesar 2.1M H100-hours
  • Berfokus pada bahasa Inggris dan menitikberatkan pada teks STEM, coding, dan pengetahuan umum
  • Menerapkan teknik modern seperti prapelatihan + fine-tuning terarah (Instruction), serta tahap reasoning berbasis RL

Pengaturan Reasoning Effort

  • Reasoning effort (rendah/sedang/tinggi) dapat diatur melalui system prompt untuk menyesuaikan panjang jawaban dan akurasi secara otomatis
  • Tugas sederhana bisa dijalankan cepat dengan efisiensi rendah, sementara tugas yang memerlukan reasoning kompleks dapat diatur lebih tinggi

Dukungan single-GPU dengan kuantisasi MXFP4

  • Dengan format MXFP4, model 20B pun dapat dijalankan pada 16GB VRAM (memerlukan GPU terbaru)
  • Untuk 120B, memori 80GB pada H100 sudah cukup untuk single-GPU, tanpa pemrosesan terdistribusi dan lebih mudah dijalankan

Benchmark dan kegunaan nyata

  • gpt-oss fokus pelatihannya berat ke reasoning, sehingga pada sebagian pertanyaan pengetahuan umum dapat menunjukkan kecenderungan halusinasi
  • Dari sisi kegunaan, ia termasuk model terbuka papan atas saat ini, dan diperkirakan akan makin praktis bila dipadukan dengan tool integration
  • Dalam penggunaan nyata, keseimbangan antara akurasi dan reasoning serta perbandingan lanjutan dengan model terbuka lain masih perlu dilihat

Perbandingan dengan GPT-5

  • gpt-oss-120b menunjukkan performa yang mendekati model komersial OpenAI (GPT-5) berdasarkan benchmark
  • Keunggulan di lingkungan nyata masih perlu diamati lebih lanjut, tetapi ini merupakan alternatif kuat di antara LLM terbaru yang tersedia sebagai open weight
  • Benchmark saja memiliki keterbatasan untuk sepenuhnya menjelaskan daya saing di praktik nyata, namun memberi peluang besar bagi perbandingan eksternal dan riset ke depan

Ringkasan

  • Kehadiran seri gpt-oss menetapkan tolok ukur baru bagi LLM open weight berskala besar, sekaligus menghadirkan perbandingan dan analisis rinci tentang bagaimana inovasi arsitektur modern pada LLM benar-benar diimplementasikan dan diterapkan
  • Dengan melihat perbedaan dan tren dibanding model terbaru lain seperti Qwen3 dan GPT-5, pembaca dapat memahami perkembangan mutakhir yang berguna untuk penerapan nyata maupun riset

1 komentar

 
GN⁺ 2025-08-11
Opini Hacker News
  • Saya menemukan bahwa Qwen3 jauh lebih unggul dalam pengujian lokal. Pada versi 32B parameter, model ini hampir selalu mengikuti prompt dengan sempurna dan menghasilkan keluaran yang natural. Sebaliknya, simplebench gpt-oss(120B) menunjukkan performa yang buruk pada teka-teki logika. Saya rasa perbedaan ini berasal dari cara training, dimensi model, serta pendekatan sedikit expert besar vs banyak expert kecil

    • Qwen3 32B adalah model dense yang selalu menggunakan semua parameter. GPT OSS 20B adalah model sparse MoE (Expert of Experts) yang hanya memakai sebagian parameter, sekitar 3.6B tiap kali berjalan. Karena itu model ini lebih cepat daripada model dense 20B, dan lebih pintar daripada model 3.6B. Jika ingin membandingkan secara adil, seharusnya dibandingkan dengan model dense 8B, dan model seperti Qwen Coder 30B A3B juga menjadi titik pembanding yang bagus
    • Menurut saya, perbedaan seperti ini jauh lebih dipengaruhi oleh data dan pipeline training daripada arsitektur model. Ada pembahasan bahwa gpt-oss hanya memanfaatkan dataset sintetis bergaya Phi dan terutama berfokus pada game benchmark, dan bukti untuk itu tampak cukup meyakinkan
    • Rumus performa yang diharapkan untuk MoE adalah sqrt(jumlah head aktif * total parameter). Misalnya, sqrt(120*5) ~= 24, jadi GPT-OSS 120B pada dasarnya memberikan performa setara 24B dengan kecepatan setara model yang jauh lebih kecil
    • qwen3 cenderung lambat. Saya sudah mencobanya sendiri, modelnya memang bekerja, tetapi terasa lambat dan seolah kekurangan fitur
  • Tulisan blog Sebastian Raschk seperti harta karun informasi. Saya memakai get-oss dan model qwen3 secara lokal lewat Ollama dan LM Studio, dan untuk model besar memakai API komersial. get-oss memberi hasil bagus jika prompt diberi banyak informasi konteks, dan qwen3 memang luar biasa. Sampai 3 tahun lalu saya cukup paham untuk benar-benar mengimplementasikan machine learning seperti neural network, GAN, RNN, dan LSTM, tetapi LLM belakangan ini tidak semudah itu untuk dikembangkan sendiri, dan itu agak disayangkan. Saya juga sedang melihat buku karya Sebastian Raschk, meski kemungkinan saya tidak akan menamatkannya

    • Di bidang yang berubah secepat ini, Sebastian Raschk sangat membantu karena selalu merangkum informasi terbaru dengan ringkas
  • Saya menjalankan qwen3 coder instruct 30b-a3b exl3 q6 di GPU 3090 lokal, lalu mencoba membuat halaman contoh, menjalankan server, mendeteksi server yang masih tersisa, mematikannya sendiri setelah meminta izin, lalu menjalankannya lagi dan otomatis menemukan ip untuk dibuka di browser. Sekarang ini sudah bukan sekadar demo sederhana, tetapi bantuan yang benar-benar berguna bahkan untuk junior atau intern

  • Dari pengalaman saya, qwen3-coder jauh lebih unggul. Saya juga memasang gpt-oss:20b, tetapi saat diminta merangkum kode, qwen3 memberi hasil dalam hitungan detik sedangkan gpt-oss tidak melakukan apa-apa selama lebih dari 5 menit, jadi saya hentikan. Karena itu saya hanya memakai qwen3. Jika saya tidak mendapatkan jawaban yang saya mau, saya memakai mesin pencari atau Perplexity. Saya menggunakan 10GB 3080, Ryzen 3600x, dan RAM 32GB. Qwen3-coder adalah yang terbaik yang pernah saya pakai sejauh ini

    • Qwen3 coder 480B sebagus Sonnet 4. Gara-gara itu saya untuk pertama kalinya benar-benar merasa model Tiongkok bisa segera melampaui model berbasis AS, terutama di bidang coding
    • Ada kemungkinan masalahnya muncul karena gpt-oss 20B memang tidak muat di 10GB
    • Saya juga memakai gpt-oss-20b untuk hal-hal sederhana, dan pada prompt pendek (kalimat singkat) model ini kadang masuk ke loop tak berujung. Saat dijalankan dengan llama.cpp, masalah itu hilang setelah saya menetapkan nilai repetition penalty yang kecil (biasanya saya memakainya beberapa kali sehari untuk analisis diff). Tapi bisa jadi saya cuma beruntung
    • Saya penasaran apakah Anda memakainya dengan pendekatan agentic (otomatisasi lewat banyak putaran tanya-jawab), atau hanya copy-paste sekali lalu “tolong tulis kode ini” dalam pola input/output tunggal. Saya ingin tahu seberapa jauh model terbuka terbaru sudah mengejar model komersial dalam coding yang agentic
  • Menarik bahwa LLM open-weight belakangan ini punya arsitektur yang sangat mirip, dan inovasi tampaknya hanya terjadi di sisi data atau RL. Dulu di organisasi ML besar, tuning arsitektur dianggap yang paling penting, tetapi kenyataannya sekarang tampak berbeda

    • Pada skala LLM, saya rasa tuning hyperparameter itu sendiri praktis tidak mungkin. Biayanya terlalu besar, jadi mereka hanya melakukan pengujian dasar pada beberapa arsitektur, memilih satu, lalu mengoptimalkannya lewat data dan RL
    • Poin yang bagus. Berkat LLM, sekarang siapa pun bisa mencoba asalkan punya resource yang cukup. Arsitekturnya cukup tahan terhadap penyesuaian, dan jika diberi compute serta data yang cukup, Anda masih bisa membuat model yang bagus meski melanggar scaling law (seperti yang pernah ditunjukkan Llama 3)
  • Saya benar-benar sangat puas memakai model Qwen3 4B secara lokal. Saya hampir tidak memakai model online lagi, dan pencarian web juga jadi jauh lebih terarah. Saya tidak sepenuhnya memercayainya, tetapi secara keseluruhan cukup baik. Saya yakin model open-source seperti ini akan mengubah peta otomatisasi pengetahuan lokal

    • Saya penasaran apakah Qwen sendiri yang memberi panduan parameter pencarian yang lebih baik, atau apakah Qwen benar-benar melakukan pencarian web juga
  • Di LM Arena, model dengan performa terbaik yang bukan murni berbasis Transformer adalah Jamba (struktur hibrida antara Transformers dan model state space, peringkat 96). hunyuan-turbos dari Tencent juga hibrida, dan berada di peringkat 22. Lihat paper arxiv

  • LLM biasanya dilatih pada dataset yang sangat besar hanya sekali saja (single epoch). Ini adalah lingkungan yang berbeda dari metode Dropout yang mengasumsikan pembelajaran berulang berkali-kali (ratusan epoch)

    • Ini fakta yang sudah dikenal luas. Lihat Table 2.2 di paper GPT-3
  • Saya penasaran sejauh mana model yang dirilis lab besar masih bisa berkembang jika diberi training tambahan. Misalnya, jika GPT-OSS dilatih selama 2,1 juta jam, saya ingin tahu seberapa besar peningkatannya jika itu digandakan

    • GPT-4.5 mungkin sebenarnya direncanakan sebagai GPT-5 yang lebih besar dan bisa jadi dilatih dengan lebih banyak data. Tetapi model itu terlalu mahal sehingga tidak bisa dikomersialkan secara luas, dan sayangnya kita juga tidak sempat melihat versi dengan penerapan RL
    • Sudah terlihat bahwa teknik training mutakhir berbasis RL yang dipakai di GPT-5 juga tidak bisa diskalakan tanpa batas
  • Saat membuka situsnya saya mendapat pesan error "Koneksi Anda tidak aman". Tertulis "Situs magazine.sebastianraschka.com menggunakan HSTS sehingga Anda tidak dapat mengunjunginya saat ini". Saya memakai Chrome versi terbaru di Ubuntu