OpenAI secara mengejutkan merilis seri model GPT-OSS (gpt-oss-120b / gpt-oss-20b) dengan lisensi Apache 2.0. Ini adalah model berbobot terbuka pertama yang diperkenalkan sejak GPT-2 enam tahun lalu, dan berpotensi mengubah peta pasar baik dari sisi performa maupun efisiensi.
🧠 Fitur utama
- Model 20B: arsitektur Mixture of Experts (MoE)
• 4 dari 128 expert diaktifkan → menjaga performa sambil menurunkan biaya inferensi
• Mendukung FlashAttention, 128k token, dan menyertakan YaRN - Model 20B: dapat dijalankan bahkan di lingkungan GPU 16GB (termasuk Apple Silicon)
📊 Performa benchmark utama (berdasarkan GPT-OSS-120B)
- MMLU: 90.0% (mirip dengan o4-mini)
- AIME matematika: 97.9% (kelas teratas untuk matematika + tool)
- Codeforces Elo: 2622 (kemampuan coding juga berada di papan atas)
- HealthBench: performa lebih baik dibanding GPT-4o
- MMMLU (14 bahasa): 81.3% → sangat kuat juga untuk penalaran multibahasa
💡 Kepraktisan & ekosistem
- Model 120B dapat dijalankan pada satu GPU H100 80GB
- Model 20B dapat berjalan real-time bahkan di lingkungan 16GB
- Langsung kompatibel dengan HuggingFace, vLLM, Ollama, dan lainnya
🔐 Keamanan & tanggung jawab
- Memperkuat konsistensi penalaran berbasis RL
- Mengadopsi Deliberative Alignment
- Tidak menghasilkan output berisiko tinggi bahkan saat disalahgunakan secara sengaja
Sepertinya untuk sementara ejekan “ClosedAI” akan sulit dilontarkan. Saya sempat mencobanya sebentar, dan kemampuan bahasa Koreanya juga sangat bagus.
8 komentar
Bahkan model 120b pun memiliki skor simpleqa 0.168 ya
Saya mau mencoba menyajikannya dengan vllm, tetapi karena berbasis Flash Attention3, ternyata hanya mendukung Hopper, sedih sekali.
Saya juga, jadi pakai ollama…
A100 yang sudah jadi barang usang...
Untuk komentar Hacker News terkait, silakan lihat tulisan OpenAI, merilis model bahasa open-weight skala besar.
Anda dapat melihat berbagai evaluasi terhadap performanya.
Saat ingin mengetahui bahwa komputer saya lambat... bagaimana kalau mengujinya dengan prompt yang sama sambil mengukur detiknya secara langsung? ^^; Rasanya saya ingin membuka setidaknya satu Google Spreadsheet sederhana untuk mencatatnya (murni demi serunya membuat catatan).
Kabarnya, berkat kuantisasi MXFP4, model ini bisa dijalankan di Ollama bahkan pada sistem dengan memori 16GB (VRAM) (
gpt-oss:20b): https://ollama.com/blog/gpt-ossBagi yang ingin menjalankan model yang lebih besar, Anda dapat menggunakan ollama turbo seharga $20 per bulan yang baru dirilis kali ini: https://ollama.com/turbo