OpenAI Merilis Model Bahasa Open-Weight Skala Besar
(openai.com)- OpenAI merilis model bahasa open-weight skala besar (gpt-oss) untuk pertama kalinya
- gpt-oss-120b dan gpt-oss-20b disediakan, dengan penekanan pada performa yang kuat dan dukungan berbagai perangkat
- Dengan lisensi Apache 2.0, pemanfaatan komersial, kustomisasi, dan distribusi bebas dimungkinkan
- Diterapkan pelatihan untuk keamanan, ulasan pakar eksternal, serta prosedur pengujian keamanan komprehensif
- Model dapat diunduh dan digunakan langsung dari Hugging Face, GitHub, dan lain-lain, serta menyediakan sumber daya untuk fine-tuning, deployment, dan kustomisasi bersama dengan Playground
Model Terbuka OpenAI
- OpenAI merilis model inferensi open-weight skala besar (gpt-oss) yang dapat disesuaikan untuk semua kasus penggunaan dan dijalankan di mana saja
- Berkas model dapat diunduh langsung dari Hugging Face dan GitHub, dan demo juga dapat dicoba lewat Playground berbasis web
- Dengan lisensi Apache 2.0, dapat digunakan secara bebas untuk pemanfaatan komersial, kustomisasi, dan distribusi tanpa khawatir soal copyleft atau pelanggaran paten
- gpt-oss-120b: model besar untuk data center, desktop, dan laptop berkinerja tinggi
- gpt-oss-20b: model menengah yang dapat berjalan di sebagian besar desktop dan laptop
Fitur utama
-
Dioptimalkan untuk pekerjaan agen
- Penggunaan alat dan kepatuhan terhadap instruksi adalah kekuatannya, dan cocok untuk penggunaan terkait agen seperti pencarian web dan eksekusi kode Python
-
Kustomisasi dan fine-tuning
- Parameter hiper seperti
reasoning_effort(tingkat kesulitan penalaran) dapat disetel - Mendukung kustomisasi tingkat lanjut melalui fine-tuning seluruh parameter
- Parameter hiper seperti
-
Eksposur alur pemikiran (Chain-of-Thought)
- Semua pengembangan proses penalaran (alur pemikiran) model dapat dilihat, membuat debugging dan evaluasi kepercayaan menjadi lebih mudah
-
Menyediakan Playground
- Menyediakan Playground agar pengembang dan peneliti mana pun dapat mencoba performa model di browser
Performa model
- gpt-oss-120b dan gpt-oss-20b dibandingkan secara langsung dengan model komersial OpenAI (OpenAI o3, o4-mini) pada beberapa benchmark utama
- Nilai performa tiap model pada berbagai area seperti penalaran, pengetahuan, dan kompetisi matematika dipublikasikan secara rinci
- Pada beberapa item, nilainya mendekati model komersial OpenAI atau pada tes tertentu menunjukkan hasil unggul
Detail Performa Benchmark Utama
-
Penalaran dan pengetahuan
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Meskipun sedikit di bawah model komersial besar, menunjukkan performa penalaran komprehensif yang sangat kuat untuk standar model terbuka
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Meskipun merupakan model terbuka, mencapai performa tanya jawab berbasis pengetahuan tingkat lanjut yang hampir sebanding dengan model komersial
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Pada evaluasi berlevel tinggi, nilainya lebih rendah daripada model komersial, tetapi 20b hampir sama dengan o4-mini
- MMLU (Massive Multitask Language Understanding)
-
Kompetisi Matematika (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Berdasarkan versi 2024, justru merekam skor lebih tinggi daripada model komersial
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → Di bidang matematika, juga muncul angka yang mengungguli model komersial OpenAI
- AIME 2024
-
Interpretasi menyeluruh
- Seri gpt-oss menunjukkan performa kuat di bidang matematika, logika, dan pengetahuan secara khusus
- Kesenjangan terhadap model komersial tidak terlalu besar, dan kemungkinan penggunaan pada layanan nyata maupun aplikasi rekayasa juga tinggi
- Sebagai model open berskala besar, model ini menjadi pilihan kompetitif untuk riset dan pengembangan, agen, serta lingkungan kustomisasi
Keamanan dan pengujian
- Semua model menerapkan pelatihan dan evaluasi keamanan yang ketat
- Sesuai dengan kerangka kerja kesiapan OpenAI, ketahanan terhadap fine-tuning berniat jahat juga diuji secara khusus
- Bekerja sama dengan pakar keamanan eksternal, OpenAI menetapkan standar keamanan untuk model terbuka
- Hugging Face dan GitHub menyediakan unduhan dan penggunaan model
1 komentar
Komentar Hacker News
Sepertinya mereka belum menyentuh poin utamanya
gpt-oss:20b adalah model 10 besar MMLU, tepat di belakang Gemini-2.5-Pro
Aku menjalankannya langsung di MacBook Air M3 keluaran tahun lalu
Aku sedang bereksperimen dengan berbagai model lokal di laptop dan Pixel 9 Pro; aku memprediksi level ini akan segera tercapai, tetapi ternyata sudah tercapai hari ini
Model terkini bisa dijalankan di laptop dengan biaya sekitar tagihan listrik saja (hampir gratis)
Biaya langganan $200 per bulan dan juga “air danau” tidak lagi dibutuhkan
Benar-benar mengejutkan
Aku sudah menjalankan model 20b, tapi bahkan masalah “menyeberangi sungai hanya dengan mengganti label” pun belum terpecahkan
Masih jauh dari SOTA dan lebih buruk dibanding beberapa model lokal tertentu seperti QwQ-32b
Aku terus memikirkan siapa yang paling banyak memakai AI lokal
Orang yang punya hardware tapi menghindari model berbayar?
Atau developer yang sensitif terhadap harga dan ingin coding gratis?
Secara pribadi, model lokal juga tidak bisa mengekstrak data dari gambar dengan benar dan banyak berhalusinasi (contohnya pada Qwen 2.5 VI)
Aku berharap kualitas model lokal/model kecil dan performa perangkat terus membaik
Jujur, aku memakainya karena rasa “kalau bisa dipakai, ya pakai”
Aku penasaran alasan sebenarnya mengapa orang harus menghubungkan beberapa Mac Studio atau membeli GPU bagus untuk melakukan ini
Alat hitung terdistribusi seperti exo idenya bagus, tapi aku penasaran seberapa banyak kasus darurat yang benar-benar membutuhkan hal sebesar itu
Aku menerima Jevons Paradox (efek bertambahnya pemakaian saat sumber daya dipersingkat), dan merasa penggunaan akan meledak sampai suatu saat agen kulkas mensimulasikan kesadaran diri lalu menguras danau lagi
Aku penasaran berapa banyak yang kamu ketahui tentang model open-weight terbaru
Setelah memain-mainkannya beberapa jam, masih jauh tertinggal dibanding Qwen3-30B-A3B
Terutama pengetahuan dunia sangat jauh tertinggal
Sebenarnya yang “menghabiskan air danau” itu bukan inference, tetapi training
Aku membagikan tautan PDF bagi yang tertarik dengan model card
Dokumen itu membandingkan struktur model yang diperkenalkan dengan model open-weight terdepan seperti Deepseek, Qwen, GLM, dan Kimi
Secara teknis rasanya hanya “oh, begitu”
Kombinasi optimasi lama era GPT-3 (banded window spars, 128 token) dan pola dense attention
Menggunakan kombinasi RoPE + YaRN sehingga context window-nya 131K
Tidak menerapkan perkembangan GQA lain seperti Multi-head Latent Attention dari Deepseek
Model 120B (tepatnya 116.8B, active 5.1B) mengoperasikan 128 expert dengan top-4 routing
Gated SwiGLU activation disebutkan secara spesifik, namun arsitektur expert yang shared/routed milik Deepseek, strategi load balancing Qwen, dan sebagainya tidak dibahas
Lebih dari 90% parameter dikuintisasi menjadi 4.25-bit/parameter (format MXFP4), sehingga model 120B bisa dimuat di GPU tunggal 80GB
Namun Unsloth sudah melakukan kuantisasi 1.58-bit
Secara keseluruhan, training untuk perilaku agen dan inferensi jelas sangat baik, tetapi kemajuan teknisnya terasa masih “disembunyikan di dalam”
Aku menduga sumber rahasianya di sini kemungkinan besar distillation
Penelitian sudah menunjukkan ketika pretraining memanfaatkan dataset sintetik berkualitas tinggi yang dibangun dari output prompt model SOTA seperti o3 alih-alih data internet, performa model kecil menjadi maksimal
Jauh lebih efisien daripada post-processing RL pada model kecil (karena baseline model kecil rendah, jadi RL tidak efisien)
OpenAI juga bisa dilihat sebagai pihak yang menempatkan kemajuan teknis sebenarnya di luar struktur attention
Pada bagian structure, seolah-olah “tidak ada sumber rahasia, kalian yang tidak bisa melakukan mid/post-training dengan baik” atau setidaknya mereka ingin kita percaya begitu
Modelnya sangat sparse, 32:1
Aku melihat rilis MXFP4 sebagai semacam hadiah
Dari optimasi biaya skala besar mereka, ini jadi keunggulan di sisi open source
Kuantisasi 1.58-bit Unsloth juga mengesankan, tetapi kerugiannya terhadap full quant jelas sehingga mayoritas penggunaan LLM tetap mengutamakan akurasi
Tidak banyak perusahaan yang menjalankan model frontier dengan reduced quant di production
Jika OpenAI menerapkannya di prod, itu akan jadi langkah yang sangat menarik
Analisis serupa juga bisa dilakukan di repositori github
attention sink (pengarahan perhatian ke token khusus) juga diterapkan
Namun bukan token khusus, melainkan diimplementasikan sebagai logit tambahan untuk attention softmax
Aku menyelesaikan impresi awal ini setelah beberapa jam: tautan ulasan detail
TL;DR: Sepertinya OpenAI merebut lagi gelar model open-weight teratas dari AI lab Tiongkok
Menanti hasil benchmark independen
Model 20B berjalan di laptop Mac dengan RAM di bawah 15GB
Aku membuat dashboard streamlit dengan indikator MACD, RSI, MA(200).
qwen3-coder-30b 4bit mlx menangani data terbaru dengan sangat baik dan membuat dashboard yang berjalan sempurna
gpt-oss-20b mxfp4 tidak memuat import datetime, dan meski sudah aku perbaiki, tanggal mulai berhenti di Agustus 2020 tanpa data
Meski menyesuaikan tanggal, fungsi update tetap error
Di MacBook, konteks window harus dipakai terlalu pendek agar praktis, sehingga utilitas berkurang
Aku penasaran bagaimana mereka mengatasi hal ini
Aku penasaran seberapa baik tool calling bekerja
Meski diputar beberapa jam, tetap tidak berjalan dengan baik
Namun model ini tetap menjanjikan
Karena model 20B saja tidak memakai RAM 15GB, aku pun berencana segera menjalankannya sendiri
Aku penasaran tentang TPS (token per detik) dan spesifikasi prosesornya
Era di mana model setara o3 bisa dijalankan di Mac Mini 24GB sudah tiba
Baru-baru ini, menjalankan model modern terbaru di lokal/mobile terasa seperti misi lima tahun ke depan, tapi sekarang terlihat mungkin pada generasi ponsel berikutnya
Meskipun ada batasan perangkat keras yang berat, model seperti Qwen tetap menunjukkan performa yang kuat
Menantikan hasil benchmark tentang bagaimana model open source baru nanti akan dibandingkan
Aku ingat kontroversi keamanan saat Llama dipublikasikan
Kini kita bisa menjalankan model frontier 120B parameter di MacBook 96GB (V)RAM
Semoga nanti bisa membandingkan dengan GLM-4.5-air jika mendapat kuantisasi MLX
Jujur aku berharap besar pada model ini, tapi hasil evaluasi di localllama menunjukkan
Model 120B kalah dari qwen 3 coder, glm45 air, dan grok 3 di sisi coding
diskusi reddit
Saat menjalankan model ukuran medium yang terkuantisasi di Mac Mini,
aku penasaran apakah kecepatan respons 5 token/detik atau sudah benar-benar bisa dipakai
Aku penasaran cara paling mudah saat ini agar model lokal bisa melakukan web browsing
Aku percaya model open-source akan menang dalam jangka panjang
Anthropic pun melakukan riset dengan model OSS, dan Tiongkok mengembangkan model open-source dengan iterasi cepat
Aku memprediksi pihak Amerika juga akan terus merilis model N-1 (satu generasi sebelumnya) sebagai open-weight selama 1-3 generasi
Model generasi terbaru terlalu mahal jika dijadikan OSS
Tanpa dukungan pemerintah atau inovasi daya seperti Stargate, pasti ada batasnya
Karena nilai model N-1 merosot sangat cepat, membuka OSS dan menyerap kasus penggunaan yang diperkecil/spesialisasi akan lebih bernilai dalam jangka panjang
Ada risiko kehilangan pangsa pasar, tetapi jika hasil riset terbuka dihimpun, ada peluang besar mempercepat pengembangan generasi berikutnya
Ke depan akan muncul sangat banyak model OSS kecil
Berkat rilis OSS, model yang disempurnakan di lokal dan berjalan lancar di perangkat kecil diperkirakan akan bermunculan
Pada masa depan berfokus agen, model yang dispesialisasi dan didistilasi per domain akan melimpah
Semua orang berlari ke AGI/SGI, dan model-modelnya adalah tahap antara untuk merebut pangsa pasar dan memanfaatkan data
Jika AGI/SGI terwujud, nilai sejatinya ada pada inovasi di bidang sains, rekayasa teknik, dan seluruh sektor
Penelitian Anthropic memanfaatkan model OSS seperti Qwen, Llama (Anthropic Research)
Anthropic tidak harus bereksperimen hanya pada model terbuka
Mereka hanya perlu menyisakan hasilnya dalam OSS agar peneliti berikutnya bisa mereplikasi
Klaim bahwa “open model akhirnya menang” punya prasyarat
Mulai dari definisi kemenangan saja sudah sulit
Jika tidak demikian,
Lihat: What failure looks like, AGI Manhattan Project? Esai Max Tegmark
Industri tampaknya bergerak ke arah menyematkan tools, database, dan proses di atas foundation model yang kokoh
Dalam arti ini, model OSS bisa juga merebut pasar
Tapi aku tidak tahu nilai praktis apa yang akan muncul dari melatih dan mengelola banyak model spesialis tambahan
Pencapaian AGI/SGI tampaknya tidak terjadi sebagai satu peristiwa tunggal
Hanya performanya terus sedikit demi sedikit membaik
Biaya inferensi harus cukup murah agar benar-benar bisa dimanfaatkan
Jika targetnya profit atau inovasi, arah mana yang tepat masih jadi pertanyaan
Isomorphic Labs adalah contohnya—merekalah modelnya (sudah ada, sekarang banyak tenaga terfokus ke sana)
Jika OSS memang pemenang jangka panjang,
bagi frontier lab masih tersisa pertanyaan kapan dan seberapa banyak rahasia yang pantas disertakan saat membuka OSS
Motif praktik, operasi, dan investasi berbeda, serta tak selalu sejalan dengan negara atau kemanusiaan secara luas
Inferensi model di Python menggunakan harmony[1] yang ditulis dalam Rust, tokenization-nya tiktoken[2], dan Codex[3] juga ditulis dalam Rust
OpenAI semakin banyak memakai Rust dalam pipeline inferensi
harmony, tiktoken, codex
Sebagai engineer yang kebanyakan memakai Rust, arus ini sangat menyenangkan
Bagus juga kalau Python berkurang di stack
Apakah ini berarti model terbaik akan dipublikasikan dalam beberapa hari?
Secara strategis, merilis ini menandakan akan segera ada pengumuman yang lebih inovatif
Bahkan tanpa pengumuman resmi, ini sudah strategi cerdas
Karena tekanan besar dari model open-weight berkinerja tinggi seperti Qwen
Jika tidak ada di fase “grace period”, bisa tertinggal di seluruh bidang
Kesempatan masa depan pada lisensi, support teknis, agen, brand awareness, dan pangsa pasar juga besar
Jika model seperti ini dipakai dengan tepat, akan membuat orang lebih mudah menuju OpenAI untuk model yang lebih besar
Spekulasi rilis hari Kamis
Taruhan hari rilis GPT-5
GPT-5 diumumkan hari Kamis ini
Jika tidak dipublikasikan, nilai produk berbayar lama akan tergerus
Namun saya berpendapat sejauh ini belum ada kasus di mana keterlambatan rilis open model membahayakan produk komersial secara signifikan
Sekitar seminggu terakhir, beberapa indikator sudah membuatku yakin bahwa GPT-5 benar-benar akan segera hadir
Model 20B yang mendekati performa o3 saja sudah membuatku terkejut
Tahun lalu, orang menganggap model sekecil ini tak mungkin punya kecerdasan seperti ini
Yang bikin semangatku bertambah lagi adalah distilasi model ratusan miliar parameter menjadi beberapa miliar sambil mentransfer “keajaiban” dengan hampir nol kehilangan
Bayangkan jika kecerdasan setara Claude 4 Opus bisa masuk ke model 10B dan dijalankan lokal pada 2.000 token/detik: cara kerja development software akan sepenuhnya berubah
Sebenarnya model 20B ini bukan 20B penuh; karena MoE, aktif parameternya 3.6B
Performa juga memang belum setara o3
Metrik selalu punya gap dari realitas, jadi kualitas harus diverifikasi dengan pengujian langsung
10B × 2.000 t/s butuh bandwidth memori 20.000 GB/s
Perangkat keras Apple hanya sekitar 1.000 GB/s
Sedikit topik lain, tapi aku sangat suka Ollama
Mencari model 2 detik, download 1 menit, langsung siap pakai
Kudos untuk timnya!
Faktanya Ollama sudah dikembangkan lebih dulu dengan dukungan OpenAI
blog resmi Ollama
LM Studio juga sama praktisnya
Kuncinya tetap pada llama.cpp, dan untuk distribusi, HuggingFace yang menanganinya
Aku pernah baca berita bahwa Ollama beralih jadi closed source
diskusi reddit terkait
Aku berhasil menghubungkan gpt-oss:20b ke claude code secara lokal via proxy tipis dan Ollama
Menarik, tetapi terlalu lambat karena prefill jadi tak bisa dipakai dalam praktik
Setiap pemakaian tool makan 2-3 menit, 10-20 kali berarti 30-60 menit
server.py (1.000 baris) punya definisi tools + konteks claude sekitar 30 ribu token, dan jika membaca file input jadi 50 ribu token
Ada ruang optimasi yang jelas
Aku tidak tahu apakah Ollama mendukung kv-cache di antara panggilan /v1/completions; jika iya, ini pasti mempercepat
Jalankan seperti ini Web UI ada di localhost:8080 (menyediakan API kompatibel OpenAI)