OpenAI Merilis Model Bahasa Open-Weight Skala Besar

(openai.com)

7 poin oleh GN⁺ 2025-08-06 | 1 komentar | Bagikan ke WhatsApp

OpenAI merilis model bahasa open-weight skala besar (gpt-oss) untuk pertama kalinya
gpt-oss-120b dan gpt-oss-20b disediakan, dengan penekanan pada performa yang kuat dan dukungan berbagai perangkat
Dengan lisensi Apache 2.0, pemanfaatan komersial, kustomisasi, dan distribusi bebas dimungkinkan
Diterapkan pelatihan untuk keamanan, ulasan pakar eksternal, serta prosedur pengujian keamanan komprehensif
Model dapat diunduh dan digunakan langsung dari Hugging Face, GitHub, dan lain-lain, serta menyediakan sumber daya untuk fine-tuning, deployment, dan kustomisasi bersama dengan Playground

Model Terbuka OpenAI

OpenAI merilis model inferensi open-weight skala besar (gpt-oss) yang dapat disesuaikan untuk semua kasus penggunaan dan dijalankan di mana saja
Berkas model dapat diunduh langsung dari Hugging Face dan GitHub, dan demo juga dapat dicoba lewat Playground berbasis web
Dengan lisensi Apache 2.0, dapat digunakan secara bebas untuk pemanfaatan komersial, kustomisasi, dan distribusi tanpa khawatir soal copyleft atau pelanggaran paten

gpt-oss-120b: model besar untuk data center, desktop, dan laptop berkinerja tinggi
gpt-oss-20b: model menengah yang dapat berjalan di sebagian besar desktop dan laptop

Fitur utama

Dioptimalkan untuk pekerjaan agen
- Penggunaan alat dan kepatuhan terhadap instruksi adalah kekuatannya, dan cocok untuk penggunaan terkait agen seperti pencarian web dan eksekusi kode Python
Kustomisasi dan fine-tuning
- Parameter hiper seperti reasoning_effort (tingkat kesulitan penalaran) dapat disetel
- Mendukung kustomisasi tingkat lanjut melalui fine-tuning seluruh parameter
Eksposur alur pemikiran (Chain-of-Thought)
- Semua pengembangan proses penalaran (alur pemikiran) model dapat dilihat, membuat debugging dan evaluasi kepercayaan menjadi lebih mudah
Menyediakan Playground
- Menyediakan Playground agar pengembang dan peneliti mana pun dapat mencoba performa model di browser

Performa model

gpt-oss-120b dan gpt-oss-20b dibandingkan secara langsung dengan model komersial OpenAI (OpenAI o3, o4-mini) pada beberapa benchmark utama
Nilai performa tiap model pada berbagai area seperti penalaran, pengetahuan, dan kompetisi matematika dipublikasikan secara rinci
Pada beberapa item, nilainya mendekati model komersial OpenAI atau pada tes tertentu menunjukkan hasil unggul

Detail Performa Benchmark Utama

Penalaran dan pengetahuan
- MMLU (Massive Multitask Language Understanding)
  - gpt-oss-120b: 90
  - gpt-oss-20b: 85.3
  - OpenAI o3: 93.4
  - OpenAI o4-mini: 93
  - → Meskipun sedikit di bawah model komersial besar, menunjukkan performa penalaran komprehensif yang sangat kuat untuk standar model terbuka
- GPQA Diamond
  - gpt-oss-120b: 80.9
  - gpt-oss-20b: 74.2
  - OpenAI o3: 77
  - OpenAI o4-mini: 81.4
  - → Meskipun merupakan model terbuka, mencapai performa tanya jawab berbasis pengetahuan tingkat lanjut yang hampir sebanding dengan model komersial
- Humanity’s Last Exam
  - gpt-oss-120b: 19
  - gpt-oss-20b: 17.3
  - OpenAI o3: 24.9
  - OpenAI o4-mini: 17.7
  - → Pada evaluasi berlevel tinggi, nilainya lebih rendah daripada model komersial, tetapi 20b hampir sama dengan o4-mini
Kompetisi Matematika (AIME)
- AIME 2024
  - gpt-oss-120b: 96.6
  - gpt-oss-20b: 96
  - OpenAI o3: 91.6
  - OpenAI o4-mini: 93.4
  - → Berdasarkan versi 2024, justru merekam skor lebih tinggi daripada model komersial
- AIME 2025
  - gpt-oss-120b: 97.9
  - gpt-oss-20b: 98.7
  - OpenAI o3: 88.9
  - OpenAI o4-mini: 92.7
  - → Di bidang matematika, juga muncul angka yang mengungguli model komersial OpenAI
Interpretasi menyeluruh
- Seri gpt-oss menunjukkan performa kuat di bidang matematika, logika, dan pengetahuan secara khusus
- Kesenjangan terhadap model komersial tidak terlalu besar, dan kemungkinan penggunaan pada layanan nyata maupun aplikasi rekayasa juga tinggi
- Sebagai model open berskala besar, model ini menjadi pilihan kompetitif untuk riset dan pengembangan, agen, serta lingkungan kustomisasi

Keamanan dan pengujian

Semua model menerapkan pelatihan dan evaluasi keamanan yang ketat
Sesuai dengan kerangka kerja kesiapan OpenAI, ketahanan terhadap fine-tuning berniat jahat juga diuji secara khusus
Bekerja sama dengan pakar keamanan eksternal, OpenAI menetapkan standar keamanan untuk model terbuka

Hugging Face dan GitHub menyediakan unduhan dan penggunaan model

1 komentar

GN⁺ 2025-08-06

Komentar Hacker News

Sepertinya mereka belum menyentuh poin utamanya
gpt-oss:20b adalah model 10 besar MMLU, tepat di belakang Gemini-2.5-Pro
Aku menjalankannya langsung di MacBook Air M3 keluaran tahun lalu
Aku sedang bereksperimen dengan berbagai model lokal di laptop dan Pixel 9 Pro; aku memprediksi level ini akan segera tercapai, tetapi ternyata sudah tercapai hari ini
Model terkini bisa dijalankan di laptop dengan biaya sekitar tagihan listrik saja (hampir gratis)
Biaya langganan $200 per bulan dan juga “air danau” tidak lagi dibutuhkan
Benar-benar mengejutkan
- Aku sudah menjalankan model 20b, tapi bahkan masalah “menyeberangi sungai hanya dengan mengganti label” pun belum terpecahkan
  Masih jauh dari SOTA dan lebih buruk dibanding beberapa model lokal tertentu seperti QwQ-32b
- Aku terus memikirkan siapa yang paling banyak memakai AI lokal
  Orang yang punya hardware tapi menghindari model berbayar?
  Atau developer yang sensitif terhadap harga dan ingin coding gratis?
  Secara pribadi, model lokal juga tidak bisa mengekstrak data dari gambar dengan benar dan banyak berhalusinasi (contohnya pada Qwen 2.5 VI)
  Aku berharap kualitas model lokal/model kecil dan performa perangkat terus membaik
  Jujur, aku memakainya karena rasa “kalau bisa dipakai, ya pakai”
  Aku penasaran alasan sebenarnya mengapa orang harus menghubungkan beberapa Mac Studio atau membeli GPU bagus untuk melakukan ini
  Alat hitung terdistribusi seperti exo idenya bagus, tapi aku penasaran seberapa banyak kasus darurat yang benar-benar membutuhkan hal sebesar itu
- Aku menerima Jevons Paradox (efek bertambahnya pemakaian saat sumber daya dipersingkat), dan merasa penggunaan akan meledak sampai suatu saat agen kulkas mensimulasikan kesadaran diri lalu menguras danau lagi
- Aku penasaran berapa banyak yang kamu ketahui tentang model open-weight terbaru
  Setelah memain-mainkannya beberapa jam, masih jauh tertinggal dibanding Qwen3-30B-A3B
  Terutama pengetahuan dunia sangat jauh tertinggal
- Sebenarnya yang “menghabiskan air danau” itu bukan inference, tetapi training
Aku membagikan tautan PDF bagi yang tertarik dengan model card
Dokumen itu membandingkan struktur model yang diperkenalkan dengan model open-weight terdepan seperti Deepseek, Qwen, GLM, dan Kimi
Secara teknis rasanya hanya “oh, begitu”
- Kedua model sama-sama memakai struktur Grouped-Query Attention (query head 64, KV head 8)
  Kombinasi optimasi lama era GPT-3 (banded window spars, 128 token) dan pola dense attention
  Menggunakan kombinasi RoPE + YaRN sehingga context window-nya 131K
  Tidak menerapkan perkembangan GQA lain seperti Multi-head Latent Attention dari Deepseek
- Kedua model adalah MoE Transformer
  Model 120B (tepatnya 116.8B, active 5.1B) mengoperasikan 128 expert dengan top-4 routing
  Gated SwiGLU activation disebutkan secara spesifik, namun arsitektur expert yang shared/routed milik Deepseek, strategi load balancing Qwen, dan sebagainya tidak dibahas
- Yang paling menarik adalah cara kuantisasi mereka
  Lebih dari 90% parameter dikuintisasi menjadi 4.25-bit/parameter (format MXFP4), sehingga model 120B bisa dimuat di GPU tunggal 80GB
  Namun Unsloth sudah melakukan kuantisasi 1.58-bit
  Secara keseluruhan, training untuk perilaku agen dan inferensi jelas sangat baik, tetapi kemajuan teknisnya terasa masih “disembunyikan di dalam”
- Aku menduga sumber rahasianya di sini kemungkinan besar distillation
  Penelitian sudah menunjukkan ketika pretraining memanfaatkan dataset sintetik berkualitas tinggi yang dibangun dari output prompt model SOTA seperti o3 alih-alih data internet, performa model kecil menjadi maksimal
  Jauh lebih efisien daripada post-processing RL pada model kecil (karena baseline model kecil rendah, jadi RL tidak efisien)
- OpenAI juga bisa dilihat sebagai pihak yang menempatkan kemajuan teknis sebenarnya di luar struktur attention
  Pada bagian structure, seolah-olah “tidak ada sumber rahasia, kalian yang tidak bisa melakukan mid/post-training dengan baik” atau setidaknya mereka ingin kita percaya begitu
  Modelnya sangat sparse, 32:1
- Aku melihat rilis MXFP4 sebagai semacam hadiah
  Dari optimasi biaya skala besar mereka, ini jadi keunggulan di sisi open source
  Kuantisasi 1.58-bit Unsloth juga mengesankan, tetapi kerugiannya terhadap full quant jelas sehingga mayoritas penggunaan LLM tetap mengutamakan akurasi
  Tidak banyak perusahaan yang menjalankan model frontier dengan reduced quant di production
  Jika OpenAI menerapkannya di prod, itu akan jadi langkah yang sangat menarik
- Analisis serupa juga bisa dilakukan di repositori github
- attention sink (pengarahan perhatian ke token khusus) juga diterapkan
  Namun bukan token khusus, melainkan diimplementasikan sebagai logit tambahan untuk attention softmax
Aku menyelesaikan impresi awal ini setelah beberapa jam: tautan ulasan detail
TL;DR: Sepertinya OpenAI merebut lagi gelar model open-weight teratas dari AI lab Tiongkok
Menanti hasil benchmark independen
Model 20B berjalan di laptop Mac dengan RAM di bawah 15GB
- Aku membuat dashboard streamlit dengan indikator MACD, RSI, MA(200).
  qwen3-coder-30b 4bit mlx menangani data terbaru dengan sangat baik dan membuat dashboard yang berjalan sempurna
  gpt-oss-20b mxfp4 tidak memuat import datetime, dan meski sudah aku perbaiki, tanggal mulai berhenti di Agustus 2020 tanpa data
  Meski menyesuaikan tanggal, fungsi update tetap error
- Di MacBook, konteks window harus dipakai terlalu pendek agar praktis, sehingga utilitas berkurang
  Aku penasaran bagaimana mereka mengatasi hal ini
- Aku penasaran seberapa baik tool calling bekerja
  Meski diputar beberapa jam, tetap tidak berjalan dengan baik
  Namun model ini tetap menjanjikan
- Karena model 20B saja tidak memakai RAM 15GB, aku pun berencana segera menjalankannya sendiri
  Aku penasaran tentang TPS (token per detik) dan spesifikasi prosesornya
Era di mana model setara o3 bisa dijalankan di Mac Mini 24GB sudah tiba
Baru-baru ini, menjalankan model modern terbaru di lokal/mobile terasa seperti misi lima tahun ke depan, tapi sekarang terlihat mungkin pada generasi ponsel berikutnya
- Meskipun ada batasan perangkat keras yang berat, model seperti Qwen tetap menunjukkan performa yang kuat
  Menantikan hasil benchmark tentang bagaimana model open source baru nanti akan dibandingkan
- Aku ingat kontroversi keamanan saat Llama dipublikasikan
  Kini kita bisa menjalankan model frontier 120B parameter di MacBook 96GB (V)RAM
  Semoga nanti bisa membandingkan dengan GLM-4.5-air jika mendapat kuantisasi MLX
- Jujur aku berharap besar pada model ini, tapi hasil evaluasi di localllama menunjukkan
  Model 120B kalah dari qwen 3 coder, glm45 air, dan grok 3 di sisi coding
  diskusi reddit
- Saat menjalankan model ukuran medium yang terkuantisasi di Mac Mini,
  aku penasaran apakah kecepatan respons 5 token/detik atau sudah benar-benar bisa dipakai
- Aku penasaran cara paling mudah saat ini agar model lokal bisa melakukan web browsing
Aku percaya model open-source akan menang dalam jangka panjang
Anthropic pun melakukan riset dengan model OSS, dan Tiongkok mengembangkan model open-source dengan iterasi cepat
Aku memprediksi pihak Amerika juga akan terus merilis model N-1 (satu generasi sebelumnya) sebagai open-weight selama 1-3 generasi
Model generasi terbaru terlalu mahal jika dijadikan OSS
Tanpa dukungan pemerintah atau inovasi daya seperti Stargate, pasti ada batasnya
Karena nilai model N-1 merosot sangat cepat, membuka OSS dan menyerap kasus penggunaan yang diperkecil/spesialisasi akan lebih bernilai dalam jangka panjang
Ada risiko kehilangan pangsa pasar, tetapi jika hasil riset terbuka dihimpun, ada peluang besar mempercepat pengembangan generasi berikutnya
Ke depan akan muncul sangat banyak model OSS kecil
Berkat rilis OSS, model yang disempurnakan di lokal dan berjalan lancar di perangkat kecil diperkirakan akan bermunculan
Pada masa depan berfokus agen, model yang dispesialisasi dan didistilasi per domain akan melimpah
Semua orang berlari ke AGI/SGI, dan model-modelnya adalah tahap antara untuk merebut pangsa pasar dan memanfaatkan data
Jika AGI/SGI terwujud, nilai sejatinya ada pada inovasi di bidang sains, rekayasa teknik, dan seluruh sektor
Penelitian Anthropic memanfaatkan model OSS seperti Qwen, Llama (Anthropic Research)
- Anthropic tidak harus bereksperimen hanya pada model terbuka
  Mereka hanya perlu menyisakan hasilnya dalam OSS agar peneliti berikutnya bisa mereplikasi
- Klaim bahwa “open model akhirnya menang” punya prasyarat
  Mulai dari definisi kemenangan saja sudah sulit
  Jika tidak demikian,
  - OSS dapat mempercepat kecepatan kompetitor
  - OSS bisa tidak memberi manfaat pada R&D sendiri
  - OSS bisa memicu persaingan produk baru global dan mengakibatkan pemborosan sumber daya
  - OSS bisa merusak model bisnis perusahaan
  - Risiko penyalahgunaan (deepfake, keamanan, bio-teror, AGI tak terkendali, dan sebagainya)
    Lihat: What failure looks like, AGI Manhattan Project? Esai Max Tegmark
- Industri tampaknya bergerak ke arah menyematkan tools, database, dan proses di atas foundation model yang kokoh
  Dalam arti ini, model OSS bisa juga merebut pasar
  Tapi aku tidak tahu nilai praktis apa yang akan muncul dari melatih dan mengelola banyak model spesialis tambahan
- Pencapaian AGI/SGI tampaknya tidak terjadi sebagai satu peristiwa tunggal
  Hanya performanya terus sedikit demi sedikit membaik
  Biaya inferensi harus cukup murah agar benar-benar bisa dimanfaatkan
  Jika targetnya profit atau inovasi, arah mana yang tepat masih jadi pertanyaan
  Isomorphic Labs adalah contohnya—merekalah modelnya (sudah ada, sekarang banyak tenaga terfokus ke sana)
- Jika OSS memang pemenang jangka panjang,
  bagi frontier lab masih tersisa pertanyaan kapan dan seberapa banyak rahasia yang pantas disertakan saat membuka OSS
  Motif praktik, operasi, dan investasi berbeda, serta tak selalu sejalan dengan negara atau kemanusiaan secara luas
Inferensi model di Python menggunakan harmony[1] yang ditulis dalam Rust, tokenization-nya tiktoken[2], dan Codex[3] juga ditulis dalam Rust
OpenAI semakin banyak memakai Rust dalam pipeline inferensi
harmony, tiktoken, codex
- Sebagai engineer yang kebanyakan memakai Rust, arus ini sangat menyenangkan
- Bagus juga kalau Python berkurang di stack
Apakah ini berarti model terbaik akan dipublikasikan dalam beberapa hari?
Secara strategis, merilis ini menandakan akan segera ada pengumuman yang lebih inovatif
- Bahkan tanpa pengumuman resmi, ini sudah strategi cerdas
  Karena tekanan besar dari model open-weight berkinerja tinggi seperti Qwen
  Jika tidak ada di fase “grace period”, bisa tertinggal di seluruh bidang
  Kesempatan masa depan pada lisensi, support teknis, agen, brand awareness, dan pangsa pasar juga besar
  Jika model seperti ini dipakai dengan tepat, akan membuat orang lebih mudah menuju OpenAI untuk model yang lebih besar
- Spekulasi rilis hari Kamis
  Taruhan hari rilis GPT-5
- GPT-5 diumumkan hari Kamis ini
- Jika tidak dipublikasikan, nilai produk berbayar lama akan tergerus
  Namun saya berpendapat sejauh ini belum ada kasus di mana keterlambatan rilis open model membahayakan produk komersial secara signifikan
- Sekitar seminggu terakhir, beberapa indikator sudah membuatku yakin bahwa GPT-5 benar-benar akan segera hadir
Model 20B yang mendekati performa o3 saja sudah membuatku terkejut
Tahun lalu, orang menganggap model sekecil ini tak mungkin punya kecerdasan seperti ini
Yang bikin semangatku bertambah lagi adalah distilasi model ratusan miliar parameter menjadi beberapa miliar sambil mentransfer “keajaiban” dengan hampir nol kehilangan
Bayangkan jika kecerdasan setara Claude 4 Opus bisa masuk ke model 10B dan dijalankan lokal pada 2.000 token/detik: cara kerja development software akan sepenuhnya berubah
- Sebenarnya model 20B ini bukan 20B penuh; karena MoE, aktif parameternya 3.6B
  Performa juga memang belum setara o3
  Metrik selalu punya gap dari realitas, jadi kualitas harus diverifikasi dengan pengujian langsung
- 10B × 2.000 t/s butuh bandwidth memori 20.000 GB/s
  Perangkat keras Apple hanya sekitar 1.000 GB/s
Sedikit topik lain, tapi aku sangat suka Ollama
Mencari model 2 detik, download 1 menit, langsung siap pakai
Kudos untuk timnya!
- Faktanya Ollama sudah dikembangkan lebih dulu dengan dukungan OpenAI
  blog resmi Ollama
- LM Studio juga sama praktisnya
  Kuncinya tetap pada llama.cpp, dan untuk distribusi, HuggingFace yang menanganinya
- Aku pernah baca berita bahwa Ollama beralih jadi closed source
  diskusi reddit terkait
Aku berhasil menghubungkan gpt-oss:20b ke claude code secara lokal via proxy tipis dan Ollama
Menarik, tetapi terlalu lambat karena prefill jadi tak bisa dipakai dalam praktik
Setiap pemakaian tool makan 2-3 menit, 10-20 kali berarti 30-60 menit
server.py (1.000 baris) punya definisi tools + konteks claude sekitar 30 ribu token, dan jika membaca file input jadi 50 ribu token
Ada ruang optimasi yang jelas
Aku tidak tahu apakah Ollama mendukung kv-cache di antara panggilan /v1/completions; jika iya, ini pasti mempercepat
- Aku tidak terlalu paham Ollama, tapi llama-server punya transparent kv cache
  Jalankan seperti ini
```
llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
```
  Web UI ada di localhost:8080 (menyediakan API kompatibel OpenAI)

OpenAI Merilis Model Bahasa Open-Weight Skala Besar

Model Terbuka OpenAI

Fitur utama

Dioptimalkan untuk pekerjaan agen

Kustomisasi dan fine-tuning

Eksposur alur pemikiran (Chain-of-Thought)

Menyediakan Playground

Performa model

Detail Performa Benchmark Utama

Penalaran dan pengetahuan

Kompetisi Matematika (AIME)

Interpretasi menyeluruh

Keamanan dan pengujian

Bacaan terkait

1 komentar

Komentar Hacker News