7 poin oleh GN⁺ 2025-08-06 | 1 komentar | Bagikan ke WhatsApp
  • OpenAI merilis model bahasa open-weight skala besar (gpt-oss) untuk pertama kalinya
  • gpt-oss-120b dan gpt-oss-20b disediakan, dengan penekanan pada performa yang kuat dan dukungan berbagai perangkat
  • Dengan lisensi Apache 2.0, pemanfaatan komersial, kustomisasi, dan distribusi bebas dimungkinkan
  • Diterapkan pelatihan untuk keamanan, ulasan pakar eksternal, serta prosedur pengujian keamanan komprehensif
  • Model dapat diunduh dan digunakan langsung dari Hugging Face, GitHub, dan lain-lain, serta menyediakan sumber daya untuk fine-tuning, deployment, dan kustomisasi bersama dengan Playground

Model Terbuka OpenAI

  • OpenAI merilis model inferensi open-weight skala besar (gpt-oss) yang dapat disesuaikan untuk semua kasus penggunaan dan dijalankan di mana saja
  • Berkas model dapat diunduh langsung dari Hugging Face dan GitHub, dan demo juga dapat dicoba lewat Playground berbasis web
  • Dengan lisensi Apache 2.0, dapat digunakan secara bebas untuk pemanfaatan komersial, kustomisasi, dan distribusi tanpa khawatir soal copyleft atau pelanggaran paten
  • gpt-oss-120b: model besar untuk data center, desktop, dan laptop berkinerja tinggi
  • gpt-oss-20b: model menengah yang dapat berjalan di sebagian besar desktop dan laptop

Fitur utama

  • Dioptimalkan untuk pekerjaan agen

    • Penggunaan alat dan kepatuhan terhadap instruksi adalah kekuatannya, dan cocok untuk penggunaan terkait agen seperti pencarian web dan eksekusi kode Python
  • Kustomisasi dan fine-tuning

    • Parameter hiper seperti reasoning_effort (tingkat kesulitan penalaran) dapat disetel
    • Mendukung kustomisasi tingkat lanjut melalui fine-tuning seluruh parameter
  • Eksposur alur pemikiran (Chain-of-Thought)

    • Semua pengembangan proses penalaran (alur pemikiran) model dapat dilihat, membuat debugging dan evaluasi kepercayaan menjadi lebih mudah
  • Menyediakan Playground

    • Menyediakan Playground agar pengembang dan peneliti mana pun dapat mencoba performa model di browser

Performa model

  • gpt-oss-120b dan gpt-oss-20b dibandingkan secara langsung dengan model komersial OpenAI (OpenAI o3, o4-mini) pada beberapa benchmark utama
  • Nilai performa tiap model pada berbagai area seperti penalaran, pengetahuan, dan kompetisi matematika dipublikasikan secara rinci
  • Pada beberapa item, nilainya mendekati model komersial OpenAI atau pada tes tertentu menunjukkan hasil unggul

Detail Performa Benchmark Utama

  • Penalaran dan pengetahuan

    • MMLU (Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → Meskipun sedikit di bawah model komersial besar, menunjukkan performa penalaran komprehensif yang sangat kuat untuk standar model terbuka
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → Meskipun merupakan model terbuka, mencapai performa tanya jawab berbasis pengetahuan tingkat lanjut yang hampir sebanding dengan model komersial
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → Pada evaluasi berlevel tinggi, nilainya lebih rendah daripada model komersial, tetapi 20b hampir sama dengan o4-mini
  • Kompetisi Matematika (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • Berdasarkan versi 2024, justru merekam skor lebih tinggi daripada model komersial
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • Di bidang matematika, juga muncul angka yang mengungguli model komersial OpenAI
  • Interpretasi menyeluruh

    • Seri gpt-oss menunjukkan performa kuat di bidang matematika, logika, dan pengetahuan secara khusus
    • Kesenjangan terhadap model komersial tidak terlalu besar, dan kemungkinan penggunaan pada layanan nyata maupun aplikasi rekayasa juga tinggi
    • Sebagai model open berskala besar, model ini menjadi pilihan kompetitif untuk riset dan pengembangan, agen, serta lingkungan kustomisasi

Keamanan dan pengujian

  • Semua model menerapkan pelatihan dan evaluasi keamanan yang ketat
  • Sesuai dengan kerangka kerja kesiapan OpenAI, ketahanan terhadap fine-tuning berniat jahat juga diuji secara khusus
  • Bekerja sama dengan pakar keamanan eksternal, OpenAI menetapkan standar keamanan untuk model terbuka

1 komentar

 
GN⁺ 2025-08-06
Komentar Hacker News
  • Sepertinya mereka belum menyentuh poin utamanya
    gpt-oss:20b adalah model 10 besar MMLU, tepat di belakang Gemini-2.5-Pro
    Aku menjalankannya langsung di MacBook Air M3 keluaran tahun lalu
    Aku sedang bereksperimen dengan berbagai model lokal di laptop dan Pixel 9 Pro; aku memprediksi level ini akan segera tercapai, tetapi ternyata sudah tercapai hari ini
    Model terkini bisa dijalankan di laptop dengan biaya sekitar tagihan listrik saja (hampir gratis)
    Biaya langganan $200 per bulan dan juga “air danau” tidak lagi dibutuhkan
    Benar-benar mengejutkan

    • Aku sudah menjalankan model 20b, tapi bahkan masalah “menyeberangi sungai hanya dengan mengganti label” pun belum terpecahkan
      Masih jauh dari SOTA dan lebih buruk dibanding beberapa model lokal tertentu seperti QwQ-32b

    • Aku terus memikirkan siapa yang paling banyak memakai AI lokal
      Orang yang punya hardware tapi menghindari model berbayar?
      Atau developer yang sensitif terhadap harga dan ingin coding gratis?
      Secara pribadi, model lokal juga tidak bisa mengekstrak data dari gambar dengan benar dan banyak berhalusinasi (contohnya pada Qwen 2.5 VI)
      Aku berharap kualitas model lokal/model kecil dan performa perangkat terus membaik
      Jujur, aku memakainya karena rasa “kalau bisa dipakai, ya pakai”
      Aku penasaran alasan sebenarnya mengapa orang harus menghubungkan beberapa Mac Studio atau membeli GPU bagus untuk melakukan ini
      Alat hitung terdistribusi seperti exo idenya bagus, tapi aku penasaran seberapa banyak kasus darurat yang benar-benar membutuhkan hal sebesar itu

    • Aku menerima Jevons Paradox (efek bertambahnya pemakaian saat sumber daya dipersingkat), dan merasa penggunaan akan meledak sampai suatu saat agen kulkas mensimulasikan kesadaran diri lalu menguras danau lagi

    • Aku penasaran berapa banyak yang kamu ketahui tentang model open-weight terbaru
      Setelah memain-mainkannya beberapa jam, masih jauh tertinggal dibanding Qwen3-30B-A3B
      Terutama pengetahuan dunia sangat jauh tertinggal

    • Sebenarnya yang “menghabiskan air danau” itu bukan inference, tetapi training

  • Aku membagikan tautan PDF bagi yang tertarik dengan model card
    Dokumen itu membandingkan struktur model yang diperkenalkan dengan model open-weight terdepan seperti Deepseek, Qwen, GLM, dan Kimi
    Secara teknis rasanya hanya “oh, begitu”

    • Kedua model sama-sama memakai struktur Grouped-Query Attention (query head 64, KV head 8)
      Kombinasi optimasi lama era GPT-3 (banded window spars, 128 token) dan pola dense attention
      Menggunakan kombinasi RoPE + YaRN sehingga context window-nya 131K
      Tidak menerapkan perkembangan GQA lain seperti Multi-head Latent Attention dari Deepseek
    • Kedua model adalah MoE Transformer
      Model 120B (tepatnya 116.8B, active 5.1B) mengoperasikan 128 expert dengan top-4 routing
      Gated SwiGLU activation disebutkan secara spesifik, namun arsitektur expert yang shared/routed milik Deepseek, strategi load balancing Qwen, dan sebagainya tidak dibahas
    • Yang paling menarik adalah cara kuantisasi mereka
      Lebih dari 90% parameter dikuintisasi menjadi 4.25-bit/parameter (format MXFP4), sehingga model 120B bisa dimuat di GPU tunggal 80GB
      Namun Unsloth sudah melakukan kuantisasi 1.58-bit
      Secara keseluruhan, training untuk perilaku agen dan inferensi jelas sangat baik, tetapi kemajuan teknisnya terasa masih “disembunyikan di dalam”
    • Aku menduga sumber rahasianya di sini kemungkinan besar distillation
      Penelitian sudah menunjukkan ketika pretraining memanfaatkan dataset sintetik berkualitas tinggi yang dibangun dari output prompt model SOTA seperti o3 alih-alih data internet, performa model kecil menjadi maksimal
      Jauh lebih efisien daripada post-processing RL pada model kecil (karena baseline model kecil rendah, jadi RL tidak efisien)

    • OpenAI juga bisa dilihat sebagai pihak yang menempatkan kemajuan teknis sebenarnya di luar struktur attention
      Pada bagian structure, seolah-olah “tidak ada sumber rahasia, kalian yang tidak bisa melakukan mid/post-training dengan baik” atau setidaknya mereka ingin kita percaya begitu
      Modelnya sangat sparse, 32:1

    • Aku melihat rilis MXFP4 sebagai semacam hadiah
      Dari optimasi biaya skala besar mereka, ini jadi keunggulan di sisi open source
      Kuantisasi 1.58-bit Unsloth juga mengesankan, tetapi kerugiannya terhadap full quant jelas sehingga mayoritas penggunaan LLM tetap mengutamakan akurasi
      Tidak banyak perusahaan yang menjalankan model frontier dengan reduced quant di production
      Jika OpenAI menerapkannya di prod, itu akan jadi langkah yang sangat menarik

    • Analisis serupa juga bisa dilakukan di repositori github

    • attention sink (pengarahan perhatian ke token khusus) juga diterapkan
      Namun bukan token khusus, melainkan diimplementasikan sebagai logit tambahan untuk attention softmax

  • Aku menyelesaikan impresi awal ini setelah beberapa jam: tautan ulasan detail
    TL;DR: Sepertinya OpenAI merebut lagi gelar model open-weight teratas dari AI lab Tiongkok
    Menanti hasil benchmark independen
    Model 20B berjalan di laptop Mac dengan RAM di bawah 15GB

    • Aku membuat dashboard streamlit dengan indikator MACD, RSI, MA(200).
      qwen3-coder-30b 4bit mlx menangani data terbaru dengan sangat baik dan membuat dashboard yang berjalan sempurna
      gpt-oss-20b mxfp4 tidak memuat import datetime, dan meski sudah aku perbaiki, tanggal mulai berhenti di Agustus 2020 tanpa data
      Meski menyesuaikan tanggal, fungsi update tetap error

    • Di MacBook, konteks window harus dipakai terlalu pendek agar praktis, sehingga utilitas berkurang
      Aku penasaran bagaimana mereka mengatasi hal ini

    • Aku penasaran seberapa baik tool calling bekerja
      Meski diputar beberapa jam, tetap tidak berjalan dengan baik
      Namun model ini tetap menjanjikan

    • Karena model 20B saja tidak memakai RAM 15GB, aku pun berencana segera menjalankannya sendiri
      Aku penasaran tentang TPS (token per detik) dan spesifikasi prosesornya

  • Era di mana model setara o3 bisa dijalankan di Mac Mini 24GB sudah tiba
    Baru-baru ini, menjalankan model modern terbaru di lokal/mobile terasa seperti misi lima tahun ke depan, tapi sekarang terlihat mungkin pada generasi ponsel berikutnya

    • Meskipun ada batasan perangkat keras yang berat, model seperti Qwen tetap menunjukkan performa yang kuat
      Menantikan hasil benchmark tentang bagaimana model open source baru nanti akan dibandingkan

    • Aku ingat kontroversi keamanan saat Llama dipublikasikan
      Kini kita bisa menjalankan model frontier 120B parameter di MacBook 96GB (V)RAM
      Semoga nanti bisa membandingkan dengan GLM-4.5-air jika mendapat kuantisasi MLX

    • Jujur aku berharap besar pada model ini, tapi hasil evaluasi di localllama menunjukkan
      Model 120B kalah dari qwen 3 coder, glm45 air, dan grok 3 di sisi coding
      diskusi reddit

    • Saat menjalankan model ukuran medium yang terkuantisasi di Mac Mini,
      aku penasaran apakah kecepatan respons 5 token/detik atau sudah benar-benar bisa dipakai

    • Aku penasaran cara paling mudah saat ini agar model lokal bisa melakukan web browsing

  • Aku percaya model open-source akan menang dalam jangka panjang
    Anthropic pun melakukan riset dengan model OSS, dan Tiongkok mengembangkan model open-source dengan iterasi cepat
    Aku memprediksi pihak Amerika juga akan terus merilis model N-1 (satu generasi sebelumnya) sebagai open-weight selama 1-3 generasi
    Model generasi terbaru terlalu mahal jika dijadikan OSS
    Tanpa dukungan pemerintah atau inovasi daya seperti Stargate, pasti ada batasnya
    Karena nilai model N-1 merosot sangat cepat, membuka OSS dan menyerap kasus penggunaan yang diperkecil/spesialisasi akan lebih bernilai dalam jangka panjang
    Ada risiko kehilangan pangsa pasar, tetapi jika hasil riset terbuka dihimpun, ada peluang besar mempercepat pengembangan generasi berikutnya
    Ke depan akan muncul sangat banyak model OSS kecil
    Berkat rilis OSS, model yang disempurnakan di lokal dan berjalan lancar di perangkat kecil diperkirakan akan bermunculan
    Pada masa depan berfokus agen, model yang dispesialisasi dan didistilasi per domain akan melimpah
    Semua orang berlari ke AGI/SGI, dan model-modelnya adalah tahap antara untuk merebut pangsa pasar dan memanfaatkan data
    Jika AGI/SGI terwujud, nilai sejatinya ada pada inovasi di bidang sains, rekayasa teknik, dan seluruh sektor
    Penelitian Anthropic memanfaatkan model OSS seperti Qwen, Llama (Anthropic Research)

    • Anthropic tidak harus bereksperimen hanya pada model terbuka
      Mereka hanya perlu menyisakan hasilnya dalam OSS agar peneliti berikutnya bisa mereplikasi

    • Klaim bahwa “open model akhirnya menang” punya prasyarat
      Mulai dari definisi kemenangan saja sudah sulit
      Jika tidak demikian,

      • OSS dapat mempercepat kecepatan kompetitor
      • OSS bisa tidak memberi manfaat pada R&D sendiri
      • OSS bisa memicu persaingan produk baru global dan mengakibatkan pemborosan sumber daya
      • OSS bisa merusak model bisnis perusahaan
      • Risiko penyalahgunaan (deepfake, keamanan, bio-teror, AGI tak terkendali, dan sebagainya)
        Lihat: What failure looks like, AGI Manhattan Project? Esai Max Tegmark
    • Industri tampaknya bergerak ke arah menyematkan tools, database, dan proses di atas foundation model yang kokoh
      Dalam arti ini, model OSS bisa juga merebut pasar
      Tapi aku tidak tahu nilai praktis apa yang akan muncul dari melatih dan mengelola banyak model spesialis tambahan

    • Pencapaian AGI/SGI tampaknya tidak terjadi sebagai satu peristiwa tunggal
      Hanya performanya terus sedikit demi sedikit membaik
      Biaya inferensi harus cukup murah agar benar-benar bisa dimanfaatkan
      Jika targetnya profit atau inovasi, arah mana yang tepat masih jadi pertanyaan
      Isomorphic Labs adalah contohnya—merekalah modelnya (sudah ada, sekarang banyak tenaga terfokus ke sana)

    • Jika OSS memang pemenang jangka panjang,
      bagi frontier lab masih tersisa pertanyaan kapan dan seberapa banyak rahasia yang pantas disertakan saat membuka OSS
      Motif praktik, operasi, dan investasi berbeda, serta tak selalu sejalan dengan negara atau kemanusiaan secara luas

  • Inferensi model di Python menggunakan harmony[1] yang ditulis dalam Rust, tokenization-nya tiktoken[2], dan Codex[3] juga ditulis dalam Rust
    OpenAI semakin banyak memakai Rust dalam pipeline inferensi
    harmony, tiktoken, codex

    • Sebagai engineer yang kebanyakan memakai Rust, arus ini sangat menyenangkan

    • Bagus juga kalau Python berkurang di stack

  • Apakah ini berarti model terbaik akan dipublikasikan dalam beberapa hari?
    Secara strategis, merilis ini menandakan akan segera ada pengumuman yang lebih inovatif

    • Bahkan tanpa pengumuman resmi, ini sudah strategi cerdas
      Karena tekanan besar dari model open-weight berkinerja tinggi seperti Qwen
      Jika tidak ada di fase “grace period”, bisa tertinggal di seluruh bidang
      Kesempatan masa depan pada lisensi, support teknis, agen, brand awareness, dan pangsa pasar juga besar
      Jika model seperti ini dipakai dengan tepat, akan membuat orang lebih mudah menuju OpenAI untuk model yang lebih besar

    • Spekulasi rilis hari Kamis
      Taruhan hari rilis GPT-5

    • GPT-5 diumumkan hari Kamis ini

    • Jika tidak dipublikasikan, nilai produk berbayar lama akan tergerus
      Namun saya berpendapat sejauh ini belum ada kasus di mana keterlambatan rilis open model membahayakan produk komersial secara signifikan

    • Sekitar seminggu terakhir, beberapa indikator sudah membuatku yakin bahwa GPT-5 benar-benar akan segera hadir

  • Model 20B yang mendekati performa o3 saja sudah membuatku terkejut
    Tahun lalu, orang menganggap model sekecil ini tak mungkin punya kecerdasan seperti ini
    Yang bikin semangatku bertambah lagi adalah distilasi model ratusan miliar parameter menjadi beberapa miliar sambil mentransfer “keajaiban” dengan hampir nol kehilangan
    Bayangkan jika kecerdasan setara Claude 4 Opus bisa masuk ke model 10B dan dijalankan lokal pada 2.000 token/detik: cara kerja development software akan sepenuhnya berubah

    • Sebenarnya model 20B ini bukan 20B penuh; karena MoE, aktif parameternya 3.6B
      Performa juga memang belum setara o3
      Metrik selalu punya gap dari realitas, jadi kualitas harus diverifikasi dengan pengujian langsung

    • 10B × 2.000 t/s butuh bandwidth memori 20.000 GB/s
      Perangkat keras Apple hanya sekitar 1.000 GB/s

  • Sedikit topik lain, tapi aku sangat suka Ollama
    Mencari model 2 detik, download 1 menit, langsung siap pakai
    Kudos untuk timnya!

    • Faktanya Ollama sudah dikembangkan lebih dulu dengan dukungan OpenAI
      blog resmi Ollama

    • LM Studio juga sama praktisnya
      Kuncinya tetap pada llama.cpp, dan untuk distribusi, HuggingFace yang menanganinya

    • Aku pernah baca berita bahwa Ollama beralih jadi closed source
      diskusi reddit terkait

  • Aku berhasil menghubungkan gpt-oss:20b ke claude code secara lokal via proxy tipis dan Ollama
    Menarik, tetapi terlalu lambat karena prefill jadi tak bisa dipakai dalam praktik
    Setiap pemakaian tool makan 2-3 menit, 10-20 kali berarti 30-60 menit
    server.py (1.000 baris) punya definisi tools + konteks claude sekitar 30 ribu token, dan jika membaca file input jadi 50 ribu token
    Ada ruang optimasi yang jelas
    Aku tidak tahu apakah Ollama mendukung kv-cache di antara panggilan /v1/completions; jika iya, ini pasti mempercepat

    • Aku tidak terlalu paham Ollama, tapi llama-server punya transparent kv cache
      Jalankan seperti ini
      llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
      
      Web UI ada di localhost:8080 (menyediakan API kompatibel OpenAI)