- OpenAI merilis model bahasa open-weight skala besar (gpt-oss) untuk pertama kalinya
- gpt-oss-120b dan gpt-oss-20b disediakan, dengan penekanan pada performa yang kuat dan dukungan berbagai perangkat
- Dengan lisensi Apache 2.0, pemanfaatan komersial, kustomisasi, dan distribusi bebas dimungkinkan
- Diterapkan pelatihan untuk keamanan, ulasan pakar eksternal, serta prosedur pengujian keamanan komprehensif
- Model dapat diunduh dan digunakan langsung dari Hugging Face, GitHub, dan lain-lain, serta menyediakan sumber daya untuk fine-tuning, deployment, dan kustomisasi bersama dengan Playground
Model Terbuka OpenAI
- OpenAI merilis model inferensi open-weight skala besar (gpt-oss) yang dapat disesuaikan untuk semua kasus penggunaan dan dijalankan di mana saja
- Berkas model dapat diunduh langsung dari Hugging Face dan GitHub, dan demo juga dapat dicoba lewat Playground berbasis web
- Dengan lisensi Apache 2.0, dapat digunakan secara bebas untuk pemanfaatan komersial, kustomisasi, dan distribusi tanpa khawatir soal copyleft atau pelanggaran paten
- gpt-oss-120b: model besar untuk data center, desktop, dan laptop berkinerja tinggi
- gpt-oss-20b: model menengah yang dapat berjalan di sebagian besar desktop dan laptop
Fitur utama
-
Dioptimalkan untuk pekerjaan agen
- Penggunaan alat dan kepatuhan terhadap instruksi adalah kekuatannya, dan cocok untuk penggunaan terkait agen seperti pencarian web dan eksekusi kode Python
-
Kustomisasi dan fine-tuning
- Parameter hiper seperti
reasoning_effort (tingkat kesulitan penalaran) dapat disetel
- Mendukung kustomisasi tingkat lanjut melalui fine-tuning seluruh parameter
-
Eksposur alur pemikiran (Chain-of-Thought)
- Semua pengembangan proses penalaran (alur pemikiran) model dapat dilihat, membuat debugging dan evaluasi kepercayaan menjadi lebih mudah
-
Menyediakan Playground
- Menyediakan Playground agar pengembang dan peneliti mana pun dapat mencoba performa model di browser
Performa model
- gpt-oss-120b dan gpt-oss-20b dibandingkan secara langsung dengan model komersial OpenAI (OpenAI o3, o4-mini) pada beberapa benchmark utama
- Nilai performa tiap model pada berbagai area seperti penalaran, pengetahuan, dan kompetisi matematika dipublikasikan secara rinci
- Pada beberapa item, nilainya mendekati model komersial OpenAI atau pada tes tertentu menunjukkan hasil unggul
Detail Performa Benchmark Utama
-
Penalaran dan pengetahuan
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Meskipun sedikit di bawah model komersial besar, menunjukkan performa penalaran komprehensif yang sangat kuat untuk standar model terbuka
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Meskipun merupakan model terbuka, mencapai performa tanya jawab berbasis pengetahuan tingkat lanjut yang hampir sebanding dengan model komersial
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Pada evaluasi berlevel tinggi, nilainya lebih rendah daripada model komersial, tetapi 20b hampir sama dengan o4-mini
-
Kompetisi Matematika (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Berdasarkan versi 2024, justru merekam skor lebih tinggi daripada model komersial
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → Di bidang matematika, juga muncul angka yang mengungguli model komersial OpenAI
-
Interpretasi menyeluruh
- Seri gpt-oss menunjukkan performa kuat di bidang matematika, logika, dan pengetahuan secara khusus
- Kesenjangan terhadap model komersial tidak terlalu besar, dan kemungkinan penggunaan pada layanan nyata maupun aplikasi rekayasa juga tinggi
- Sebagai model open berskala besar, model ini menjadi pilihan kompetitif untuk riset dan pengembangan, agen, serta lingkungan kustomisasi
Keamanan dan pengujian
- Semua model menerapkan pelatihan dan evaluasi keamanan yang ketat
- Sesuai dengan kerangka kerja kesiapan OpenAI, ketahanan terhadap fine-tuning berniat jahat juga diuji secara khusus
- Bekerja sama dengan pakar keamanan eksternal, OpenAI menetapkan standar keamanan untuk model terbuka
Belum ada komentar.