OpenAI merilis model o3 dan o4-mini

(openai.com)

5 poin oleh GN⁺ 2025-04-17 | 1 komentar | Bagikan ke WhatsApp

Model o3 dan o4-mini secara signifikan meningkatkan kemampuan penalaran ChatGPT
Kedua model ini melampaui sekadar tanya jawab sederhana, dan juga dapat menangani tugas kompleks seperti menggunakan kombinasi alat, menganalisis materi visual, membuat gambar, dan menjalankan kode Python
Secara khusus, saat pengguna mengajukan pertanyaan, model ini memiliki kemampuan untuk menentukan sendiri dan menjalankan alat apa yang perlu dipakai dan kapan dipakai
Kuat dalam pemecahan masalah kompleks, penalaran visual, dan analisis multi-langkah, serta mengejar gaya percakapan yang lebih manusiawi
o3 adalah model untuk pemecahan masalah kompleks, sedangkan o4-mini adalah model penalaran yang cepat dan efisien, dengan tujuan mengejar performa tinggi dan efisiensi tinggi secara bersamaan
Memiliki kemampuan penalaran multimodal yang memadukan gambar dan teks, serta kemampuan penggunaan alat bergaya agen yang lebih canggih

Perubahan fitur utama

OpenAI o3

Hingga saat ini merupakan model berfokus pada penalaran yang paling kuat
Mencapai performa terdepan di berbagai bidang seperti coding, matematika, sains, dan analisis visual
Mencatat performa terbaik pada benchmark seperti Codeforces, SWE-bench, dan MMMU
Menurut evaluasi para pakar eksternal, memiliki tingkat kesalahan serius 20% lebih rendah dibanding o1
Sangat unggul dalam menghasilkan ide dan evaluasi kritis di bidang seperti pemrograman, konsultasi, biologi, dan rekayasa

OpenAI o4-mini

Model kecil yang dioptimalkan untuk kecepatan dan efisiensi biaya
Sangat unggul khususnya dalam matematika, coding, dan pemecahan masalah visual
Menunjukkan performa terkuat di kelasnya pada benchmark AIME 2024 dan 2025
Menawarkan performa unggul dibanding o3-mini juga pada bidang di luar STEM
Cocok untuk lingkungan yang membutuhkan volume penggunaan tinggi dan respons cepat

Kedua model sama-sama mengalami peningkatan dibanding model sebelumnya dalam pemahaman instruksi, kegunaan respons, dan keandalan
Kemampuan mengingat percakapan dan memberikan respons yang dipersonalisasi juga diperkuat

Fitur multimodal

Gambar dapat dimanfaatkan bukan hanya untuk pengenalan sederhana, tetapi juga sebagai bagian dari penalaran
Pengguna dapat mengunggah foto whiteboard, diagram dalam buku, gambar tangan, dan sebagainya
Model dapat mengenali dan menganalisis bahkan gambar yang buram atau terdistorsi
Pemrosesan gambar seperti rotasi, pembesaran, dan transformasi juga dapat dilakukan secara otomatis melalui alat
Meningkatkan kemampuan memecahkan masalah gabungan yang menggabungkan teks dan informasi visual

Cara penalaran yang berpusat pada pemanfaatan alat

o3 dan o4-mini dapat mengakses semua alat di ChatGPT
Saat pengguna mengajukan pertanyaan, model secara otomatis menentukan dan menggunakan alat yang diperlukan (pencarian web, analisis file, eksekusi kode, dan sebagainya)
Contoh: saat diminta "memprediksi penggunaan listrik musim panas di California", model dapat menjalankan seluruh rangkaian pencarian web → pembuatan kode Python → pembuatan grafik secara berurutan
Memungkinkan pemanfaatan informasi real-time, penalaran multi-langkah, dan respons terintegrasi lintas modalitas

Performa penalaran yang efisien

Perbandingan performa terhadap biaya

o3 dibanding o1, dan o4-mini dibanding o3-mini, mencapai peningkatan efisiensi biaya yang sangat besar
Berdasarkan hasil kompetisi matematika AIME 2025, baik o3 maupun o4-mini lebih murah dan lebih cerdas dibanding pendahulunya
Dalam lingkungan penggunaan nyata pun, keduanya diharapkan menjadi pilihan yang lebih cerdas dan lebih murah

Peningkatan keamanan

Dilatih ulang dengan data pelatihan baru untuk meningkatkan kemampuan menolak ancaman biologis, malware, prompt jailbreak, dan sebagainya
Diperkenalkan sistem pemantauan keamanan berbasis LLM yang secara otomatis mendeteksi tingkat risiko respons model
Hasil pengujian internal menunjukkan keberhasilan mendeteksi lebih dari 99% percakapan berisiko
Di bidang berisiko seperti bio/kimia, keamanan siber, dan peningkatan diri AI, model dinilai belum mencapai tingkat risiko tinggi
Verifikasi keamanan telah diselesaikan sesuai standar terbaru Preparedness Framework

Codex CLI: agen penalaran canggih yang digunakan di terminal

Alat yang memungkinkan kemampuan penalaran o3 dan o4-mini digunakan juga di terminal
Pengguna dapat memberikan kode, gambar, screenshot, dan sebagainya langsung ke model melalui CLI
Model dapat terhubung dengan kode di lingkungan lokal untuk melakukan penalaran multimodal
Dirilis sebagai open source: github.com/openai/codex
OpenAI juga memulai program dukungan senilai 1 juta dolar untuk proyek berbasis Codex CLI

Cara mengakses

Pengguna ChatGPT Plus, Pro, dan Team: dapat langsung menggunakan model o3, o4-mini, dan o4-mini-high
Pengguna Enterprise dan Education: dapat mengakses mulai 1 minggu lagi
Pengguna gratis juga dapat menggunakan o4-mini jika memilih opsi ‘Think’
Pengguna API juga dapat mulai menggunakannya hari ini (mungkin memerlukan verifikasi organisasi)
Di Responses API, akan tersedia berbagai fitur seperti ringkasan penalaran, pelestarian penalaran di sekitar pemanggilan fungsi, alat pencarian web, dan lain-lain

Arah ke depan

Direncanakan untuk menggabungkan kemampuan penalaran khusus dari seri o dengan kemampuan percakapan alami dari seri GPT
Ke depannya, model akan berkembang menjadi model yang dapat memanfaatkan alat secara proaktif sambil tetap melanjutkan percakapan alami

1 komentar

GN⁺ 2025-04-17

Komentar Hacker News

Mengajukan pertanyaan teknis tentang reverse engineering Final Fantasy VII, tetapi AI memberikan informasi yang salah
- AI mencari informasi di forum dan situs, tetapi mengarang detail yang keliru sehingga hasilnya tidak akurat
- AI tampaknya menyadari bahwa ia tidak mengetahui jawabannya, tetapi tetap dengan percaya diri memberikan nilai yang salah
- Diharapkan AI akan jujur mengatakan jika tidak bisa menemukan jawaban yang benar
Menggunakan o3 untuk memasang WebStorm terbaru di NixOS, dan model tersebut menjalankan VM NixOS, mengunduh paket, lalu memberikan petunjuk instalasi
- Tampaknya bahkan melakukan pengujian GUI, sangat mengesankan
Claude 3.7 masih menunjukkan performa terbaik di SWE-bench
- Model OpenAI kemungkinan juga bisa menunjukkan performa yang serupa
Berhasil melakukan "tes Turing" sederhana untuk menulis konverter base 62 di C# dengan o4-mini-high
Menanyakan tanggal bulan baru pada Agustus 2025 ke beberapa AI, tetapi sebagian besar memberikan jawaban yang salah
- Claude menolak menjawab tentang cara memblokir mesin pencari tertentu
o3 dan o4 menyadari ketika tidak memiliki alat pencarian web dan menolak menjawab
- 4o dan 4.1 justru memberikan informasi yang salah
- Fitur pencarian web baru ini berguna, dan memungkinkan penghapusan skrip Python yang tidak perlu
Codex CLI tersedia sebagai open source
Tidak ada perbandingan dengan Sonnet 3.7 atau Gemini Pro 2.5
Reinforcement learning skala besar tampaknya menunjukkan kecenderungan performa meningkat seiring penggunaan sumber daya komputasi yang lebih besar
- Menjadi pertanyaan sampai kapan tren ini akan terus berlanjut
Sebagai konsumen, melelahkan untuk terus mengikuti model mana yang sebaiknya digunakan

OpenAI merilis model o3 dan o4-mini

Perubahan fitur utama

OpenAI o3

OpenAI o4-mini

Fitur multimodal

Cara penalaran yang berpusat pada pemanfaatan alat

Performa penalaran yang efisien

Perbandingan performa terhadap biaya

Peningkatan keamanan

Codex CLI: agen penalaran canggih yang digunakan di terminal

Cara mengakses

Arah ke depan

Bacaan terkait

1 komentar

Komentar Hacker News