- Model o3 dan o4-mini secara signifikan meningkatkan kemampuan penalaran ChatGPT
- Kedua model ini melampaui sekadar tanya jawab sederhana, dan juga dapat menangani tugas kompleks seperti menggunakan kombinasi alat, menganalisis materi visual, membuat gambar, dan menjalankan kode Python
- Secara khusus, saat pengguna mengajukan pertanyaan, model ini memiliki kemampuan untuk menentukan sendiri dan menjalankan alat apa yang perlu dipakai dan kapan dipakai
- Kuat dalam pemecahan masalah kompleks, penalaran visual, dan analisis multi-langkah, serta mengejar gaya percakapan yang lebih manusiawi
- o3 adalah model untuk pemecahan masalah kompleks, sedangkan o4-mini adalah model penalaran yang cepat dan efisien, dengan tujuan mengejar performa tinggi dan efisiensi tinggi secara bersamaan
- Memiliki kemampuan penalaran multimodal yang memadukan gambar dan teks, serta kemampuan penggunaan alat bergaya agen yang lebih canggih
Perubahan fitur utama
OpenAI o3
- Hingga saat ini merupakan model berfokus pada penalaran yang paling kuat
- Mencapai performa terdepan di berbagai bidang seperti coding, matematika, sains, dan analisis visual
- Mencatat performa terbaik pada benchmark seperti Codeforces, SWE-bench, dan MMMU
- Menurut evaluasi para pakar eksternal, memiliki tingkat kesalahan serius 20% lebih rendah dibanding o1
- Sangat unggul dalam menghasilkan ide dan evaluasi kritis di bidang seperti pemrograman, konsultasi, biologi, dan rekayasa
OpenAI o4-mini
- Model kecil yang dioptimalkan untuk kecepatan dan efisiensi biaya
- Sangat unggul khususnya dalam matematika, coding, dan pemecahan masalah visual
- Menunjukkan performa terkuat di kelasnya pada benchmark AIME 2024 dan 2025
- Menawarkan performa unggul dibanding o3-mini juga pada bidang di luar STEM
- Cocok untuk lingkungan yang membutuhkan volume penggunaan tinggi dan respons cepat
- Kedua model sama-sama mengalami peningkatan dibanding model sebelumnya dalam pemahaman instruksi, kegunaan respons, dan keandalan
- Kemampuan mengingat percakapan dan memberikan respons yang dipersonalisasi juga diperkuat
Fitur multimodal
- Gambar dapat dimanfaatkan bukan hanya untuk pengenalan sederhana, tetapi juga sebagai bagian dari penalaran
- Pengguna dapat mengunggah foto whiteboard, diagram dalam buku, gambar tangan, dan sebagainya
- Model dapat mengenali dan menganalisis bahkan gambar yang buram atau terdistorsi
- Pemrosesan gambar seperti rotasi, pembesaran, dan transformasi juga dapat dilakukan secara otomatis melalui alat
- Meningkatkan kemampuan memecahkan masalah gabungan yang menggabungkan teks dan informasi visual
Cara penalaran yang berpusat pada pemanfaatan alat
- o3 dan o4-mini dapat mengakses semua alat di ChatGPT
- Saat pengguna mengajukan pertanyaan, model secara otomatis menentukan dan menggunakan alat yang diperlukan (pencarian web, analisis file, eksekusi kode, dan sebagainya)
- Contoh: saat diminta "memprediksi penggunaan listrik musim panas di California", model dapat menjalankan seluruh rangkaian pencarian web → pembuatan kode Python → pembuatan grafik secara berurutan
- Memungkinkan pemanfaatan informasi real-time, penalaran multi-langkah, dan respons terintegrasi lintas modalitas
Performa penalaran yang efisien
Perbandingan performa terhadap biaya
- o3 dibanding o1, dan o4-mini dibanding o3-mini, mencapai peningkatan efisiensi biaya yang sangat besar
- Berdasarkan hasil kompetisi matematika AIME 2025, baik o3 maupun o4-mini lebih murah dan lebih cerdas dibanding pendahulunya
- Dalam lingkungan penggunaan nyata pun, keduanya diharapkan menjadi pilihan yang lebih cerdas dan lebih murah
Peningkatan keamanan
- Dilatih ulang dengan data pelatihan baru untuk meningkatkan kemampuan menolak ancaman biologis, malware, prompt jailbreak, dan sebagainya
- Diperkenalkan sistem pemantauan keamanan berbasis LLM yang secara otomatis mendeteksi tingkat risiko respons model
- Hasil pengujian internal menunjukkan keberhasilan mendeteksi lebih dari 99% percakapan berisiko
- Di bidang berisiko seperti bio/kimia, keamanan siber, dan peningkatan diri AI, model dinilai belum mencapai tingkat risiko tinggi
- Verifikasi keamanan telah diselesaikan sesuai standar terbaru Preparedness Framework
Codex CLI: agen penalaran canggih yang digunakan di terminal
- Alat yang memungkinkan kemampuan penalaran o3 dan o4-mini digunakan juga di terminal
- Pengguna dapat memberikan kode, gambar, screenshot, dan sebagainya langsung ke model melalui CLI
- Model dapat terhubung dengan kode di lingkungan lokal untuk melakukan penalaran multimodal
- Dirilis sebagai open source: github.com/openai/codex
- OpenAI juga memulai program dukungan senilai 1 juta dolar untuk proyek berbasis Codex CLI
Cara mengakses
- Pengguna ChatGPT Plus, Pro, dan Team: dapat langsung menggunakan model o3, o4-mini, dan o4-mini-high
- Pengguna Enterprise dan Education: dapat mengakses mulai 1 minggu lagi
- Pengguna gratis juga dapat menggunakan o4-mini jika memilih opsi ‘Think’
- Pengguna API juga dapat mulai menggunakannya hari ini (mungkin memerlukan verifikasi organisasi)
- Di Responses API, akan tersedia berbagai fitur seperti ringkasan penalaran, pelestarian penalaran di sekitar pemanggilan fungsi, alat pencarian web, dan lain-lain
Arah ke depan
- Direncanakan untuk menggabungkan kemampuan penalaran khusus dari seri o dengan kemampuan percakapan alami dari seri GPT
- Ke depannya, model akan berkembang menjadi model yang dapat memanfaatkan alat secara proaktif sambil tetap melanjutkan percakapan alami
1 komentar
Komentar Hacker News
Mengajukan pertanyaan teknis tentang reverse engineering Final Fantasy VII, tetapi AI memberikan informasi yang salah
Menggunakan o3 untuk memasang WebStorm terbaru di NixOS, dan model tersebut menjalankan VM NixOS, mengunduh paket, lalu memberikan petunjuk instalasi
Claude 3.7 masih menunjukkan performa terbaik di SWE-bench
Berhasil melakukan "tes Turing" sederhana untuk menulis konverter base 62 di C# dengan o4-mini-high
Menanyakan tanggal bulan baru pada Agustus 2025 ke beberapa AI, tetapi sebagian besar memberikan jawaban yang salah
o3 dan o4 menyadari ketika tidak memiliki alat pencarian web dan menolak menjawab
Codex CLI tersedia sebagai open source
Tidak ada perbandingan dengan Sonnet 3.7 atau Gemini Pro 2.5
Reinforcement learning skala besar tampaknya menunjukkan kecenderungan performa meningkat seiring penggunaan sumber daya komputasi yang lebih besar
Sebagai konsumen, melelahkan untuk terus mengikuti model mana yang sebaiknya digunakan