- OpenAI o3-mini adalah model terbaru dalam seri model penalaran yang efisien dari sisi biaya
- Setelah pratinjau pada Desember 2024, model ini resmi dirilis dan tersedia di ChatGPT serta API
- Menunjukkan performa unggul di bidang STEM seperti sains, matematika, dan pemrograman, sambil mempertahankan biaya dan latensi yang lebih rendah dibanding OpenAI o1-mini
Fitur utama dan peningkatan
- OpenAI o3-mini adalah model penalaran kecil pertama yang mendukung function calling, structured outputs, dan developer messages
- Mendukung fitur streaming, serta menyediakan tiga opsi tingkat upaya penalaran: rendah, sedang, tinggi, sehingga dapat dioptimalkan sesuai kebutuhan
- Tidak mendukung kemampuan vision (gambar); jika membutuhkan penalaran visual, disarankan menggunakan OpenAI o1
- Tersedia di Chat Completions API, Assistants API, dan Batch API, serta diberikan kepada developer pada API usage tier 3–5
- Pengguna ChatGPT Plus, Team, dan Pro dapat menggunakannya mulai hari ini, sementara pengguna Enterprise dijadwalkan mendapat dukungan mulai Februari
- Menggantikan OpenAI o1-mini, dengan kecepatan lebih tinggi dan kemampuan penalaran yang ditingkatkan
- Batas pesan untuk pengguna Plus dan Team meningkat dari 50 menjadi 150 dibanding o1-mini sebelumnya
- Fitur pencarian ditambahkan, dan sedang diuji untuk menyediakan informasi terbaru beserta tautan web
Perluasan akses bagi pengguna gratis
- Pengguna gratis juga dapat memakai o3-mini dengan memilih ‘Reason’ di kotak penulisan pesan atau melalui pembuatan ulang respons
- Ini adalah pertama kalinya model reasoning di ChatGPT tersedia bagi pengguna gratis
Optimasi STEM dan peningkatan performa
- Menyediakan performa yang dioptimalkan untuk bidang STEM, serta menghasilkan respons yang lebih cepat dan lebih akurat dibanding o1-mini
- Berdasarkan evaluasi tester profesional, o3-mini lebih disukai daripada o1-mini dalam 56% kasus, dan tercatat penurunan 39% pada kesalahan utama untuk masalah sulit
- Menunjukkan performa yang mirip dengan o1 pada evaluasi penalaran dan kecerdasan tingkat tinggi seperti AIME dan GPQA, sambil memberikan kecepatan respons yang lebih tinggi
Perbandingan performa utama
- Matematika (AIME 2024):
- Pada upaya penalaran rendah, performanya mirip o1-mini; pada upaya penalaran sedang, performanya mirip o1
- Pada upaya penalaran tinggi, menunjukkan performa lebih baik daripada o1 dan o1-mini
- Pertanyaan sains tingkat doktoral (GPQA Diamond):
- Pada soal biologi, kimia, dan fisika, performanya lebih baik daripada o1-mini bahkan dengan upaya penalaran rendah
- Pada upaya penalaran tinggi, performanya mirip o1
- Matematika tingkat lanjut (FrontierMath):
- Dengan memanfaatkan alat Python, model ini menyelesaikan lebih dari 32% soal pada percobaan pertama, dan lebih dari 28% soal sulit (T3)
- Competitive programming (Codeforces):
- Semakin tinggi upaya penalaran, semakin tinggi skor Elo yang dicatat, dengan performa lebih unggul daripada o1-mini
- Pada upaya penalaran sedang, performanya mirip o1
- Software engineering (SWE-bench Verified):
- Mencatat performa terbaik di antara model yang telah dirilis sejauh ini pada SWEbench-verified
- Uji coding dunia nyata (LiveBench Coding):
- Menunjukkan performa lebih baik daripada o1-high, dan pada upaya penalaran tinggi hasilnya jauh lebih unggul
- Evaluasi pengetahuan umum:
- Menunjukkan hasil yang lebih baik daripada o1-mini dalam evaluasi pengetahuan secara keseluruhan
- Evaluasi preferensi pengguna:
- Hasil uji pakar menunjukkan bahwa o3-mini 56% lebih disukai daripada o1-mini, dengan penurunan 39% kesalahan pada masalah sulit
Peningkatan kecepatan dan performa
- Sambil mempertahankan kecerdasan setara o1, model ini menawarkan performa lebih cepat dan efisiensi yang ditingkatkan
- Pada evaluasi matematika dan faktualitas, hasil yang lebih baik juga dicapai dengan upaya penalaran sedang
- Berdasarkan hasil uji A/B, o3-mini memiliki kecepatan respons 24% lebih cepat dibanding o1-mini
- Waktu respons rata-rata: o3-mini (7,7 detik) vs o1-mini (10,16 detik)
- Kecepatan keluaran token pertama: o3-mini rata-rata 2500ms lebih cepat daripada o1-mini
Keamanan dan langkah penanganan
- OpenAI o3-mini dilatih untuk menghasilkan respons yang lebih aman dengan memanfaatkan teknik ‘deliberative alignment’
- Dibanding OpenAI o1, model ini menunjukkan tingkat keamanan dan kemampuan pertahanan terhadap jailbreak yang bahkan lebih tinggi daripada GPT-4o
- Sebelum peluncuran, model ini diverifikasi secara menyeluruh melalui preparedness evaluation, pengujian external red team, dan evaluasi keamanan
- Hasil evaluasi respons terhadap konten yang tidak diizinkan serta evaluasi jailbreak untuk o3-mini tersedia di system card
Rencana dan prospek ke depan
- OpenAI o3-mini menandai tahap baru dalam kemajuan kecerdasan AI yang efisien dari sisi biaya
- Melalui optimasi STEM dan pengembangan model berbiaya rendah, OpenAI terus mengejar tujuan untuk menyediakan AI berkualitas tinggi bagi lebih banyak pengguna
- Sejak peluncuran GPT-4, harga per token telah dipangkas 95% sambil tetap mempertahankan kemampuan penalaran kelas atas
- Di tengah semakin luasnya adopsi AI oleh masyarakat, OpenAI berencana untuk tetap fokus pada pengembangan model yang menyeimbangkan kecerdasan, efisiensi, dan keamanan
1 komentar
Pendapat Hacker News
Model Claude-3.5-sonnet sangat konsisten, sementara model lain tampak mengalami masalah seperti ADHD
Respons o3-mini lebih disukai 56% dibanding o1-mini
Membagikan hasil ringkasan thread menggunakan o3-mini
Dalam AI coding, o3-mini mendapat skor yang mirip dengan o1, tetapi biayanya 10 kali lebih murah
Mengumumkan rilis baru alat CLI LLM yang mendukung model baru dan opsi
reasoning_effortMenunjukkan bahwa skor SWE Bench o3-mini turun dari 61% menjadi 49,3%
Menyebutkan bahwa o3-mini-high berhasil menemukan akar penyebab seg fault
Menunjukkan peningkatan yang signifikan di SWE-Bench, dan layak dicoba lagi untuk melihat apakah model ini bisa menangani tugas yang sebelumnya gagal ditangani o1-mini
Lanskap AI berubah dengan cepat, dan model-model AI baru terus bermunculan