Peluncuran OpenAI o3-Mini

(openai.com)

13 poin oleh GN⁺ 2025-02-01 | 1 komentar | Bagikan ke WhatsApp

OpenAI o3-mini adalah model terbaru dalam seri model penalaran yang efisien dari sisi biaya
Setelah pratinjau pada Desember 2024, model ini resmi dirilis dan tersedia di ChatGPT serta API
Menunjukkan performa unggul di bidang STEM seperti sains, matematika, dan pemrograman, sambil mempertahankan biaya dan latensi yang lebih rendah dibanding OpenAI o1-mini

Fitur utama dan peningkatan

OpenAI o3-mini adalah model penalaran kecil pertama yang mendukung function calling, structured outputs, dan developer messages
Mendukung fitur streaming, serta menyediakan tiga opsi tingkat upaya penalaran: rendah, sedang, tinggi, sehingga dapat dioptimalkan sesuai kebutuhan
Tidak mendukung kemampuan vision (gambar); jika membutuhkan penalaran visual, disarankan menggunakan OpenAI o1
Tersedia di Chat Completions API, Assistants API, dan Batch API, serta diberikan kepada developer pada API usage tier 3–5
Pengguna ChatGPT Plus, Team, dan Pro dapat menggunakannya mulai hari ini, sementara pengguna Enterprise dijadwalkan mendapat dukungan mulai Februari
Menggantikan OpenAI o1-mini, dengan kecepatan lebih tinggi dan kemampuan penalaran yang ditingkatkan
Batas pesan untuk pengguna Plus dan Team meningkat dari 50 menjadi 150 dibanding o1-mini sebelumnya
Fitur pencarian ditambahkan, dan sedang diuji untuk menyediakan informasi terbaru beserta tautan web

Perluasan akses bagi pengguna gratis

Pengguna gratis juga dapat memakai o3-mini dengan memilih ‘Reason’ di kotak penulisan pesan atau melalui pembuatan ulang respons
Ini adalah pertama kalinya model reasoning di ChatGPT tersedia bagi pengguna gratis

Optimasi STEM dan peningkatan performa

Menyediakan performa yang dioptimalkan untuk bidang STEM, serta menghasilkan respons yang lebih cepat dan lebih akurat dibanding o1-mini
Berdasarkan evaluasi tester profesional, o3-mini lebih disukai daripada o1-mini dalam 56% kasus, dan tercatat penurunan 39% pada kesalahan utama untuk masalah sulit
Menunjukkan performa yang mirip dengan o1 pada evaluasi penalaran dan kecerdasan tingkat tinggi seperti AIME dan GPQA, sambil memberikan kecepatan respons yang lebih tinggi

Perbandingan performa utama

Matematika (AIME 2024):
- Pada upaya penalaran rendah, performanya mirip o1-mini; pada upaya penalaran sedang, performanya mirip o1
- Pada upaya penalaran tinggi, menunjukkan performa lebih baik daripada o1 dan o1-mini
Pertanyaan sains tingkat doktoral (GPQA Diamond):
- Pada soal biologi, kimia, dan fisika, performanya lebih baik daripada o1-mini bahkan dengan upaya penalaran rendah
- Pada upaya penalaran tinggi, performanya mirip o1
Matematika tingkat lanjut (FrontierMath):
- Dengan memanfaatkan alat Python, model ini menyelesaikan lebih dari 32% soal pada percobaan pertama, dan lebih dari 28% soal sulit (T3)
Competitive programming (Codeforces):
- Semakin tinggi upaya penalaran, semakin tinggi skor Elo yang dicatat, dengan performa lebih unggul daripada o1-mini
- Pada upaya penalaran sedang, performanya mirip o1
Software engineering (SWE-bench Verified):
- Mencatat performa terbaik di antara model yang telah dirilis sejauh ini pada SWEbench-verified
Uji coding dunia nyata (LiveBench Coding):
- Menunjukkan performa lebih baik daripada o1-high, dan pada upaya penalaran tinggi hasilnya jauh lebih unggul
Evaluasi pengetahuan umum:
- Menunjukkan hasil yang lebih baik daripada o1-mini dalam evaluasi pengetahuan secara keseluruhan
Evaluasi preferensi pengguna:
- Hasil uji pakar menunjukkan bahwa o3-mini 56% lebih disukai daripada o1-mini, dengan penurunan 39% kesalahan pada masalah sulit

Peningkatan kecepatan dan performa

Sambil mempertahankan kecerdasan setara o1, model ini menawarkan performa lebih cepat dan efisiensi yang ditingkatkan
Pada evaluasi matematika dan faktualitas, hasil yang lebih baik juga dicapai dengan upaya penalaran sedang
Berdasarkan hasil uji A/B, o3-mini memiliki kecepatan respons 24% lebih cepat dibanding o1-mini
- Waktu respons rata-rata: o3-mini (7,7 detik) vs o1-mini (10,16 detik)
- Kecepatan keluaran token pertama: o3-mini rata-rata 2500ms lebih cepat daripada o1-mini

Keamanan dan langkah penanganan

OpenAI o3-mini dilatih untuk menghasilkan respons yang lebih aman dengan memanfaatkan teknik ‘deliberative alignment’
Dibanding OpenAI o1, model ini menunjukkan tingkat keamanan dan kemampuan pertahanan terhadap jailbreak yang bahkan lebih tinggi daripada GPT-4o
Sebelum peluncuran, model ini diverifikasi secara menyeluruh melalui preparedness evaluation, pengujian external red team, dan evaluasi keamanan
Hasil evaluasi respons terhadap konten yang tidak diizinkan serta evaluasi jailbreak untuk o3-mini tersedia di system card

Rencana dan prospek ke depan

OpenAI o3-mini menandai tahap baru dalam kemajuan kecerdasan AI yang efisien dari sisi biaya
Melalui optimasi STEM dan pengembangan model berbiaya rendah, OpenAI terus mengejar tujuan untuk menyediakan AI berkualitas tinggi bagi lebih banyak pengguna
Sejak peluncuran GPT-4, harga per token telah dipangkas 95% sambil tetap mempertahankan kemampuan penalaran kelas atas
Di tengah semakin luasnya adopsi AI oleh masyarakat, OpenAI berencana untuk tetap fokus pada pengembangan model yang menyeimbangkan kecerdasan, efisiensi, dan keamanan

1 komentar

GN⁺ 2025-02-01

Pendapat Hacker News

Model Claude-3.5-sonnet sangat konsisten, sementara model lain tampak mengalami masalah seperti ADHD
- Saat mencoba menggunakan komponen shadcn di aplikasi NextJS, sonnet hampir selalu bekerja sempurna, tetapi model lain justru mencoba memakai radix-ui
- Model o3-mini juga mengalami masalah yang sama
- Ada kemungkinan set instruksi di cursor yang menjadi masalah
- sonnet tetap menjadi satu-satunya opsi coding yang benar-benar layak
Respons o3-mini lebih disukai 56% dibanding o1-mini
- Jika kedua respons panjangnya 2.000 kata, orang cenderung memilih yang lebih cepat menjawab pertanyaan
- Survei ini tidak bermakna, dan tingkat respons 50% sama saja seperti lempar koin
Membagikan hasil ringkasan thread menggunakan o3-mini
- Biayanya 3,3612 sen untuk 18.936 input dan 2.905 output
Dalam AI coding, o3-mini mendapat skor yang mirip dengan o1, tetapi biayanya 10 kali lebih murah
- o3-mini dengan effort menengah mendapat skor di antara R1 dan Sonnet
Mengumumkan rilis baru alat CLI LLM yang mendukung model baru dan opsi reasoning_effort
- Membagikan contoh cara pakainya
Menunjukkan bahwa skor SWE Bench o3-mini turun dari 61% menjadi 49,3%
- o3-mini menunjukkan performa yang mirip dengan Claude dalam tugas coding nyata
Menyebutkan bahwa o3-mini-high berhasil menemukan akar penyebab seg fault
- Menyelesaikan masalah yang sebelumnya terlewat oleh o1
Menunjukkan peningkatan yang signifikan di SWE-Bench, dan layak dicoba lagi untuk melihat apakah model ini bisa menangani tugas yang sebelumnya gagal ditangani o1-mini
- Ada selisih biaya $4 per juta output token dibanding $60
Lanskap AI berubah dengan cepat, dan model-model AI baru terus bermunculan
- Penasaran bagaimana perubahan di AI akan memengaruhi rilis ini dan rilis-rilis berikutnya

Peluncuran OpenAI o3-Mini

Fitur utama dan peningkatan

Perluasan akses bagi pengguna gratis

Optimasi STEM dan peningkatan performa

Perbandingan performa utama

Peningkatan kecepatan dan performa

Keamanan dan langkah penanganan

Rencana dan prospek ke depan

Bacaan terkait

1 komentar

Pendapat Hacker News