13 poin oleh GN⁺ 2025-02-01 | 1 komentar | Bagikan ke WhatsApp
  • OpenAI o3-mini adalah model terbaru dalam seri model penalaran yang efisien dari sisi biaya
  • Setelah pratinjau pada Desember 2024, model ini resmi dirilis dan tersedia di ChatGPT serta API
  • Menunjukkan performa unggul di bidang STEM seperti sains, matematika, dan pemrograman, sambil mempertahankan biaya dan latensi yang lebih rendah dibanding OpenAI o1-mini

Fitur utama dan peningkatan

  • OpenAI o3-mini adalah model penalaran kecil pertama yang mendukung function calling, structured outputs, dan developer messages
  • Mendukung fitur streaming, serta menyediakan tiga opsi tingkat upaya penalaran: rendah, sedang, tinggi, sehingga dapat dioptimalkan sesuai kebutuhan
  • Tidak mendukung kemampuan vision (gambar); jika membutuhkan penalaran visual, disarankan menggunakan OpenAI o1
  • Tersedia di Chat Completions API, Assistants API, dan Batch API, serta diberikan kepada developer pada API usage tier 3–5
  • Pengguna ChatGPT Plus, Team, dan Pro dapat menggunakannya mulai hari ini, sementara pengguna Enterprise dijadwalkan mendapat dukungan mulai Februari
  • Menggantikan OpenAI o1-mini, dengan kecepatan lebih tinggi dan kemampuan penalaran yang ditingkatkan
  • Batas pesan untuk pengguna Plus dan Team meningkat dari 50 menjadi 150 dibanding o1-mini sebelumnya
  • Fitur pencarian ditambahkan, dan sedang diuji untuk menyediakan informasi terbaru beserta tautan web

Perluasan akses bagi pengguna gratis

  • Pengguna gratis juga dapat memakai o3-mini dengan memilih ‘Reason’ di kotak penulisan pesan atau melalui pembuatan ulang respons
  • Ini adalah pertama kalinya model reasoning di ChatGPT tersedia bagi pengguna gratis

Optimasi STEM dan peningkatan performa

  • Menyediakan performa yang dioptimalkan untuk bidang STEM, serta menghasilkan respons yang lebih cepat dan lebih akurat dibanding o1-mini
  • Berdasarkan evaluasi tester profesional, o3-mini lebih disukai daripada o1-mini dalam 56% kasus, dan tercatat penurunan 39% pada kesalahan utama untuk masalah sulit
  • Menunjukkan performa yang mirip dengan o1 pada evaluasi penalaran dan kecerdasan tingkat tinggi seperti AIME dan GPQA, sambil memberikan kecepatan respons yang lebih tinggi

Perbandingan performa utama

  • Matematika (AIME 2024):
    • Pada upaya penalaran rendah, performanya mirip o1-mini; pada upaya penalaran sedang, performanya mirip o1
    • Pada upaya penalaran tinggi, menunjukkan performa lebih baik daripada o1 dan o1-mini
  • Pertanyaan sains tingkat doktoral (GPQA Diamond):
    • Pada soal biologi, kimia, dan fisika, performanya lebih baik daripada o1-mini bahkan dengan upaya penalaran rendah
    • Pada upaya penalaran tinggi, performanya mirip o1
  • Matematika tingkat lanjut (FrontierMath):
    • Dengan memanfaatkan alat Python, model ini menyelesaikan lebih dari 32% soal pada percobaan pertama, dan lebih dari 28% soal sulit (T3)
  • Competitive programming (Codeforces):
    • Semakin tinggi upaya penalaran, semakin tinggi skor Elo yang dicatat, dengan performa lebih unggul daripada o1-mini
    • Pada upaya penalaran sedang, performanya mirip o1
  • Software engineering (SWE-bench Verified):
    • Mencatat performa terbaik di antara model yang telah dirilis sejauh ini pada SWEbench-verified
  • Uji coding dunia nyata (LiveBench Coding):
    • Menunjukkan performa lebih baik daripada o1-high, dan pada upaya penalaran tinggi hasilnya jauh lebih unggul
  • Evaluasi pengetahuan umum:
    • Menunjukkan hasil yang lebih baik daripada o1-mini dalam evaluasi pengetahuan secara keseluruhan
  • Evaluasi preferensi pengguna:
    • Hasil uji pakar menunjukkan bahwa o3-mini 56% lebih disukai daripada o1-mini, dengan penurunan 39% kesalahan pada masalah sulit

Peningkatan kecepatan dan performa

  • Sambil mempertahankan kecerdasan setara o1, model ini menawarkan performa lebih cepat dan efisiensi yang ditingkatkan
  • Pada evaluasi matematika dan faktualitas, hasil yang lebih baik juga dicapai dengan upaya penalaran sedang
  • Berdasarkan hasil uji A/B, o3-mini memiliki kecepatan respons 24% lebih cepat dibanding o1-mini
    • Waktu respons rata-rata: o3-mini (7,7 detik) vs o1-mini (10,16 detik)
    • Kecepatan keluaran token pertama: o3-mini rata-rata 2500ms lebih cepat daripada o1-mini

Keamanan dan langkah penanganan

  • OpenAI o3-mini dilatih untuk menghasilkan respons yang lebih aman dengan memanfaatkan teknik ‘deliberative alignment’
  • Dibanding OpenAI o1, model ini menunjukkan tingkat keamanan dan kemampuan pertahanan terhadap jailbreak yang bahkan lebih tinggi daripada GPT-4o
  • Sebelum peluncuran, model ini diverifikasi secara menyeluruh melalui preparedness evaluation, pengujian external red team, dan evaluasi keamanan
  • Hasil evaluasi respons terhadap konten yang tidak diizinkan serta evaluasi jailbreak untuk o3-mini tersedia di system card

Rencana dan prospek ke depan

  • OpenAI o3-mini menandai tahap baru dalam kemajuan kecerdasan AI yang efisien dari sisi biaya
  • Melalui optimasi STEM dan pengembangan model berbiaya rendah, OpenAI terus mengejar tujuan untuk menyediakan AI berkualitas tinggi bagi lebih banyak pengguna
  • Sejak peluncuran GPT-4, harga per token telah dipangkas 95% sambil tetap mempertahankan kemampuan penalaran kelas atas
  • Di tengah semakin luasnya adopsi AI oleh masyarakat, OpenAI berencana untuk tetap fokus pada pengembangan model yang menyeimbangkan kecerdasan, efisiensi, dan keamanan

1 komentar

 
GN⁺ 2025-02-01
Pendapat Hacker News
  • Model Claude-3.5-sonnet sangat konsisten, sementara model lain tampak mengalami masalah seperti ADHD

    • Saat mencoba menggunakan komponen shadcn di aplikasi NextJS, sonnet hampir selalu bekerja sempurna, tetapi model lain justru mencoba memakai radix-ui
    • Model o3-mini juga mengalami masalah yang sama
    • Ada kemungkinan set instruksi di cursor yang menjadi masalah
    • sonnet tetap menjadi satu-satunya opsi coding yang benar-benar layak
  • Respons o3-mini lebih disukai 56% dibanding o1-mini

    • Jika kedua respons panjangnya 2.000 kata, orang cenderung memilih yang lebih cepat menjawab pertanyaan
    • Survei ini tidak bermakna, dan tingkat respons 50% sama saja seperti lempar koin
  • Membagikan hasil ringkasan thread menggunakan o3-mini

    • Biayanya 3,3612 sen untuk 18.936 input dan 2.905 output
  • Dalam AI coding, o3-mini mendapat skor yang mirip dengan o1, tetapi biayanya 10 kali lebih murah

    • o3-mini dengan effort menengah mendapat skor di antara R1 dan Sonnet
  • Mengumumkan rilis baru alat CLI LLM yang mendukung model baru dan opsi reasoning_effort

    • Membagikan contoh cara pakainya
  • Menunjukkan bahwa skor SWE Bench o3-mini turun dari 61% menjadi 49,3%

    • o3-mini menunjukkan performa yang mirip dengan Claude dalam tugas coding nyata
  • Menyebutkan bahwa o3-mini-high berhasil menemukan akar penyebab seg fault

    • Menyelesaikan masalah yang sebelumnya terlewat oleh o1
  • Menunjukkan peningkatan yang signifikan di SWE-Bench, dan layak dicoba lagi untuk melihat apakah model ini bisa menangani tugas yang sebelumnya gagal ditangani o1-mini

    • Ada selisih biaya $4 per juta output token dibanding $60
  • Lanskap AI berubah dengan cepat, dan model-model AI baru terus bermunculan

    • Penasaran bagaimana perubahan di AI akan memengaruhi rilis ini dan rilis-rilis berikutnya