5 poin oleh GN⁺ 2025-04-17 | 1 komentar | Bagikan ke WhatsApp
  • Model o3 dan o4-mini secara signifikan meningkatkan kemampuan penalaran ChatGPT
  • Kedua model ini melampaui sekadar tanya jawab sederhana, dan juga dapat menangani tugas kompleks seperti menggunakan kombinasi alat, menganalisis materi visual, membuat gambar, dan menjalankan kode Python
  • Secara khusus, saat pengguna mengajukan pertanyaan, model ini memiliki kemampuan untuk menentukan sendiri dan menjalankan alat apa yang perlu dipakai dan kapan dipakai
  • Kuat dalam pemecahan masalah kompleks, penalaran visual, dan analisis multi-langkah, serta mengejar gaya percakapan yang lebih manusiawi
  • o3 adalah model untuk pemecahan masalah kompleks, sedangkan o4-mini adalah model penalaran yang cepat dan efisien, dengan tujuan mengejar performa tinggi dan efisiensi tinggi secara bersamaan
  • Memiliki kemampuan penalaran multimodal yang memadukan gambar dan teks, serta kemampuan penggunaan alat bergaya agen yang lebih canggih

Perubahan fitur utama

OpenAI o3

  • Hingga saat ini merupakan model berfokus pada penalaran yang paling kuat
  • Mencapai performa terdepan di berbagai bidang seperti coding, matematika, sains, dan analisis visual
  • Mencatat performa terbaik pada benchmark seperti Codeforces, SWE-bench, dan MMMU
  • Menurut evaluasi para pakar eksternal, memiliki tingkat kesalahan serius 20% lebih rendah dibanding o1
  • Sangat unggul dalam menghasilkan ide dan evaluasi kritis di bidang seperti pemrograman, konsultasi, biologi, dan rekayasa

OpenAI o4-mini

  • Model kecil yang dioptimalkan untuk kecepatan dan efisiensi biaya
  • Sangat unggul khususnya dalam matematika, coding, dan pemecahan masalah visual
  • Menunjukkan performa terkuat di kelasnya pada benchmark AIME 2024 dan 2025
  • Menawarkan performa unggul dibanding o3-mini juga pada bidang di luar STEM
  • Cocok untuk lingkungan yang membutuhkan volume penggunaan tinggi dan respons cepat
  • Kedua model sama-sama mengalami peningkatan dibanding model sebelumnya dalam pemahaman instruksi, kegunaan respons, dan keandalan
  • Kemampuan mengingat percakapan dan memberikan respons yang dipersonalisasi juga diperkuat

Fitur multimodal

  • Gambar dapat dimanfaatkan bukan hanya untuk pengenalan sederhana, tetapi juga sebagai bagian dari penalaran
  • Pengguna dapat mengunggah foto whiteboard, diagram dalam buku, gambar tangan, dan sebagainya
  • Model dapat mengenali dan menganalisis bahkan gambar yang buram atau terdistorsi
  • Pemrosesan gambar seperti rotasi, pembesaran, dan transformasi juga dapat dilakukan secara otomatis melalui alat
  • Meningkatkan kemampuan memecahkan masalah gabungan yang menggabungkan teks dan informasi visual

Cara penalaran yang berpusat pada pemanfaatan alat

  • o3 dan o4-mini dapat mengakses semua alat di ChatGPT
  • Saat pengguna mengajukan pertanyaan, model secara otomatis menentukan dan menggunakan alat yang diperlukan (pencarian web, analisis file, eksekusi kode, dan sebagainya)
  • Contoh: saat diminta "memprediksi penggunaan listrik musim panas di California", model dapat menjalankan seluruh rangkaian pencarian web → pembuatan kode Python → pembuatan grafik secara berurutan
  • Memungkinkan pemanfaatan informasi real-time, penalaran multi-langkah, dan respons terintegrasi lintas modalitas

Performa penalaran yang efisien

Perbandingan performa terhadap biaya

  • o3 dibanding o1, dan o4-mini dibanding o3-mini, mencapai peningkatan efisiensi biaya yang sangat besar
  • Berdasarkan hasil kompetisi matematika AIME 2025, baik o3 maupun o4-mini lebih murah dan lebih cerdas dibanding pendahulunya
  • Dalam lingkungan penggunaan nyata pun, keduanya diharapkan menjadi pilihan yang lebih cerdas dan lebih murah

Peningkatan keamanan

  • Dilatih ulang dengan data pelatihan baru untuk meningkatkan kemampuan menolak ancaman biologis, malware, prompt jailbreak, dan sebagainya
  • Diperkenalkan sistem pemantauan keamanan berbasis LLM yang secara otomatis mendeteksi tingkat risiko respons model
  • Hasil pengujian internal menunjukkan keberhasilan mendeteksi lebih dari 99% percakapan berisiko
  • Di bidang berisiko seperti bio/kimia, keamanan siber, dan peningkatan diri AI, model dinilai belum mencapai tingkat risiko tinggi
  • Verifikasi keamanan telah diselesaikan sesuai standar terbaru Preparedness Framework

Codex CLI: agen penalaran canggih yang digunakan di terminal

  • Alat yang memungkinkan kemampuan penalaran o3 dan o4-mini digunakan juga di terminal
  • Pengguna dapat memberikan kode, gambar, screenshot, dan sebagainya langsung ke model melalui CLI
  • Model dapat terhubung dengan kode di lingkungan lokal untuk melakukan penalaran multimodal
  • Dirilis sebagai open source: github.com/openai/codex
  • OpenAI juga memulai program dukungan senilai 1 juta dolar untuk proyek berbasis Codex CLI

Cara mengakses

  • Pengguna ChatGPT Plus, Pro, dan Team: dapat langsung menggunakan model o3, o4-mini, dan o4-mini-high
  • Pengguna Enterprise dan Education: dapat mengakses mulai 1 minggu lagi
  • Pengguna gratis juga dapat menggunakan o4-mini jika memilih opsi ‘Think’
  • Pengguna API juga dapat mulai menggunakannya hari ini (mungkin memerlukan verifikasi organisasi)
  • Di Responses API, akan tersedia berbagai fitur seperti ringkasan penalaran, pelestarian penalaran di sekitar pemanggilan fungsi, alat pencarian web, dan lain-lain

Arah ke depan

  • Direncanakan untuk menggabungkan kemampuan penalaran khusus dari seri o dengan kemampuan percakapan alami dari seri GPT
  • Ke depannya, model akan berkembang menjadi model yang dapat memanfaatkan alat secara proaktif sambil tetap melanjutkan percakapan alami

1 komentar

 
GN⁺ 2025-04-17
Komentar Hacker News
  • Mengajukan pertanyaan teknis tentang reverse engineering Final Fantasy VII, tetapi AI memberikan informasi yang salah

    • AI mencari informasi di forum dan situs, tetapi mengarang detail yang keliru sehingga hasilnya tidak akurat
    • AI tampaknya menyadari bahwa ia tidak mengetahui jawabannya, tetapi tetap dengan percaya diri memberikan nilai yang salah
    • Diharapkan AI akan jujur mengatakan jika tidak bisa menemukan jawaban yang benar
  • Menggunakan o3 untuk memasang WebStorm terbaru di NixOS, dan model tersebut menjalankan VM NixOS, mengunduh paket, lalu memberikan petunjuk instalasi

    • Tampaknya bahkan melakukan pengujian GUI, sangat mengesankan
  • Claude 3.7 masih menunjukkan performa terbaik di SWE-bench

    • Model OpenAI kemungkinan juga bisa menunjukkan performa yang serupa
  • Berhasil melakukan "tes Turing" sederhana untuk menulis konverter base 62 di C# dengan o4-mini-high

  • Menanyakan tanggal bulan baru pada Agustus 2025 ke beberapa AI, tetapi sebagian besar memberikan jawaban yang salah

    • Claude menolak menjawab tentang cara memblokir mesin pencari tertentu
  • o3 dan o4 menyadari ketika tidak memiliki alat pencarian web dan menolak menjawab

    • 4o dan 4.1 justru memberikan informasi yang salah
    • Fitur pencarian web baru ini berguna, dan memungkinkan penghapusan skrip Python yang tidak perlu
  • Codex CLI tersedia sebagai open source

  • Tidak ada perbandingan dengan Sonnet 3.7 atau Gemini Pro 2.5

  • Reinforcement learning skala besar tampaknya menunjukkan kecenderungan performa meningkat seiring penggunaan sumber daya komputasi yang lebih besar

    • Menjadi pertanyaan sampai kapan tren ini akan terus berlanjut
  • Sebagai konsumen, melelahkan untuk terus mengikuti model mana yang sebaiknya digunakan