- Model o3-mini dari OpenAI baru saja diperkenalkan, dan seperti model seri o lainnya, agak sulit dievaluasi
- Kini, setelah GPT-4o, o1, o1 Pro, dan lainnya, kita berada pada situasi harus menentukan model mana yang dipilih sesuai tujuan penggunaan
- Menurut o3-mini System Card (PDF), pada beberapa metrik evaluasi o3-mini lebih unggul daripada GPT-4o dan o1, tetapi tidak konsisten lebih tinggi di semua kategori
- Model ini menunjukkan performa yang sangat baik terutama pada metrik benchmark terkait kemampuan competitive programming seperti Codeforces ELO
- OpenAI berencana mengizinkan o3-mini digunakan untuk menelusuri internet lalu merangkum hasilnya di ChatGPT
- Karena model o1 sebelumnya tidak menggunakan tool pencarian web di ChatGPT, kegunaan penambahan fitur ini menarik untuk diperhatikan
- Selain itu, o3-mini tidak mendukung kemampuan vision (gambar), tetapi ada kemungkinan model mini berikutnya akan menyertakan vision
- Dukungan o3-mini telah ditambahkan ke LLM 0.21, alat CLI yang saya buat
- Dengan opsi
-o reasoning_effort, bisa ditentukan high, medium, atau low
- Saat ini, o3-mini hanya tersedia bagi pengguna Tier 3 ke atas
- Untuk masuk tier tersebut, total penggunaan API minimum harus lebih dari $100
- Biaya o3-mini adalah
- $1.10 per 1 juta token input
- $4.40 per 1 juta token output
- Harganya kurang dari setengah GPT-4o ($2.50/$10), dan kurang dari 1/10 dibanding o1 ($15/$60)
- Untuk merangkum posting Hacker News (42890627), ia mencoba menjalankan skrip hn-summary.sh dengan o3-mini
hn-summary.sh 42890627 -o o3-mini
- Menggunakan 18.936 token input dan 2.905 token output, dengan total biaya sekitar $0.033612 (3.3612 sen)
- Batas maksimum token output o3-mini adalah 100.000
- Jauh lebih besar daripada GPT-4o (16.000), DeepSeek R1 (8.000), dan Claude 3.5 (8.000)
- Karena token yang dipakai untuk penalaran internal juga dihitung dalam batas ini, output aktual mungkin sulit benar-benar mencapai 100.000
- Token input bisa mencapai maksimum 200.000, kapasitas yang lebih besar daripada 128.000 milik GPT-4o
- Model ini tampak sangat berpotensi digunakan untuk pekerjaan seperti terjemahan teks panjang
- Karena murah dan menguntungkan untuk menangani input serta output panjang
- Komentar penerjemah profesional Tom Gally di Hacker News cukup menarik
- Ia menyebut baik DeepSeek R1 maupun o3-mini sama-sama menunjukkan penurunan kualitas di bagian akhir saat menerjemahkan teks panjang
- Awalnya R1 juga tampak tidak buruk, tetapi o3-mini menghasilkan teks yang lebih halus dan natural dalam bahasa Inggris, serta lebih mendekati gaya penulisan yang diminta
- Namun panjang outputnya adalah 5.855 karakter untuk R1, 9.052 karakter untuk o3-mini, dan 11.021 karakter untuk versi yang ia poles sendiri
- R1 menghilangkan beberapa paragraf di bagian akhir, sementara o3-mini menggunakan gaya singkatan yang aneh (memakai
/ di antara kata benda alih-alih and)
- Menurutnya, model seperti ChatGPT, Claude, dan Gemini sebelumnya tidak menunjukkan masalah seperti ini saat menerjemahkan teks yang sama
1 komentar
Rilis OpenAI o3-Mini