Catatan Simon Willison tentang o3-mini

xguru · 2025-02-02T10:07:02+09:00

Model o3-mini dari OpenAI baru saja diperkenalkan, dan seperti model seri o lainnya, agak sulit dievaluasi Kini, setelah GPT-4o, o1, o1 Pro, dan lainnya, kita berada pada situasi harus menentukan model mana yang dipilih sesuai tujuan penggunaan Menurut o3-mini System Card (PDF), pada beberapa metrik evaluasi o3-mini lebih unggul daripada GPT-4o dan o1, tetapi tidak konsisten lebih tinggi di semua kategori Model ini menunjukkan performa yang sangat baik terutama pada metrik benchmark terkait kemampuan competitive programming seperti Codeforces ELO OpenAI berencana mengizinkan o3-mini digunakan untuk menelusuri internet lalu merangkum hasilnya di ChatGPT Karena model o1 sebelumnya tidak menggunakan tool pencarian web di ChatGPT, kegunaan penambahan fitur ini menarik untuk diperhatikan Selain itu, o3-mini tidak mendukung kemampuan vision (gambar), tetapi ada kemungkinan model mini berikutnya akan menyertakan vision Dukungan o3-mini telah ditambahkan ke LLM 0.21, alat CLI yang saya buat Dengan opsi -o reasoning_effort, bisa ditentukan high, medium, atau low Saat ini, o3-mini hanya tersedia bagi pengguna Tier 3 ke atas Untuk masuk tier tersebut, total penggunaan API minimum harus lebih dari $100 Biaya o3-mini adalah $1.10 per 1 juta token input $4.40 per 1 juta token output Harganya kurang dari setengah GPT-4o ($2.50/$10), dan kurang dari 1/10 dibanding o1 ($15/$60) Untuk merangkum posting Hacker News (42890627), ia mencoba menjalankan skrip hn-summary.sh dengan o3-mini hn-summary.sh 42890627 -o o3-mini Menggunakan 18.936 token input dan 2.905 token output, dengan total biaya sekitar $0.033612 (3.3612 sen) Batas maksimum token output o3-mini adalah 100.000 Jauh lebih besar daripada GPT-4o (16.000), DeepSeek R1 (8.000), dan Claude 3.5 (8.000) Karena token yang dipakai untuk penalaran internal juga dihitung dalam batas ini, output aktual mungkin sulit benar-benar mencapai 100.000 Token input bisa mencapai maksimum 200.000, kapasitas yang lebih besar daripada 128.000 milik GPT-4o Model ini tampak sangat berpotensi digunakan untuk pekerjaan seperti terjemahan teks panjang Karena murah dan menguntungkan untuk menangani input serta output panjang Komentar penerjemah profesional Tom Gally di Hacker News cukup menarik Ia menyebut baik DeepSeek R1 maupun o3-mini sama-sama menunjukkan penurunan kualitas di bagian akhir saat menerjemahkan teks panjang Awalnya R1 juga tampak tidak buruk, tetapi o3-mini menghasilkan teks yang lebih halus dan natural dalam bahasa Inggris, serta lebih mendekati gaya penulisan yang diminta Namun panjang outputnya adalah 5.855 karakter untuk R1, 9.052 karakter untuk o3-mini, dan 11.021 karakter untuk versi yang ia poles sendiri R1 menghilangkan beberapa paragraf di bagian akhir, sementara o3-mini menggunakan gaya singkatan yang aneh (memakai / di antara kata benda alih-alih and) Menurutnya, model seperti ChatGPT, Claude, dan Gemini sebelumnya tidak menunjukkan masalah seperti ini saat menerjemahkan teks yang sama

(simonwillison.net)

14 poin oleh xguru 2025-02-02 | 1 komentar | Bagikan ke WhatsApp

Model o3-mini dari OpenAI baru saja diperkenalkan, dan seperti model seri o lainnya, agak sulit dievaluasi
- Kini, setelah GPT-4o, o1, o1 Pro, dan lainnya, kita berada pada situasi harus menentukan model mana yang dipilih sesuai tujuan penggunaan
Menurut o3-mini System Card (PDF), pada beberapa metrik evaluasi o3-mini lebih unggul daripada GPT-4o dan o1, tetapi tidak konsisten lebih tinggi di semua kategori
- Model ini menunjukkan performa yang sangat baik terutama pada metrik benchmark terkait kemampuan competitive programming seperti Codeforces ELO
OpenAI berencana mengizinkan o3-mini digunakan untuk menelusuri internet lalu merangkum hasilnya di ChatGPT
- Karena model o1 sebelumnya tidak menggunakan tool pencarian web di ChatGPT, kegunaan penambahan fitur ini menarik untuk diperhatikan
Selain itu, o3-mini tidak mendukung kemampuan vision (gambar), tetapi ada kemungkinan model mini berikutnya akan menyertakan vision
Dukungan o3-mini telah ditambahkan ke LLM 0.21, alat CLI yang saya buat
- Dengan opsi -o reasoning_effort, bisa ditentukan high, medium, atau low
Saat ini, o3-mini hanya tersedia bagi pengguna Tier 3 ke atas
- Untuk masuk tier tersebut, total penggunaan API minimum harus lebih dari $100
Biaya o3-mini adalah
- $1.10 per 1 juta token input
- $4.40 per 1 juta token output
- Harganya kurang dari setengah GPT-4o ($2.50/$10), dan kurang dari 1/10 dibanding o1 ($15/$60)
Untuk merangkum posting Hacker News (42890627), ia mencoba menjalankan skrip hn-summary.sh dengan o3-mini
- hn-summary.sh 42890627 -o o3-mini
- Menggunakan 18.936 token input dan 2.905 token output, dengan total biaya sekitar $0.033612 (3.3612 sen)
Batas maksimum token output o3-mini adalah 100.000
- Jauh lebih besar daripada GPT-4o (16.000), DeepSeek R1 (8.000), dan Claude 3.5 (8.000)
- Karena token yang dipakai untuk penalaran internal juga dihitung dalam batas ini, output aktual mungkin sulit benar-benar mencapai 100.000
Token input bisa mencapai maksimum 200.000, kapasitas yang lebih besar daripada 128.000 milik GPT-4o
Model ini tampak sangat berpotensi digunakan untuk pekerjaan seperti terjemahan teks panjang
- Karena murah dan menguntungkan untuk menangani input serta output panjang
Komentar penerjemah profesional Tom Gally di Hacker News cukup menarik
- Ia menyebut baik DeepSeek R1 maupun o3-mini sama-sama menunjukkan penurunan kualitas di bagian akhir saat menerjemahkan teks panjang
- Awalnya R1 juga tampak tidak buruk, tetapi o3-mini menghasilkan teks yang lebih halus dan natural dalam bahasa Inggris, serta lebih mendekati gaya penulisan yang diminta
- Namun panjang outputnya adalah 5.855 karakter untuk R1, 9.052 karakter untuk o3-mini, dan 11.021 karakter untuk versi yang ia poles sendiri
- R1 menghilangkan beberapa paragraf di bagian akhir, sementara o3-mini menggunakan gaya singkatan yang aneh (memakai / di antara kata benda alih-alih and)
- Menurutnya, model seperti ChatGPT, Claude, dan Gemini sebelumnya tidak menunjukkan masalah seperti ini saat menerjemahkan teks yang sama

1 komentar

xguru 2025-02-02

Rilis OpenAI o3-Mini

Catatan Simon Willison tentang o3-mini

Bacaan terkait

1 komentar