OpenAI merilis GPT-4.1

(openai.com)

3 poin oleh GN⁺ 2025-04-15 | 1 komentar | Bagikan ke WhatsApp

Tiga model diumumkan: GPT-4.1, GPT-4.1 mini, dan GPT-4.1 nano
Menawarkan performa yang secara keseluruhan lebih baik dibanding GPT-4o, dengan peningkatan yang menonjol terutama pada coding, mengikuti instruksi, dan pemahaman konteks panjang
Ketiga model mendukung context window hingga 1 juta token, sehingga cocok untuk codebase besar dan analisis dokumen yang kompleks
Menghadirkan performa unggul sekaligus mengurangi latensi dan biaya
Peningkatan performa utama
- Kemampuan coding: 54,6% di SWE-bench Verified, naik +21,4 poin persentase dibanding GPT-4o
- Mengikuti instruksi: skor MultiChallenge 38,3%, naik +10,5 poin persentase dibanding GPT-4o
- Pemahaman konteks panjang multimodal: 72,0% di Video-MME (long, no subtitles), +6,7 poin persentase dibanding GPT-4o
Karakteristik keluarga model GPT-4.1
- GPT-4.1 mini: hasil evaluasi kecerdasan lebih baik daripada GPT-4o, latensi setengahnya, biaya turun 83%
- GPT-4.1 nano: biaya dan latensi terendah, dengan performa tetap tinggi
GPT-4.5 Preview dijadwalkan berakhir pada 14 Juli 2025, dan transisi ke seri GPT-4.1 direkomendasikan
Vision (pemahaman gambar dan multimodal)
- GPT-4.1 mini melampaui GPT-4o pada benchmark berbasis gambar
- Akurasi tinggi pada MMMU, MathVista, CharXiv dan lainnya
- Video-MME (pertanyaan pada video 30–60 menit tanpa subtitle): akurasi 72,0%
Kebijakan harga
- Semua model telah dirilis dan dapat digunakan
- GPT-4.1 rata-rata 26% lebih murah daripada GPT-4o
- GPT-4.1 nano adalah model dengan biaya terendah
- Input cache mendapat diskon biaya 75%, dan konteks panjang tidak dikenai biaya tambahan
Harga per model
- GPT-4.1: input $2.00 per 1 juta token, output $8.00, biaya rata-rata sekitar $1.84
- GPT-4.1 mini: input $0.40, output $1.60, rata-rata $0.42
- GPT-4.1 nano: input $0.10, output $0.40, rata-rata $0.12
- Diskon prompt cache diperluas dari 50% menjadi hingga 75%
- Permintaan konteks panjang tidak dikenai biaya tambahan, hanya berdasarkan penggunaan token

1 komentar

GN⁺ 2025-04-15

Opini Hacker News

Pengguna ChatGPT menyatakan kebingungan terhadap situasi yang mengharuskan memilih di antara berbagai model
- 4o mendukung pencarian web, penggunaan Canvas, evaluasi Python sisi server, dan pembuatan gambar, tetapi tidak memiliki chain of thought
- o3-mini mendukung pencarian web, CoT, dan Canvas, tetapi tidak bisa membuat gambar
- o1 mendukung CoT, tetapi tidak mendukung Canvas, pencarian web, maupun pembuatan gambar
- Deep Research kuat, tetapi karena hanya bisa digunakan 10 kali per bulan, hampir tidak pernah dipakai
- 4.5 unggul dalam penulisan kreatif, tetapi memiliki batas permintaan, dan tidak jelas apakah mendukung fitur lain
- Dipertanyakan mengapa 4o "with scheduled tasks" dikategorikan sebagai model, bukan alat
Perbandingan SWE-bench Verified, Aider Polyglot, biaya, token output per detik, dan bulan/tahun knowledge cutoff
- Perbandingan performa dan biaya Claude, Gemini, GPT-4.1, DeepSeek R1, dan Grok 3 Beta
- Sulit dibandingkan secara langsung karena dapat mencakup lingkungan pengujian dan tingkat penalaran yang berbeda
OAI menerbitkan panduan prompt untuk GPT 4.1
- Memberikan persistensi pada model membantu meningkatkan performa
- Disarankan menggunakan XML atau arxiv 2406.13121 (format GDM) alih-alih JSON
- Prompt sebaiknya ditempatkan di bagian atas dan bawah
Menurut pengumuman OpenAI, GPT-4.1 memberikan saran yang lebih baik dalam 55% kasus pada duel pembuatan code review melawan Claude Sonnet 3.7
- GPT-4.1 unggul dalam presisi dan cakupan
Dalam Ted Talk terbaru, Sam mengatakan bahwa model datang dan pergi, tetapi mereka ingin menjadi platform terbaik
- Ini terasa seperti perubahan besar
Dibagikan pengalaman menggunakan GPT-4.1 pada codebase yang kompleks
- Terasa seperti model agen pertama dari OpenAI
- Masih perlu banyak perbaikan, dan pemanggilan alat sering gagal
- Kemampuannya menangani kompleksitas masih kalah dibanding Claude
- Jika permintaan tidak terlalu kompleks, model ini patuh pada instruksi
Diajukan kebutuhan akan benchmark untuk performa model dengan token maksimum yang panjang
- Ada pengalaman penurunan kualitas pada model Gemini setelah 200k
- Dipertanyakan apakah menaikkan batas token maksimum benar-benar berguna
Laboratorium riset AI besar sedang menjalani beberapa perang pasar sekaligus
- Mereka bersaing di berbagai front seperti pertumbuhan konsumen, workload enterprise, riset mutakhir, janji penalaran, dan respons terhadap ancaman DeepSeek
Hasil ringkasan GPT-4.1 atas thread Hacker News dengan 164 komentar
- Dinilai cukup baik dalam mengikuti instruksi
- Menyediakan total biaya token dan perbandingan dengan model lain

OpenAI merilis GPT-4.1

Bacaan terkait

1 komentar

Opini Hacker News