3 poin oleh GN⁺ 2025-04-15 | 1 komentar | Bagikan ke WhatsApp
  • Tiga model diumumkan: GPT-4.1, GPT-4.1 mini, dan GPT-4.1 nano
  • Menawarkan performa yang secara keseluruhan lebih baik dibanding GPT-4o, dengan peningkatan yang menonjol terutama pada coding, mengikuti instruksi, dan pemahaman konteks panjang
  • Ketiga model mendukung context window hingga 1 juta token, sehingga cocok untuk codebase besar dan analisis dokumen yang kompleks
  • Menghadirkan performa unggul sekaligus mengurangi latensi dan biaya
  • Peningkatan performa utama
    • Kemampuan coding: 54,6% di SWE-bench Verified, naik +21,4 poin persentase dibanding GPT-4o
    • Mengikuti instruksi: skor MultiChallenge 38,3%, naik +10,5 poin persentase dibanding GPT-4o
    • Pemahaman konteks panjang multimodal: 72,0% di Video-MME (long, no subtitles), +6,7 poin persentase dibanding GPT-4o
  • Karakteristik keluarga model GPT-4.1
    • GPT-4.1 mini: hasil evaluasi kecerdasan lebih baik daripada GPT-4o, latensi setengahnya, biaya turun 83%
    • GPT-4.1 nano: biaya dan latensi terendah, dengan performa tetap tinggi
  • GPT-4.5 Preview dijadwalkan berakhir pada 14 Juli 2025, dan transisi ke seri GPT-4.1 direkomendasikan
  • Vision (pemahaman gambar dan multimodal)
    • GPT-4.1 mini melampaui GPT-4o pada benchmark berbasis gambar
    • Akurasi tinggi pada MMMU, MathVista, CharXiv dan lainnya
    • Video-MME (pertanyaan pada video 30–60 menit tanpa subtitle): akurasi 72,0%
  • Kebijakan harga
    • Semua model telah dirilis dan dapat digunakan
    • GPT-4.1 rata-rata 26% lebih murah daripada GPT-4o
    • GPT-4.1 nano adalah model dengan biaya terendah
    • Input cache mendapat diskon biaya 75%, dan konteks panjang tidak dikenai biaya tambahan
  • Harga per model
    • GPT-4.1: input $2.00 per 1 juta token, output $8.00, biaya rata-rata sekitar $1.84
    • GPT-4.1 mini: input $0.40, output $1.60, rata-rata $0.42
    • GPT-4.1 nano: input $0.10, output $0.40, rata-rata $0.12
    • Diskon prompt cache diperluas dari 50% menjadi hingga 75%
    • Permintaan konteks panjang tidak dikenai biaya tambahan, hanya berdasarkan penggunaan token

1 komentar

 
GN⁺ 2025-04-15
Opini Hacker News
  • Pengguna ChatGPT menyatakan kebingungan terhadap situasi yang mengharuskan memilih di antara berbagai model

    • 4o mendukung pencarian web, penggunaan Canvas, evaluasi Python sisi server, dan pembuatan gambar, tetapi tidak memiliki chain of thought
    • o3-mini mendukung pencarian web, CoT, dan Canvas, tetapi tidak bisa membuat gambar
    • o1 mendukung CoT, tetapi tidak mendukung Canvas, pencarian web, maupun pembuatan gambar
    • Deep Research kuat, tetapi karena hanya bisa digunakan 10 kali per bulan, hampir tidak pernah dipakai
    • 4.5 unggul dalam penulisan kreatif, tetapi memiliki batas permintaan, dan tidak jelas apakah mendukung fitur lain
    • Dipertanyakan mengapa 4o "with scheduled tasks" dikategorikan sebagai model, bukan alat
  • Perbandingan SWE-bench Verified, Aider Polyglot, biaya, token output per detik, dan bulan/tahun knowledge cutoff

    • Perbandingan performa dan biaya Claude, Gemini, GPT-4.1, DeepSeek R1, dan Grok 3 Beta
    • Sulit dibandingkan secara langsung karena dapat mencakup lingkungan pengujian dan tingkat penalaran yang berbeda
  • OAI menerbitkan panduan prompt untuk GPT 4.1

    • Memberikan persistensi pada model membantu meningkatkan performa
    • Disarankan menggunakan XML atau arxiv 2406.13121 (format GDM) alih-alih JSON
    • Prompt sebaiknya ditempatkan di bagian atas dan bawah
  • Menurut pengumuman OpenAI, GPT-4.1 memberikan saran yang lebih baik dalam 55% kasus pada duel pembuatan code review melawan Claude Sonnet 3.7

    • GPT-4.1 unggul dalam presisi dan cakupan
  • Dalam Ted Talk terbaru, Sam mengatakan bahwa model datang dan pergi, tetapi mereka ingin menjadi platform terbaik

    • Ini terasa seperti perubahan besar
  • Dibagikan pengalaman menggunakan GPT-4.1 pada codebase yang kompleks

    • Terasa seperti model agen pertama dari OpenAI
    • Masih perlu banyak perbaikan, dan pemanggilan alat sering gagal
    • Kemampuannya menangani kompleksitas masih kalah dibanding Claude
    • Jika permintaan tidak terlalu kompleks, model ini patuh pada instruksi
  • Diajukan kebutuhan akan benchmark untuk performa model dengan token maksimum yang panjang

    • Ada pengalaman penurunan kualitas pada model Gemini setelah 200k
    • Dipertanyakan apakah menaikkan batas token maksimum benar-benar berguna
  • Laboratorium riset AI besar sedang menjalani beberapa perang pasar sekaligus

    • Mereka bersaing di berbagai front seperti pertumbuhan konsumen, workload enterprise, riset mutakhir, janji penalaran, dan respons terhadap ancaman DeepSeek
  • Hasil ringkasan GPT-4.1 atas thread Hacker News dengan 164 komentar

    • Dinilai cukup baik dalam mengikuti instruksi
    • Menyediakan total biaya token dan perbandingan dengan model lain