1 poin oleh GN⁺ 2025-08-08 | 1 komentar | Bagikan ke WhatsApp
  • API GPT-5 secara resmi diluncurkan dan menghadirkan level baru kinerja coding dan pekerjaan agen untuk pengembang
  • Mencatat SOTA (kinerja terdepan) di evaluasi utama seperti SWE-bench Verified, Aider polyglot, serta membuktikan keunggulannya melalui beberapa studi kasus pelanggan seperti Cursor, Windsurf, Vercel
  • Menunjukkan kekuatan pada pekerjaan agen dengan waktu eksekusi panjang, integrasi alat yang canggih, dan penanganan konteks panjang untuk tugas dunia nyata yang kompleks
  • Dengan paramater halus seperti verbosity, reasoning_effort dan dukungan custom tools, pengembang dapat mengatur kontrol secara lebih tepat
  • Menawarkan opsi biaya/performa beragam lewat gpt-5, gpt-5-mini, gpt-5-nano, serta terintegrasi dengan Microsoft dan berbagai alat pengembang

Peluncuran dan Signifikansi GPT-5

  • OpenAI merilis GPT-5 di platform API sambil menegaskan bahwa ini adalah model dengan performa terbaik yang sampai saat ini paling dioptimalkan untuk coding dan pekerjaan agen
  • Mencatat SOTA (kinerja terdepan) pada benchmark coding utama dan dilatih melalui kolaborasi dengan penguji startup dan perusahaan nyata
  • Menampilkan performa hebat sebagai kolaborator dalam pekerjaan pengembangan riil seperti pembuatan kode, perbaikan bug, penyuntingan kode, dan query basis kode yang kompleks
  • Kemampuan untuk mengikuti instruksi detail dengan presisi meningkat, termasuk menjelaskan tindakan dan rencana sebelum serta sesudah pemanggilan alat
  • Performa pengembangan frontend juga unggul, dengan penilaian keunggulan 70% dibanding model sebelumnya pada pengujian internal

Klien Utama dan Kasus Penggunaan Nyata

  • Cursor, Windsurf, Vercel, Manus, Notion, dan Inditex menilai tinggi kecerdasan, kemudahan pengaturan, penanganan error alat, serta kualitas kode GPT-5
  • Pada kondisi deployment nyata, GPT-5 menunjukkan stabilitas dan efisiensi unggul dibanding model sebelumnya dalam pekerjaan background yang kompleks, peran agen dengan eksekusi jangka panjang, dan integrasi alat yang canggih

Benchmark dan Metrik Performa

  • SWE-bench Verified (patch issue perangkat lunak nyata): 74.9% performa, 22% lebih sedikit token, dan 45% lebih sedikit pemanggilan alat dibanding o3, sehingga efisiensi meningkat
  • Aider polyglot (evaluasi penyuntingan kode): mencatat 88%, mencapai tingkat kesalahan 1/3 dari o3
  • Pada analisis basis kode kompleks, model dapat meningkatkan LLM berskala besar sesuai pertanyaan peminta, sehingga pengembang dan peneliti lebih mudah memanfaatkannya
  • Generasi kode frontend unggul pada aspek estetika dan akurasi, dengan keunggulan 70% saat pengujian

Pekerjaan Agen dan Performa Konteks Panjang

  • Pada τ2-bench telecom (benchmark pemanggilan alat), mencatat 96.7% dan mencapai SOTA terbaru
  • Memiliki kemampuan penyelesaian tugas tinggi saat menjalankan puluhan pemanggilan alat secara berurutan atau paralel
  • Mencetak skor tertinggi pada evaluasi pelaksanaan instruksi seperti COLLIE, Scale MultiChallenge
  • Pada Q&A konteks panjang seperti OpenAI-MRCR, BrowseComp Long Context, performa melebihi o3 dan GPT-4.1
  • Mendukung panjang konteks hingga 400.000 token, cocok untuk analisis dokumen atau percakapan berskala besar

Keandalan dan Keamanan

  • Pada evaluasi LongFact, FactScore, terjadi penurunan kesalahan fakta lebih dari 80% dibanding o3
  • Model dapat mengenali dan memberi tahu keterbatasannya sendiri, dengan penguatan akurasi khususnya pada area pertanyaan kesehatan
  • Pada penggunaan nyata, verifikasi dari pengembang tetap disarankan pada area yang tetap kritis

Kendali Pengembang dan Fitur API Baru

  • reasoning_effort: dapat mengatur keseimbangan kecepatan respons dan kualitas penalaran melalui nilai minimal/low/medium/high
    • minimal: respons cepat, high: penalaran logis berkualitas tinggi
  • verbosity: mengontrol panjang output dengan low/medium/high
    • instruksi eksplisit akan diprioritaskan dibanding parameter
  • Custom tools: mendukung format plaintext selain JSON, serta memungkinkan pembatasan format input tool menggunakan regex atau Context-Free Grammar
  • Mekanisme output potongan kode besar/laporan mengurangi risiko error escape pada JSON, sehingga integrasi alat bagi pengembang menjadi lebih mudah

Beragam Model API dan Kebijakan Harga

  • gpt-5: $1.25 per 1 juta token input, $10 per 1 juta token output
  • gpt-5-mini: $0.25 per 1 juta token input, $2 per 1 juta token output
  • gpt-5-nano: $0.05 per 1 juta token input, $0.40 per 1 juta token output
  • Seluruh model mendukung fitur utama seperti reasoning_effort, verbosity, custom tools, pemanggilan alat paralel, alat bawaan web/file/image, dan streaming
  • gpt-5-chat-latest dirilis sebagai model non-reasoning untuk ChatGPT dengan harga yang sama

Integrasi dan Skalabilitas

  • Dirilis juga terintegrasi di berbagai platform Microsoft seperti Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry
  • Diterapkan sebagai mesin inti dalam sistem agen pengembang seperti Cursor, Windsurf, GitHub Copilot, Codex CLI
  • Dalam evaluasi internal alpha tester dan berbagai produk otomasi kode/pekerjaan, GPT-5 menetapkan standar baru dibanding model sebelumnya

Keandalan, Keamanan, dan Materi Tambahan

  • Kemungkinan halusinasi berkurang secara signifikan, dengan penjelasan yang lebih jujur mengenai proses kerja dan keterbatasan
  • Rincian implementasi, evaluasi, dan langkah keamanan dipublikasikan secara transparan melalui system card dan blog riset internal
  • Berperan sebagai mitra coding otomatis tingkat lanjut yang spesifik untuk otomasi alur kerja agentic kompleks

Kesimpulan

  • GPT-5 adalah model paling kuat sejauh ini yang dioptimalkan untuk coding dan tugas agen, dan menjadi mitra inovatif untuk lingkungan pengembangan dan otomatisasi kerja nyata.
  • Dengan evolusi API dan sistem alat, beragam opsi kapasitas dan harga, serta hasil evaluasi tinggi, GPT-5 membuka era produktivitas baru bagi pengembang dan organisasi

1 komentar

 
GN⁺ 2025-08-08
Komentar Hacker News
  • Saya belum merasakan perbedaan praktis yang jelas dalam keahlian pengembangan perangkat lunak antara Opus dan GPT-5. Tapi yang saya anggap penting itu seberapa baik menjaga konteks dalam waktu lama sambil tetap maju ke tujuan yang diberikan; di rekayasa perangkat lunak nyata saya rasa bagian ini paling penting. Saya ingin tahu metrik evaluasi apa yang bisa mengukurnya secara tepat dan memverifikasinya dengan andal.
    • Dalam beberapa minggu terakhir di Charlie Labs, saya mencoba eksperimen mempertahankan konteks kerja jangka panjang untuk GPT-5 dan hasilnya cukup baik. Saat menyuruh menyelesaikan 10 issue GitHub dan dibandingkan dengan Claude Code, selisih performanya sangat besar. Detail eksperimennya bisa dilihat di sini. Dalam konteks kompleks sekitar 30–45 menit sekalipun, ia tetap mengikuti alur saat tujuan bergeser, dan juga menangani thread besar di Linear atau GitHub dengan baik. Memang jumlah issue-nya masih sedikit, tetapi sangat impresif; saya berniat mengukur performa lebih luas lagi ke depan.
    • Saya sering membuat tujuan yang kompleks dan konteksnya sering berubah setiap hari, jadi menjaga konteks sangat dibutuhkan dalam kasus seperti ini. Sayangnya, GitHub Copilot sekarang terasa seperti left-out di antara alat bantu coding yang ada; dibandingkan dengan model-model lain seperti Anthropic, OpenAI, dan Google, ia belum banyak diperhatikan. Saya coba fitur web-based bernama spaces, dan untuk pekerjaan yang lebih besar terasa lebih cocok daripada di IDE. Namun, kelemahannya: mengumpulkan konteks dan mereview hasil mengambil waktu lebih lama dari saya sendiri. Tapi sepertinya ia punya keunggulan dalam mengumpulkan dan menumpuk konteks.
    • Pada saat ini, jika LLM frontier diberikan cukup konteks, mereka menyelesaikan sebagian besar masalah. Saat gagal, sebagian besar waktu biasanya dipakai untuk mengidentifikasi konteks apa yang belum cukup. Jadi yang saya butuhkan adalah kemampuan mengumpulkan konteks yang lebih fokus. Dalam kasus penggunaan saya, yang penting adalah memusatkan pada materi benar-benar relevan dari file kode, issue, PR, dan diskusi. Saya berharap GPT-5 maju satu level di aspek ini; apalagi kalau performanya serupa atau lebih baik dari Opus sambil lebih murah, tentu makin diharapkan.
    • Harga GPT-5 sudah jauh lebih baik dibanding Opus, sekarang turun mendekati level Gemini 2.5 Pro.
    • Kalau GPT-5 benar-benar berjalan dengan konteks 400k, itu sudah cukup untuk melampaui Opus dengan signifikan.
  • Sedang menguji skenario RAG dengan gpt-5-mini, dan sejauh ini impresif. Dengan opsi reasoning_effort="minimal", ini satu-satunya model yang tidak menghasilkan jawaban bohong pada bagian-bagian yang biasanya jadi andalan model lain buat halusinasi. Screenshot terkait saya unggah di sini. Ke depan akan ada evaluasi formal juga.
    • Untuk pertanyaan "Apa itu Product Manager?" GPT-4 memberi jawaban berdekorasi soal kolaborasi lintas tim, sementara GPT-5 menjawab "Tidak tahu". Dari satu kata itu rasanya saya jadi merasakan momen AI benar-benar ‘terbuka mata’.
    • phi-4 dan gemma-3n juga membaik di skenario RAG: mereka cuma memakai konteks yang diberikan dan tidak memaksakan jawaban yang tidak ada di konteks, sehingga mengurangi halusinasi.
    • Saya rasa ini perubahan paling besar. Saya sering menangani alur kerja yang banyak melakukan tool call, dan model sebelumnya sering membuat fake tools secara halusinatif; bahkan kadang-kadang model melewatkan pemanggilan tool lalu langsung membuat jawaban tanpa dasar. Dalam reward training terbaru, penguatan agar menekan halusinasi dan menghindari tool-skip terlihat berkembang cukup berarti.
  • Dalam seminggu terakhir saya bereksperimen hampir 70 jam dengan berbagai tools seperti Cursor, Claude Code, dan lain-lain. Hasilnya sangat impresif dan lebih andal, tetapi yang terus konsisten bagus tetap model keluarga Claude. Saya merasa di penggunaan nyata ini lebih penting daripada benchmark. Saya berharap model GPT baru juga berjalan baik di kasus ini, dan karena kompetisi makin ramai plus harga membaik, saya optimistis.
    • Berkat pembaruan tool terbaru Cursor (1.4), model seperti Gemini jadi jauh lebih reliabel dalam penggunaan tool dibanding sebelumnya. Dulu pun sering salah bahkan untuk hal dasar seperti mengedit file; sekarang hampir selalu bekerja benar.
    • Saya melihat bagian ini juga bergantung pada stack yang dipakai. Baru-baru ini saya lihat video pengenalan Convex di t3.gg video, dan struktur Convex membuatnya langsung bisa digunakan dengan benar sejak percobaan pertama. Saat dicoba langsung, saya merasa sama. Ke depan, alur kerja pengembangan kemungkinan berubah: untuk memaksimalkan beberapa AI bekerja paralel, bukan langsung terjun ke kode, kita membuat beberapa tiket di PM tool (sepertinya Linear lagi tren sekarang), lalu mendelegasikan ke AI agar menyortir mana yang bisa dieksekusi paralel, lalu mengerjakan beberapa tiket sekaligus di IDE atau Warp. Saya memang belum sepenuhnya bekerja dengan cara ini, tapi saya pikir harus beralih, dan untuk itu git worktree diperlukan. bahan terkait, dokumen, blog
    • Saya penasaran sampai sejauh mana produk sudah dibuat agar layak dikatakan "baik dan bisa diandalkan". 70 jam cukup untuk sampai ke PoC, tetapi saya penasaran kualitasnya ketika masuk ke fase menambahkan fitur-fitur berulang.
    • Model berbasis reasoning dari OpenAI menunjukkan kode dan kemampuan pemecahan masalah yang lebih baik, tetapi saya merasa Claude Code tetap lebih berguna di pemakaian nyata. Saya pikir meskipun modelnya sendiri lebih lemah, ia lebih cocok dipakai.
  • Kalau performanya bagus dari benchmark, skema harganya juga sangat menarik: token input $1.25/million, input cache $0.125/million, output $10/million. Untuk perbandingan, Claude Opus 4.1 adalah input $15/million dan output $75/million. Sekarang pertanyaannya adalah seberapa baik tool usage-nya dibanding Claude Code. Demo memang baik, tapi karena di Tau2-bench airline hasilnya di bawah o3, saya belum bisa menyimpulkan pasti.
    • Dari tes langsung beberapa jam terakhir, saya merasa GPT-5 makin oke dibanding Opus 4.1. Setelah beberapa bulan pakai Claude Code plan 200, outputnya makin mengecewakan, jadi saya pikir GPT-5 selangkah di depan.
    • Menariknya, meski berjalan dengan arsitektur campuran lebih dari dua sub-model, tetap diterapkan harga token yang seragam. Dari konteksnya sepertinya ini diharapkan membuat model yang lebih murah lebih sering dipakai; saya penasaran apakah skema harga ini akan bertahan jika user sering memakai model lebih berkualitas, atau mungkin margin harganya cukup longgar jadi tidak terlalu dipikirkan.
    • Harga bukan biaya. Harga sekarang tampak sengaja ditekan karena persaingan platform, jadi mungkin jauh dari biaya operasional sebenarnya. Saya perkirakan sebagian besar dari US$40 miliar yang diterima di Maret nanti akan dipakai untuk kompetisi harga seperti ini.
  • Ada klaim "GPT-5 menyetorkan rekor tertinggi 96,7% pada benchmark tool-call tugas agentic (τ2-bench telecom)", tetapi di benchmark airline performanya kalah dari o3. Penilaiannya seolah menonjolkan data yang menguntungkan mereka.
    • Sebagai orang yang menulis langsung grafik dan bagian tersebut, saya ingin menegaskan bahwa data evaluasi yang baik justru berada di sektor telecom. Pada benchmark retail dan airline, evaluasi otomatis terlalu ketat karena hanya menganggap satu jawaban tunggal sebagai benar, sehingga banyak solusi bagus gagal dapat skor. Telecom benchmark menilai berdasarkan status hasil dan mengizinkan banyak jawaban benar, sehingga menutupi kelemahan penilaian otomatis dan menampilkan sinyal performa model yang lebih jelas. Jadi fokus ke telecom benchmark terasa masuk akal. Bisa cek juga paper tau2-bench. Karena evaluasi seperti ini tidak punya nilai parsial, satu kesalahan kecil bisa berdampak besar pada skor total, sehingga performa sebenarnya bisa lebih tinggi atau lebih rendah dari skor.
    • Dari sisi biaya, kalau o3 memang mahal beroperasi, GPT-5 yang lebih murah pun sudah bisa dianggap peningkatan yang berarti walau performanya setara.
    • Karena artikel sendiri juga menyebut hasil rendah di airline, saya tidak menganggap ini pertanyaan jebakan.
  • Saya merasa dukungan CFG (Context-Free Grammar) dan regex cukup menarik. Penasaran apakah ini berbeda dengan Lark-like CFG di llguidance yang mengimplementasikan JSON Schema untuk OpenAI API. sumber terkait
    • Bagian yang paling ditunggu dari pengumuman ini adalah CFG dan output terstruktur. Tempat lain (API, Google, OpenAI, dll) terus bermasalah untuk praktiknya, jadi saya ingin mencoba secepatnya.
  • Cursor bisa dipakai gratis selama beberapa hari. Saya sudah lama menjadi power user coding agentic di berbagai IDE/CLI, dan kombinasi Cursor + GPT-5 terasa sangat baik. Kalau ada waktu, saya merekomendasikan untuk langsung mencoba.
  • Fitur yang membuat output bisa dipaksakan dengan CFG langsung itu sangat mengejutkan dan menarik. Saya penasaran bagaimana mereka menegakkan grammar yang benar saat tahap sampling.
    • Saya menduga ini akan memakai pendekatan "structured generation" atau "guided generation". Kalau bisa memakai LLM langsung, teknik ini sebenarnya sudah dipakai lama contoh 1, contoh 2. Intinya, di setiap langkah pembentukan token, yang diberi bukan seluruh vocab, melainkan hanya himpunan token yang valid menurut grammar saat ini. Misalnya untuk grammar JSON, hanya memberi token valid yang boleh muncul setelah {.
    • Ia menghasilkan output dengan menjadikan token yang valid menurut aturan produksi grammar sebagai pool sampling; jadi ini membatasi langsung proses inferensi murni.
  • Menyebut GPT-5 hanya dibandingkan dengan generasi sebelumnya sendiri (tanpa membandingkan model pesaing) dalam benchmark mengingatkan saya pada cara Apple seperti membandingkan iPhone dengan iPhone generasi sebelumnya saja.
  • Saat menguji GPT-5 pada masalah sulit, ia menganalisis dengan baik apa yang tidak bisa diselesaikan Gemini, tetapi gagal melakukan perbaikan kode sebanyak enam kali. Setelah saya kirim hasil analisis GPT-5 ke Google Gemini, Gemini langsung menghasilkan kode revisi yang benar. Kesimpulannya, ChatGPT bagus di analisis dan review kode, tapi kemampuan codingnya masih kurang.
    • Saya juga menemukan bahwa Gemini (GCA) dan CoPilot (Claude) pada masalah yang sama melakukan analisis yang sama dan menghasilkan solusi yang sama-sama salah. Walaupun saya tunjukkan kesalahannya, mereka malah memberi solusi yang lebih salah. Saya belum sempat mencoba ChatGPT, tapi akan segera coba.