4 poin oleh GN⁺ 11 jam lalu | 2 komentar | Bagikan ke WhatsApp
  • GPT-5.5 adalah model terbaru yang ditambahkan ke Chat Completions API dan Responses API, dan GPT-5.5 pro juga ditambahkan ke permintaan Responses API untuk masalah sulit yang diuntungkan oleh komputasi lebih besar
  • Mendukung secara luas jendela konteks 1 juta token serta input gambar, structured outputs, function calling, prompt caching, Batch, tool search, built-in computer use, hosted shell, apply patch, Skills, MCP, hingga pencarian web
  • Nilai default reasoning effort ditetapkan ke medium, dan saat image_detail tidak disetel atau bernilai auto, perilaku yang ada tetap dipertahankan
  • Caching GPT-5.5 hanya berfungsi pada extended prompt caching dan tidak mendukung in-memory prompt caching
  • Arus perubahan API terbaru telah meluas melampaui peluncuran model ke image, audio, realtime, video, dan alat agent, dan lini GPT-5.5 menjadi tambahan utama terbaru di antaranya

Log perubahan

April 2026

  • 24 April

    • GPT-5.5 dirilis ke Chat Completions API dan Responses API, dan GPT-5.5 pro juga ditambahkan ke permintaan Responses API untuk masalah sulit yang diuntungkan oleh komputasi lebih besar
    • GPT-5.5 mendukung jendela konteks 1 juta token, input gambar, structured outputs, function calling, prompt caching, Batch, tool search, built-in computer use, hosted shell, apply patch, Skills, MCP, dan pencarian web
    • Perubahan utama mencakup nilai default reasoning effort yang ditetapkan ke medium
    • Saat image_detail tidak disetel atau bernilai auto, perilaku yang ada digunakan
    • Caching GPT-5.5 hanya berfungsi pada extended prompt caching dan tidak mendukung in-memory prompt caching
  • 21 April

    • GPT Image 2 dirilis sebagai model generasi gambar terbaru untuk pembuatan dan pengeditan gambar
    • GPT Image 2 mencakup ukuran gambar yang fleksibel, input gambar fidelitas tinggi, penagihan gambar berbasis token, dan dukungan Batch API dengan diskon 50%
  • 15 April

    • Fitur baru ditambahkan ke Agents SDK
      • Dapat menjalankan agent di sandbox yang terkontrol
      • Dapat memeriksa dan menyesuaikan harness open-source
      • Dapat mengontrol kapan memory dibuat dan di mana memory disimpan

Maret 2026

  • 17 Maret

    • GPT-5.4 mini dan GPT-5.4 nano dirilis ke Chat Completions API dan Responses API
    • GPT-5.4 mini menghadirkan performa setara GPT-5.4 dalam bentuk yang lebih cepat dan efisien, sehingga cocok untuk workload throughput besar
    • GPT-5.4 nano dioptimalkan untuk tugas sederhana bervolume besar yang paling mengutamakan kecepatan dan biaya
    • GPT-5.4 mini mendukung tool search, built-in computer use, dan compaction
    • GPT-5.4 nano mendukung compaction, tetapi tidak mendukung tool search dan computer use
  • 16 Maret

    • Slug gpt-5.3-chat-latest diperbarui agar menunjuk ke model terbaru yang saat ini digunakan di ChatGPT
  • 13 Maret

    • Encoder gambar diperbarui untuk memperbaiki bug kecil yang terjadi pada input input_image di GPT-5.4
    • Kualitas dapat meningkat pada beberapa kasus penggunaan pemahaman gambar
    • Tidak diperlukan tindakan tambahan
  • 12 Maret

    • Sora API diperluas dengan menambahkan character reference yang dapat digunakan ulang, generasi lebih panjang hingga 20 detik, output 1080p untuk sora-2-pro, video extension, dan dukungan Batch API untuk POST /v1/videos
    • Generasi 1080p pada sora-2-pro ditagih sebesar $0.70 per detik
    • Detail selengkapnya: video generation guide
  • Pembaruan 12 Maret

    • POST /v1/videos/edits ditambahkan untuk pengeditan video yang sudah ada
    • POST /v1/videos/{video_id}/remix adalah rute penggantinya dan dijadwalkan dihentikan dukungannya setelah 6 bulan
    • Detail selengkapnya: edit existing videos
  • 5 Maret

    • GPT-5.4 dirilis ke Chat Completions API dan Responses API, dan GPT-5.4 pro ditambahkan ke Responses API untuk masalah sulit yang diuntungkan oleh komputasi lebih besar
    • tool search untuk Responses API juga dirilis, memungkinkan model menunda tool surface berskala besar hingga runtime untuk mengurangi penggunaan token, mempertahankan performa cache, dan meningkatkan latensi
    • Dukungan built-in computer use melalui tool computer di Responses API ditambahkan ke GPT-5.4, sehingga interaksi UI berbasis screenshot menjadi mungkin
    • Untuk workflow agent yang berjalan lebih lama, disediakan jendela konteks 1 juta token dan dukungan native Compaction
  • 3 Maret

    • gpt-5.3-chat-latest dirilis ke Chat Completions API dan Responses API
    • Model ini menunjuk ke snapshot GPT-5.3 Instant yang saat ini digunakan di ChatGPT
    • Detail selengkapnya: gpt-5.3-chat-latest

Februari 2026

  • 24 Februari

    • Memperluas cakupan dukungan input_file sehingga dapat menerima lebih banyak format file dokumen, presentasi, spreadsheet, kode, dan teks
    • Detail lebih lanjut: file inputs
  • 24 Februari Responses API

    • Menambahkan phase ke Responses API
    • Memberi label pada pesan assistant dengan membedakan penjelasan perantara commentary dan jawaban akhir final_answer
    • Detail lebih lanjut: phase
  • 24 Februari gpt-5.3-codex

    • Merilis gpt-5.3-codex di Responses API
    • Detail lebih lanjut: gpt-5.3-codex
  • 23 Februari

    • Memperkenalkan WebSocket mode ke Responses API
    • Detail lebih lanjut: websocket mode
  • 23 Februari model audio dan realtime

    • Merilis gpt-realtime-1.5 di Realtime API
    • Merilis gpt-audio-1.5 di Chat Completions API
  • 10 Februari GPT Image Batch

    • Batch API kini didukung untuk gpt-image-1.5, chatgpt-image-latest, gpt-image-1, gpt-image-1-mini
  • 10 Februari gpt-5.2-chat-latest

    • Slug gpt-5.2-chat-latest diperbarui agar menunjuk ke model terbaru yang saat ini digunakan di ChatGPT
  • 10 Februari compaction

  • 10 Februari Skills

    • Memperkenalkan dukungan Skills ke Responses API
    • Skills didukung baik dalam eksekusi lokal maupun eksekusi berbasis hosted container
  • 10 Februari Hosted Shell

    • Memperkenalkan alat baru Hosted Shell dan juga mendukung jaringan di dalam container
  • 9 Februari

    • Menambahkan dukungan permintaan application/json ke /v1/images/edits untuk model GPT image
    • Permintaan JSON menggunakan referensi image_url atau file_id untuk images dan mask opsional, alih-alih multipart upload
  • 3 Februari

    • Mengoptimalkan stack inferensi untuk pelanggan API sehingga GPT-5.2 dan GPT-5.2-Codex berjalan sekitar 40% lebih cepat
    • Model dan bobot model tidak berubah

Januari 2026

  • 15 Januari

    • Mengumumkan Open Responses
    • Ini adalah spesifikasi open-source untuk antarmuka LLM interoperabel multi-provider yang dibangun di atas OpenAI Responses API
  • 14 Januari

    • Merilis gpt-5.2-codex di Responses API
    • GPT-5.2-Codex adalah varian GPT-5.2 yang dioptimalkan untuk pekerjaan agentic coding di Codex atau lingkungan serupa
    • Detail lebih lanjut: gpt-5.2-codex
  • 13 Januari Realtime SIP

    • Menambahkan rentang IP SIP khusus ke Realtime API
    • sip.api.openai.com melakukan perutean GeoIP dan mengirim lalu lintas SIP ke region terdekat
    • Detail lebih lanjut: dedicated SIP IP ranges
  • 13 Januari pembaruan slug model

    • Slug gpt-realtime-mini dan gpt-audio-mini diperbarui agar menunjuk ke snapshot 2025-12-15
    • Jika memerlukan snapshot model sebelumnya, gunakan gpt-realtime-mini-2025-10-06 dan gpt-audio-mini-2025-10-06
    • Slug sora-2 diperbarui agar menunjuk ke sora-2-2025-12-08
    • Jika memerlukan snapshot sora-2 sebelumnya, gunakan sora-2-2025-10-06
    • Slug gpt-4o-mini-tts dan gpt-4o-mini-transcribe diperbarui agar menunjuk ke snapshot 2025-12-15
    • Jika memerlukan snapshot model sebelumnya, gunakan gpt-4o-mini-tts-2025-03-20 dan gpt-4o-mini-transcribe-2025-03-20
    • Untuk hasil terbaik saat ini, direkomendasikan menggunakan gpt-4o-mini-transcribe dibanding gpt-4o-transcribe
  • 9 Januari

    • Memperbaiki masalah di /v1/images/edits di mana gpt-image-1.5 dan chatgpt-image-latest keliru menggunakan high fidelity meskipun fidelity secara eksplisit diatur ke low

Desember 2025

  • 19 Desember

    • Menambahkan gpt-image-1.5 dan chatgpt-image-latest ke alat pembuatan gambar di Responses API
  • 16 Desember

  • 15 Desember

    • Merilis 4 snapshot audio bertanggal baru
    • Pembaruan ini meningkatkan keandalan, kualitas, dan fidelitas suara untuk aplikasi berbasis suara real-time
    • Detail selengkapnya: updates audio models
    • gpt-realtime-mini-2025-12-15
    • gpt-audio-mini-2025-12-15
    • gpt-4o-mini-transcribe-2025-12-15
    • gpt-4o-mini-tts-2025-12-15
    • Rilis ini juga mencakup dukungan Custom voices untuk pelanggan yang memenuhi syarat
  • 11 Desember GPT-5.2

    • Merilis GPT-5.2 sebagai model flagship terbaru di lini GPT-5
    • Dibanding GPT-5.1, kecerdasan umum, kepatuhan terhadap instruksi, akurasi dan efisiensi token, multimodalitas khususnya visi, pembuatan kode khususnya pembuatan UI frontend, tool calling dan pengelolaan context di API, serta pemahaman dan pembuatan spreadsheet mengalami peningkatan
    • Menambahkan level reasoning effort xhigh, reasoning summary yang ringkas, dan pengelolaan context baru yang memanfaatkan compaction
  • 11 Desember client-side compaction

    • Merilis client-side compaction
    • Dalam percakapan berjalan lama di Responses API, context yang dikirim pada setiap giliran dapat dikurangi dengan endpoint /responses/compact
  • 4 Desember

    • Merilis gpt-5.1-codex-max di Responses API
    • GPT-5.1-Codex adalah model coding paling cerdas yang dioptimalkan untuk tugas agentic coding dengan horizon jangka panjang
    • Detail selengkapnya: gpt-5.1-codex-max

November 2025

  • 20 November

    • Menambahkan dukungan input tombol DTMF ke Realtime API
    • Dapat menerima event DTMF saat menggunakan Realtime sideband connection
    • Detail selengkapnya: dtmf_event_received
  • 13 November GPT-5.1

    • Merilis GPT-5.1 sebagai model flagship terbaru di lini GPT-5
    • Dilatih agar kuat khususnya dalam steerability, respons yang lebih cepat untuk situasi yang membutuhkan lebih sedikit pemikiran, pembuatan kode dan use case coding, serta agentic workflow
    • GPT-5.1 menggunakan pengaturan reasoning none baru sebagai default untuk respons cepat dalam situasi yang membutuhkan lebih sedikit pemikiran
    • Default ini berbeda dari default sebelumnya pada GPT-5, yaitu medium
  • 13 November RBAC

  • 13 November GPT-5.1-Codex

    • Merilis gpt-5.1-codex dan gpt-5.1-codex-mini di Responses API
    • GPT-5.1-Codex adalah varian GPT-5.1 yang dioptimalkan untuk tugas agentic coding di Codex atau lingkungan serupa
    • Detail selengkapnya: gpt-5.1-codex
  • 13 November extended prompt caching

    • Merilis extended prompt cache retention
    • Menjaga cached prefix tetap aktif lebih lama, hingga maksimal 24 jam
    • Saat memori penuh, key/value tensor di-offload ke GPU local storage untuk sangat meningkatkan kapasitas penyimpanan yang dapat di-cache

Oktober 2025

September 2025

  • 26 September

  • 23 September

    • Merilis gpt-5-codex sebagai model untuk tujuan khusus
    • Dibangun dan dioptimalkan untuk penggunaan Codex CLI

Agustus 2025

  • 28 Agustus

  • 21 Agustus

    • Menambahkan dukungan connectors ke Responses API
    • Connector adalah MCP wrapper yang dipelihara OpenAI untuk layanan populer seperti aplikasi Google dan Dropbox, dan dapat digunakan agar model memiliki akses baca ke data yang disimpan di layanan tersebut
  • 20 Agustus

    • Merilis Conversations API
    • Dapat digunakan bersama Responses API untuk membuat dan mengelola percakapan yang berjalan jangka panjang
    • Cara berpindah dari integrasi Assistants API ke Responses dan Conversations beserta perbandingan berdampingan dapat dilihat di migration guide
  • 7 Agustus

    • Merilis model keluarga GPT-5 di API: gpt-5, gpt-5-mini, gpt-5-nano
    • Memperkenalkan nilai reasoning effort minimal untuk optimasi respons cepat pada model GPT-5 yang mendukung reasoning
    • Memperkenalkan tipe tool call custom yang memungkinkan input dan output berbentuk bebas

Juni 2025

  • 27 Juni

    • Merilis dukungan Priority processing
    • Menawarkan latensi yang jauh lebih rendah dan lebih konsisten dibandingkan Standard processing, sambil mempertahankan fleksibilitas bayar sesuai pemakaian
  • 24 Juni

  • 13 Juni

    • Membuat reusable prompts baru dapat digunakan di Dashboard dan Responses API
    • Di API, template yang dibuat di Dashboard dapat dirujuk dengan parameter prompt, dan dapat mengirimkan id prompt, version opsional, serta variables dinamis yang dapat mencakup input string, gambar, dan file
    • reusable prompts tidak dapat digunakan di Chat Completions
    • Detail selengkapnya: reusable prompts
  • 10 Juni

    • Merilis o3-pro di Responses API dan Batch API
    • Dirancang untuk menjawab masalah sulit dengan reasoning dan konsistensi yang lebih baik, menggunakan komputasi lebih banyak dibanding model reasoning o3
    • Menurunkan harga model o3 untuk semua permintaan API, termasuk batch dan flex processing
  • 4 Juni

    • Menambahkan dukungan fine-tuning yang memanfaatkan direct preference optimization untuk gpt-4.1-2025-04-14, gpt-4.1-mini-2025-04-14, gpt-4.1-nano-2025-04-14
  • 3 Juni

Mei 2025

  • 20 Mei alat bawaan

  • 20 Mei schema

    • Di Responses API dan Chat Completions API, mode strict kini dapat digunakan pada tool schema saat parallel tool calling untuk model yang tidak di-fine-tune
    • Juga menambahkan schema features baru, termasuk validasi string untuk email dan pola lainnya, serta penentuan rentang untuk angka dan array
  • 15 Mei

  • 7 Mei

April 2025

  • 30 April

  • 23 April

    • Menambahkan model pembuatan gambar gpt-image-1
    • Model ini menjadi standar baru untuk pembuatan gambar dengan kualitas dan instruction following yang ditingkatkan
    • Endpoint Image Generation dan Edit juga diperbarui agar mendukung parameter baru khusus gpt-image-1
  • 16 April

    • Menambahkan dua model reasoning o-series, o3 dan o4-mini, ke Chat Completions API dan Responses API
    • Menjadi standar baru dalam matematika, sains, coding, tugas visual reasoning, dan penulisan dokumen teknis
    • Juga merilis alat CLI pembuat kode Codex
  • 14 April

    • Menambahkan gpt-4.1, gpt-4.1-mini, gpt-4.1-nano ke API
    • Menawarkan instruction following, coding, dan context window yang lebih besar hingga 1 juta token
    • gpt-4.1 dan gpt-4.1-mini mendukung supervised fine-tuning
    • Juga mengumumkan penghentian dukungan gpt-4.5-preview

Maret 2025

  • 20 Maret

    • Menambahkan model gpt-4o-mini-tts, gpt-4o-transcribe, gpt-4o-mini-transcribe, dan whisper-1 ke Audio API
  • 19 Maret

    • Merilis o1-pro ke Responses API dan Batch API
    • Dibuat untuk menggunakan komputasi lebih banyak daripada model reasoning o1 agar dapat menjawab masalah sulit dengan reasoning dan konsistensi yang lebih baik
  • 11 Maret

    • Merilis beberapa model dan tool baru, serta API baru untuk agentic workflow
    • Merilis Responses API sehingga agent dan tool dapat dibuat dan digunakan
    • Merilis rangkaian tool bawaan untuk Responses API berupa web search, file search, dan computer use
    • Merilis Agents SDK, framework orkestrasi untuk merancang, membangun, dan menerapkan agent
    • Mengumumkan model gpt-4o-search-preview, gpt-4o-mini-search-preview, dan computer-use-preview
    • Mengungkapkan rencana untuk memindahkan seluruh kemampuan Assistants API ke Responses API yang lebih mudah digunakan, serta memberi tahu target penghentian Assistants pada 2026 setelah tercapai kesetaraan fitur penuh
  • 3 Maret

    • Menambahkan dukungan field metadata untuk fine-tuning job

Februari 2025

  • 27 Februari

    • Merilis GPT-4.5 sebagai research preview di Chat Completions API, Assistants API, dan Batch API
    • GPT-4.5 diperkenalkan sebagai model chat terbesar dan berkinerja tertinggi, serta lebih kuat untuk pekerjaan kreatif dan agentic planning berkat EQ tinggi dan pemahaman niat pengguna
  • 25 Februari

    • Merilis API Usage Dashboard Update
    • Mencerminkan permintaan untuk filter data tambahan seperti pemilihan proyek, pemilih tanggal, dan interval waktu yang lebih rinci
    • Membantu melihat penggunaan di berbagai produk dan service tier yang berbeda dengan lebih baik
  • 5 Februari

    • Memperkenalkan residensi data Eropa
    • Detail lebih lanjut: your data

Januari 2025

  • 31 Januari

    • Merilis o3-mini sebagai model reasoning berukuran kecil
    • Dioptimalkan untuk tugas sains, matematika, dan coding
  • 21 Januari

    • Memperluas cakupan akses o1 model
    • Model seri o1 dilatih untuk melakukan reasoning kompleks dengan reinforcement learning

Desember 2024

November 2024

  • 20 November

    • Merilis gpt-4o-2024-11-20 ke v1/chat/completions
    • Ini adalah model terbaru dalam seri gpt-4o
  • 4 November

    • Merilis Predicted Outputs
    • Secara signifikan mengurangi latensi respons model dalam situasi ketika sebagian besar respons sudah diketahui sebelumnya
    • Terutama sering digunakan saat meregenerasi isi dokumen dan file kode dengan hanya perubahan kecil

Oktober 2024

  • 30 Oktober

    • Menambahkan 5 tipe suara baru ke Realtime API dan Chat Completions API
    • Model yang menjadi target adalah gpt-4o-realtime-preview dan gpt-4o-audio-preview, dan endpoint v1/chat/completions juga disebutkan bersama
  • 17 Oktober

  • 1 Oktober OpenAI DevDay di San Francisco

    • Mengumumkan beberapa fitur sekaligus di OpenAI DevDay di San Francisco
    • Realtime API memungkinkan aplikasi membangun pengalaman speech-to-speech yang cepat melalui antarmuka WebSockets
    • Model distillation memungkinkan fine-tuning model yang efisien dari sisi biaya dengan memanfaatkan output dari model frontier besar
    • Image fine-tuning memungkinkan fine-tuning GPT-4o dengan gambar dan teks untuk meningkatkan kemampuan visual
    • Evals menyediakan kemampuan menjalankan evaluasi kustom untuk mengukur performa model pada tugas tertentu
    • Prompt caching memberikan diskon dan waktu pemrosesan yang lebih cepat untuk token input yang baru-baru ini dilihat
    • Generate in playground memungkinkan pembuatan prompt, definisi fungsi, dan skema output terstruktur dengan mudah menggunakan tombol Generate

September 2024

  • 26 September

    • Memperkenalkan model moderasi omni-moderation-latest baru
    • Mendukung gambar dan teks, serta menangani teks dan gambar secara bersamaan di beberapa kategori
    • Mendukung 2 kategori harm baru khusus teks dan juga meningkatkan akurasi skor
  • 12 September

    • Memperkenalkan o1-preview dan o1-mini
    • Kedua model adalah model bahasa skala besar baru yang dilatih dengan reinforcement learning dan ditujukan untuk menjalankan tugas penalaran kompleks
    • Endpoint ditandai sebagai v1/chat/completions

Agustus 2024

Juli 2024

  • 24 Juli

    • Meluncurkan self-serve SSO configuration
    • Pelanggan Enterprise yang menggunakan custom dan unlimited billing dapat mengatur autentikasi sesuai IDP yang diinginkan
  • 23 Juli

    • Meluncurkan fine-tuning GPT-4o mini agar bisa menargetkan performa yang lebih tinggi pada kasus penggunaan tertentu
  • 18 Juli

    • Memperkenalkan GPT-4o mini
    • Diperkenalkan sebagai model kecil berbiaya rendah untuk tugas yang cepat dan ringan
  • 17 Juli

    • Meluncurkan Uploads agar file besar dapat diunggah dengan membaginya ke beberapa bagian

Juni 2024

Mei 2024

  • 15 Mei

    • Menambahkan dukungan arsip proyek, dan hanya organization owner yang dapat mengaksesnya
    • Juga menambahkan dukungan penetapan batas biaya per proyek untuk pelanggan bayar sesuai pemakaian
  • 13 Mei

    • Merilis GPT-4o di API
    • Disebut sebagai model flagship tercepat dan termurah
  • 9 Mei

  • 7 Mei

  • 6 Mei

  • 2 Mei

    • Menambahkan endpoint baru untuk menghapus pesan di thread pada Assistants API

April 2024

Maret 2024

Februari 2024

Januari 2024

  • 25 Januari

    • Mengumumkan model embedding V3 dan GPT-4 Turbo preview yang diperbarui
    • Menambahkan dimensions parameter ke Embeddings API

Desember 2023

November 2023

Oktober 2023

2 komentar

 
ragingwind 8 jam lalu

Mulai 5.4, versi pro tampaknya sudah tidak lagi menyediakan Chat Completions API.

 
GN⁺ 11 jam lalu
Pendapat Hacker News
  • Aku langsung mencobanya karena ada isu produksi, dan GPT-5.5 melakukan hal yang biasanya tidak dilakukan Claude dengan cara seperti ini
    Setelah troubleshooting, model menyuruhku menulis pernyataan update, lalu ketika aku bilang, "oke, mari bungkus ini dengan transaction dan tambahkan rollback," hasilnya malah gaya lama seperti ini
    BEGIN TRAN;
    -- put the query here
    commit;
    Hanya memberi seperti itu
    Sudah cukup lama aku tidak perlu mendorong model lagi agar benar-benar melakukan tugas yang diminta, jadi ini cukup mengejutkan
    Aku paham kalau mereka ingin memakai token lebih sedikit, tapi kalau aku membayar untuk model state-of-the-art lalu hasilnya malas seperti ini, rasanya menyebalkan
    Aku cuma mencobanya karena model ini muncul di pemilih model di Cursor

    • Setelah gpt-5.3-codex, 2–3 generasi terakhir terasa bukan benar-benar jauh lebih baik, melainkan lebih seperti mengubah berbagai hal dan menghasilkan tradeoff yang berbeda-beda
    • Mungkin aku salah paham, tapi aku penasaran apa tepatnya masalahnya
      Jika masalahnya adalah jawaban itu hanya menaruh -- put the query here dan tidak mengulangi query-nya lagi, aku tidak yakin itu benar-benar masalah
      Kalau tujuan nyatanya adalah mendapatkan query yang bisa dijalankan dan kamu bilang "mari lakukan ini dalam transaction," cukup masuk akal kalau model hanya memberi tahu bahwa kamu tinggal menambahkan begin di depan
      Jika query-nya panjang, itu juga menghemat token, mirip seperti ketika muncul permission denied lalu alih-alih menulis ulang seluruh perintah, cukup diberi tahu untuk menambahkan sudo di depannya
      Sebaliknya, kalau kamu memang mengharapkan model benar-benar menjalankan query itu lalu jawabannya malah seperti "ini dia, kamu sendiri yang jalankan," itu jelas malas dan wajar kalau bikin heran
    • OpenAI tampaknya akhirnya menjadi perusahaan pertama yang mencapai tingkat kecerdasan yang membuat pengguna mengerjakan tugasnya
      Lucu juga melihat emergent behavior muncul seperti ini
      Bercanda aside, optimasi OpenAI yang begitu obsesif pada intelligence per token mengingatkanku pada era MacBook Apple sebelum M1 saat mereka terlalu memaksakan bodi supertipis
      Rasanya seperti mengejar satu metrik sampai habis sambil mengorbankan semua hal lain
      GPT-5.3+ jelas termasuk model yang paling pintar, tetapi sering terasa terlalu malas sehingga sulit diajak bekerja sama
    • Aku kurang yakin ini contoh yang bagus atau buruk
    • Untuk satu hal, GPT-5.5 tampaknya sanggup menghancurkan benchmark soal kepercayaan kepada pengguna
  • Barusan aku menjalankannya dengan benchmark Wordpress+GravityForms milikku, dan dari sisi performa pun hasilnya ada di papan bawah leaderboard, sementara value for money-nya paling buruk: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Aku tahu ini cuma satu benchmark, tapi tetap saja sulit paham bagaimana hasilnya bisa seburuk itu

    • Rasanya seperti junior yang masih minim pengalaman di bidang ini, ngoprek sesuatu di garasi, lalu membuat pengujian yang longgar dan menyebutnya benchmark
      Belakangan ini makna kata-kata terlalu mudah runtuh, jadi hal seperti ini sering terjadi
      Bahkan forum yang dulu banyak diisi orang yang benar-benar bekerja secara teknis sekarang terasa makin dipenuhi massa vibe researcher; begitu melewati ambang popularitas, memang biasanya jadi begini
      HN mungkin masih salah satu benteng terakhir tempat penyelidikan serius masih tersisa, tapi dari komentar awal saja terlihat bahwa tempat itu pun tidak sepenuhnya kebal
    • Di benchmark-mu, gemma4-e4b hasilnya 50% lebih baik daripada gemma4-26b; sepertinya ada yang salah di situ
    • Di benchmark-mu, Opus 4.7 hasilnya jauh lebih buruk daripada Sonnet 4.6; bahkan kalau itu benar untuk benchmark tersebut, itu tetap tidak mewakili performa model secara keseluruhan
    • Kamu seperti melakukan perjalanan waktu untuk membawa benchmark ini ke sini
      Aku cukup suka benchmarking seperti ini
      Aku penasaran bagaimana judge benchmark dinilai, dan aku juga ingin menyusun benchmark serupa sendiri
    • Ini kelihatannya lebih dekat ke benchmark untuk mengukur seberapa baik model melakukan vibe coding
      Prompt-nya sangat tipis, tapi item penilaiannya sangat banyak
  • Harga berdasarkan panjang konteks ternyata seperti ini
    Input: sampai 272K $5/M, di atas itu $10/M
    Output: sampai 272K $30/M, di atas itu $45/M
    Cache read: sampai 272K $0.50/M, di atas itu $1/M
    Setelah melewati 272K, harganya jelas lebih mahal daripada Opus 4.7, dan setidaknya untuk pekerjaanku, efisiensi token-nya tidak terlihat cukup baik untuk menutupi selisih itu
    Tidak cukup untuk mengimbangi perbedaan harga tersebut
    GPT-5.4 punya keunggulan pada konteks 400k dan compaction yang dapat diandalkan, tetapi keduanya sekarang tampak agak mundur
    Meski begitu, masih terlalu dini untuk memastikan apakah keandalan compaction memang benar-benar menurun
    Output frontend-nya juga masih cenderung jatuh ke template bernuansa biru dengan banyak kartu yang sangat mencolok itu
    Gaya ini sudah terlihat mencurigakan sejak masa Horizon Alpha/Beta sebelum rilis GPT-5, tetapi waktu itu task adherence-nya sangat baik sehingga satu kekurangan besar itu masih bisa ditoleransi dan tetap berguna
    Tapi kalau GPT-5.5 benar-benar foundation yang sepenuhnya baru, agak aneh bagian itu masih tetap sebegitu terbatas

  • Hasil benchmark penalaran coding umum untuk GPT 5.5 sudah diunggah ke https://gertlabs.com/
    Evaluasi live decision dan eval agentic yang lebih berat juga akan terus ditambahkan selama 24 jam ke depan, tetapi sepertinya peringkat leaderboard sudah tidak akan berubah lagi
    GPT 5.5 adalah model paling cerdas di antara model publik, dan jelas lebih cepat daripada pendahulunya

  • Kemarin mereka bilang begini

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Tapi hari ini langsung jadi begini
    Sehari memang masih bisa dibilang "very soon," tapi aku penasaran apa tepatnya yang dimaksud dengan safeguards dan security requirements itu

    • Kalau ada yang bilang sesuatu tertunda karena safeguards, biasanya artinya mereka cuma belum punya kapasitas komputasi penuh untuk merilisnya sekarang juga
    • GPT-5.5 sebenarnya sudah ada di API khusus Codex, dan mereka bahkan secara eksplisit bilang bahwa itu boleh dipakai untuk kegunaan lain juga
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      Jadi ada kemungkinan fakta itu ikut mempercepat rilis kali ini
    • Ada orang yang sudah berkali-kali berbohong seterang-terangan soal isu safety seperti itu dan masih tetap memimpin perusahaan, jadi aku tidak terlalu paham kenapa orang berharap ke depannya akan berbeda
      Sudah ada contoh sebelumnya

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman berkali-kali tidak sepenuhnya jujur soal seberapa penting safety di OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Mungkin cuma perasaanku, tapi setiap ada berita seperti ini rasanya OpenAI menjalankan komentator bayaran atau bot untuk menjatuhkan Claude dan mendorong narasi bahwa Codex jauh lebih baik
    Jumlahnya terlalu banyak, dan kalau kamu memakai Claude setiap hari, ada cukup banyak klaim yang rasanya tidak masuk akal

    • Iya, memang terasa aneh
      Mirip dengan suasana ketika orang-orang tampak melupakan bahwa OpenAI mengkhianati demokrasi dengan memutuskan bekerja sama dalam senjata otonom tanpa pengawasan dan pengawasan domestik skala besar
    • Menurutku juga itu terlihat cukup terang-terangan
      Setidaknya, secara kasat mata mulai muncul setelah hype Opus 4.6
    • Tentu saja hal seperti itu memang terjadi
      Zaman sekarang perusahaan-perusahaan yang mendorong produknya sendiri kurang lebih semua begitu
  • Aku pengguna Enterprise, tapi sampai sekarang masih hanya melihat 5.4
    Di pengumuman kemarin dibilang rollout ke semua orang akan memakan beberapa jam, tapi OpenAI perlu lebih baik dalam GTM untuk mengelola ekspektasi

    • Barusan aku refresh dan 5.5 sudah muncul
      Bagus juga dirilis cepat
      Berarti lain kali aku harus mengeluh lebih cepat
  • Ini model kedua yang mendapat 25/25 di benchmark milikku
    Yang pertama adalah Opus 4.7, dan hasilnya ada di sini: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Lebih murah daripada Opus dan lebih lambat

  • Di halaman API, knowledge cutoff tertulis 2025-12-01, tetapi kalau ditanya langsung ke model, jawabannya 2024 Juni
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Aku tidak paham kenapa topik ini terus muncul
      Bertanya ke model itu sendiri untuk mengecek tanggal cutoff memang sejak dulu adalah cara yang paling tidak bisa diandalkan
      Bahkan bisa saja model sudah belajar dari komentar seperti ini
      Tanyakan saja satu peristiwa yang terjadi tepat sebelum 2025-12-01
      Kalau bisa, pilih pertandingan olahraga
    • Aku juga ragu bisa benar-benar percaya pada apa yang dikatakan model
      Di halaman API model-model lama pun sering tertulis cutoff Juni 2024, jadi bisa saja model hanya mengulang itu
    • Model tidak tahu cutoff date-nya sendiri kecuali diberi tahu lewat system prompt
      Cara yang benar untuk memeriksa cutoff yang sebenarnya adalah dengan menanyakan sesuatu yang belum ada atau belum terjadi sebelum tanggal itu
      Dari beberapa percobaan kasar yang kulakukan, cutoff pengetahuan umum 5.5 tampaknya masih sekitar awal 2025
    • Kalau begitu, bisakah diuji dengan melihat siapa yang memenangkan pilpres AS 2024
  • Kombinasi GPT 5.5 + Codex benar-benar bagus
    Entah untuk bertanya, menyusun rencana, atau mengimplementasikan kode, sekarang aku hampir menyerahkannya tanpa ragu
    Opus 4.7 justru membuatku terus ingin melakukan double-check
    Instruksi CLAUDE.md sering tidak dipatuhi, halusinasinya juga banyak, dan kalau tidak menemukan jawaban, model itu cenderung mengarang begitu saja; itu dampaknya cukup besar
    Tahun lalu orang-orang sangat cepat bilang OpenAI tertinggal, code red, tetapi sekarang kalau dilihat lagi, situasinya sudah berubah total