4 poin oleh GN⁺ 2026-04-24 | 1 komentar | Bagikan ke WhatsApp
  • Model agentik yang dapat merencanakan sendiri tugas kompleks dan menggabungkan berbagai alat hingga selesai, dengan cakupan luas mulai dari penulisan kode dan debugging hingga riset web, analisis data, pembuatan dokumen·spreadsheet, serta pengoperasian perangkat lunak
  • Sambil mempertahankan per-token latency yang sama seperti GPT-5.4, performanya meningkat pada coding, computer use, pekerjaan berbasis pengetahuan, dan riset ilmiah tahap awal, serta efisiensinya juga naik karena dapat menyelesaikan tugas Codex yang sama dengan token lebih sedikit
  • Dalam software engineering, model ini mencatat Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, dan SWE-Bench Pro 58.6%, serta menunjukkan kekuatan dalam implementasi·refactoring·debugging·testing·verifikasi dan menjaga konteks codebase besar
  • Dalam alur kerja umum dan riset, kemampuan membuat dokumen·spreadsheet·slide, computer use berbasis manipulasi layar, analisis data multilangkah, verifikasi hipotesis, hingga interpretasi hasil juga diperkuat, sementara GPT-5.5 Pro ditujukan untuk akurasi dan cakupan yang lebih tinggi
  • Sebelum peluncuran, model ini melewati pengamanan yang diperkuat serta pengujian internal dan eksternal, dan saat ini sedang diluncurkan bertahap di ChatGPT dan Codex terutama untuk Plus, Pro, Business, dan Enterprise, sehingga tampak sebagai langkah yang memperluas cakupan pemanfaatan AI untuk pekerjaan praktis

Gambaran model dan cakupan distribusi

  • GPT-5.5 diperkenalkan sebagai model yang lebih cepat memahami maksud, merencanakan sendiri tugas yang saling terkait dalam banyak tahap, lalu menggunakan alat untuk mendorongnya sampai tuntas
    • Model ini dapat menangani penulisan dan debugging kode, riset web, analisis data, pembuatan dokumen dan spreadsheet, pengoperasian perangkat lunak, serta pekerjaan yang berpindah-pindah antaralat
    • Alih-alih mengelola tiap tahap secara sangat rinci, model ini dirancang agar dapat langsung diberi tugas yang kompleks dan tidak terstruktur, lalu melanjutkan dari perencanaan, penggunaan alat, verifikasi, hingga penanganan ambiguitas
  • Peningkatan pada pekerjaan agentik ditekankan secara khusus, dengan performa kuat pada coding, computer use, knowledge work, dan riset ilmiah tahap awal
    • Meski model yang lebih besar sering kali menjadi lebih lambat, per-token latency pada layanan nyata tetap dipertahankan sama seperti GPT-5.4
    • Efisiensi juga meningkat karena tugas Codex yang sama dapat diselesaikan dengan token lebih sedikit
  • Sebelum rilis, pengamanan diperkuat, dan model ini merefleksikan hasil pengujian red team internal dan eksternal, uji tambahan terhadap kemampuan cybersecurity dan biology tingkat lanjut, serta umpan balik penggunaan awal dari sekitar 200 mitra tepercaya
  • Saat ini model ini sedang didistribusikan bertahap di ChatGPT dan Codex kepada pengguna Plus, Pro, Business, Enterprise, dan GPT-5.5 Pro tersedia untuk Pro, Business, dan Enterprise di ChatGPT
    • API sedang menyesuaikan persyaratan keamanan terpisah, dan GPT-5.5 serta GPT-5.5 Pro akan segera disediakan

Software engineering dan coding agentik

  • OpenAI sedang membangun infrastruktur AI agentik, dan selama setahun terakhir AI telah sangat mempercepat software engineering
    • Dengan GPT-5.5 masuk ke Codex dan ChatGPT, perubahan ini mulai meluas ke riset ilmiah dan pekerjaan komputer umum
  • Berdasarkan Artificial Analysis Coding Index, model ini menawarkan kecerdasan tingkat teratas dengan biaya setengah dari model coding frontier pesaing
  • GPT-5.5 diperkenalkan sebagai model agentic coding terkuat menurut standar OpenAI
    • Di Terminal-Bench 2.0, model ini mencatat 82.7%, dengan evaluasi yang menargetkan alur kerja command line kompleks yang memerlukan perencanaan, iterasi, dan kombinasi alat
    • Di SWE-Bench Pro, model ini mencatat 58.6%, dan dalam penyelesaian issue GitHub nyata, lebih banyak tugas dapat diselesaikan end-to-end dalam satu lintasan dibanding model sebelumnya
    • Dalam evaluasi internal Expert-SWE pun, GPT-5.5 melampaui GPT-5.4
  • Di seluruh tiga evaluasi coding tersebut, model ini meraih skor lebih tinggi sambil menggunakan lebih sedikit token dibanding GPT-5.4
  • Kekuatan di Codex terlihat di seluruh implementasi, refactoring, debugging, testing, dan verifikasi
    • Model ini menjadi lebih kuat dalam perilaku engineering nyata seperti menjaga konteks sistem besar, melacak penyebab kegagalan yang ambigu, memeriksa asumsi lewat alat, dan menerapkan perubahan di seluruh codebase

Contoh penggunaan coding dan pengujian awal

  • Contoh prompt mencakup implementasi aplikasi WebGL + Vite menggunakan data nyata Artemis II
    • Menggunakan data vektor NASA/JPL Horizons untuk merender lintasan Orion, Moon, dan Sun
    • Skala tampilan diterapkan demi keterbacaan
    Iklan
  • Para penguji awal menilai GPT-5.5 lebih baik dalam memahami struktur sistem
    • Model ini lebih akurat menunjukkan apa yang gagal dan mengapa, di mana perbaikan harus dimasukkan, serta dampaknya terhadap bagian lain dari codebase
  • Dan Shipper menguji apakah model dapat membuat ulang redesain dengan tingkat yang sama setelah gangguan pascarilis diputar balik, dan GPT-5.4 gagal sementara GPT-5.5 berhasil
  • Pietro Schirano menggabungkan branch dengan ratusan perubahan frontend dan refactor ke main branch yang sudah banyak berubah dalam sekali proses sekitar 20 menit
  • Dalam pengujian oleh engineer senior, reasoning dan autonomy model ini menonjol dibanding GPT-5.4 dan Claude Opus 4.7
    • Bahkan tanpa prompt eksplisit, model ini lebih dulu menangkap masalah dan juga memperkirakan kebutuhan testing serta review
    • Saat diminta mendesain ulang comment system untuk collaborative markdown editor, model ini menghasilkan stack 12-diff yang hampir selesai
    • Perbaikan implementasi yang dibutuhkan lebih sedikit dari perkiraan, dan tingkat kepercayaan terhadap rencananya juga lebih tinggi dibanding GPT-5.4
  • Dalam kutipan Michael Truell dari Cursor, terlihat karakteristik bahwa model ini dapat terus bekerja lebih lama dan lebih cocok untuk tugas kompleks serta berjalan panjang tanpa berhenti terlalu dini

Pekerjaan pengetahuan umum dan penggunaan komputer

  • Kekuatan yang terlihat pada coding juga langsung berlanjut ke pekerjaan komputer sehari-hari
    • Karena lebih baik memahami maksud, model ini menjalankan seluruh proses dengan lebih alami, mulai dari menelusuri informasi, menyaring informasi penting, menggunakan alat, memverifikasi hasil, hingga mengubah bahan mentah menjadi keluaran yang berguna
  • Di Codex, GPT-5.5 lebih kuat daripada GPT-5.4 dalam membuat dokumen, spreadsheet, dan slide
    • Para alpha tester menyatakan model ini lebih baik daripada model sebelumnya untuk riset operasional, pemodelan spreadsheet, dan mengubah input bisnis yang tidak terstruktur menjadi rencana
  • Jika digabungkan dengan kemampuan computer use di Codex, model ini dapat melihat layar, mengeklik, mengetik, menavigasi antarmuka, dan berpindah antaralat dengan presisi
  • Di internal OpenAI pun model ini sudah dipakai dalam alur kerja nyata, dan saat ini lebih dari 85% karyawan menggunakan Codex setiap minggu
    • Pemakaiannya mencakup software engineering, keuangan, komunikasi, pemasaran, data science, dan manajemen produk
  • Tim komunikasi menganalisis data speaking request selama 6 bulan untuk membuat framework penilaian dan risiko, lalu memvalidasi agen Slack yang memproses otomatis permintaan berisiko rendah dan meneruskan permintaan berisiko tinggi untuk ditinjau manusia
  • Tim Finance meninjau 24.771 formulir pajak K-1 dengan total 71.637 halaman, dan melalui alur kerja yang mengecualikan informasi pribadi, proses ini selesai 2 minggu lebih cepat dibanding tahun sebelumnya
  • Di tim Go-to-Market, otomatisasi pembuatan laporan bisnis mingguan menghemat 5–10 jam per minggu

GPT-5.5 Thinking dan GPT-5.5 Pro di ChatGPT

  • GPT-5.5 Thinking di ChatGPT dirancang untuk menjawab masalah yang lebih sulit dengan lebih cepat, serta memungkinkan pekerjaan kompleks dilakukan lebih efisien dengan jawaban yang lebih cerdas dan ringkas
    • Unggul dalam coding, riset, sintesis dan analisis informasi, serta pekerjaan berbasis dokumen, dan terutama menguntungkan saat menggunakan plugin
  • GPT-5.5 Pro ditujukan untuk tugas yang lebih sulit dan kualitas yang lebih tinggi, dengan latensi yang lebih rendah sehingga lebih layak diterapkan dalam pekerjaan nyata
    • Dibanding GPT-5.4 Pro, respons menjadi lebih komprehensif, lebih terstruktur, lebih akurat, lebih relevan, dan lebih berguna
    • Sangat kuat khususnya dalam business, legal, education, dan data science
    Iklan
  • Model ini juga mencatat angka tinggi pada benchmark yang mendekati pekerjaan profesional
    • Mencatat GDPval 84.9%, OSWorld-Verified 78.7%, dan Tau2-bench Telecom 98.0%
    • Tau2-bench Telecom dijalankan tanpa prompt tuning
    • Juga ditampilkan FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, dan OfficeQA Pro 54.1%
  • Dalam kutipan Justin Boitano dari NVIDIA, dijelaskan alur bahwa model ini disediakan di atas sistem NVIDIA GB200 NVL72, menghadirkan kemampuan end-to-end melalui prompt bahasa alami, memangkas waktu debug dari hitungan hari menjadi beberapa jam, dan mengubah eksperimen yang biasanya memakan waktu berminggu-minggu menjadi proses semalam

Workflow riset sains dan teknologi

  • GPT-5.5 juga menunjukkan peningkatan performa dalam workflow riset sains dan teknologi
    • Bukan hanya menjawab pertanyaan sulit, tetapi juga lebih baik dalam mempertahankan loop yang mencakup eksplorasi ide, pengumpulan bukti, verifikasi hipotesis, interpretasi hasil, hingga penentuan eksperimen berikutnya
  • Di GeneBench, model ini menunjukkan peningkatan yang jelas dibanding GPT-5.4
    • Ini adalah evaluasi baru yang menargetkan analisis data multilangkah di genetics dan quantitative biology
    • Mencakup data yang ambigu atau mengandung kesalahan, confounder tersembunyi, kegagalan QC, serta implementasi dan interpretasi teknik statistik modern
    • Tugas-tugas di sini setara dengan proyek yang bahkan bagi pakar sains dapat memakan waktu berhari-hari
  • Di BixBench, model ini juga mencatat performa terdepan di antara model dengan skor publik
    • Diperkenalkan sebagai benchmark yang mencerminkan bioinformatics dan analisis data dunia nyata
    • Menunjukkan potensi akselerasi setingkat co-scientist di garis depan biomedical research
  • Versi internal GPT-5.5 dan custom harness juga digunakan untuk menemukan pembuktian baru terkait Ramsey numbers
    • Tautan pembuktian baru
    • Dalam combinatorics, model ini menemukan pembuktian atas fakta asimtotik pada off-diagonal Ramsey numbers yang sudah lama dipelajari, lalu memverifikasinya dengan Lean
    • Model ini berkontribusi bukan hanya pada kode atau penjelasan, tetapi juga pada argumen matematis yang berguna di bidang riset inti
  • Para penguji awal memanfaatkan GPT-5.5 Pro lebih sebagai mitra riset daripada mesin jawaban sekali pakai
    • Model ini meninjau manuskrip secara kritis berulang kali, melakukan stress test pada argumen teknis, mengusulkan analisis, dan bekerja bersama konteks kode, catatan, serta PDF
    • Model ini lebih baik membantu alur dari pertanyaan, ke eksperimen, hingga hasil akhir

Studi kasus riset

  • Derya Unutmaz dari Jackson Laboratory for Genomic Medicine menganalisis dataset ekspresi gen berisi 62 sampel dan sekitar 28.000 gen dengan GPT-5.5 Pro
    • Model ini menghasilkan laporan riset terperinci, yang menampilkan bukan hanya ringkasan hasil tetapi juga pertanyaan kunci dan insight
    • Skala pekerjaan ini setara dengan pekerjaan yang akan memakan waktu berbulan-bulan jika dikerjakan oleh timnya
  • Bartosz Naskręcki dari Adam Mickiewicz University membuat aplikasi algebraic geometry dengan Codex dalam 11 menit dari satu prompt
    • Aplikasi itu memvisualisasikan perpotongan dua quadratic surface dan mengubah kurva hasilnya ke model Weierstrass
    • Setelah itu, ia juga membuat visualisasi singularity lebih stabil dan menambahkan exact coefficients yang dapat digunakan kembali untuk pekerjaan lanjutan
    • Codex juga membantu dalam implementasi visualisasi matematika kustom dan workflow computer algebra yang sebelumnya memerlukan alat khusus
    Iklan
  • Credit: Bartosz Naskręcki
  • Dalam kutipan Brandon White dari Axiom Bio, dijelaskan bahwa model ini menalar biochemical dataset berskala besar untuk memprediksi human drug outcomes, dan menunjukkan peningkatan akurasi yang bermakna pada evaluasi drug discovery yang paling sulit

Infrastruktur inferensi dan optimasi performa

  • Untuk menyajikan GPT-5.5 dengan latensi setara GPT-5.4, inferensi harus dirancang ulang sebagai sistem terintegrasi, bukan sekadar kumpulan optimasi terpisah
    • GPT-5.5 dirancang bersama, dilatih, dan disajikan dengan asumsi sistem NVIDIA GB200 dan GB300 NVL72
  • Codex dan GPT-5.5 sendiri berkontribusi langsung pada pencapaian target performa
    • Codex digunakan untuk dengan cepat mengubah ide menjadi implementasi yang bisa dibenchmark, membuat sketsa pendekatan, menghubungkan eksperimen, dan menemukan optimasi yang layak mendapat investasi lebih dalam
    • GPT-5.5 membantu menemukan dan mengimplementasikan perbaikan penting di dalam stack
    • Pada akhirnya, model ini juga berkontribusi pada peningkatan infrastruktur yang digunakan untuk melayani dirinya sendiri
  • Sebagai contoh perbaikan utama, diperkenalkan load balancing dan partitioning heuristics
    • Sebelumnya, permintaan di accelerator dibagi menjadi sejumlah chunk tetap sehingga permintaan besar dan kecil berjalan pada GPU yang sama
    • Namun, jumlah chunk yang statis tidak optimal untuk semua bentuk traffic
    • Codex menganalisis pola production traffic selama beberapa minggu dan menulis algoritme heuristic kustom yang membagi serta menyeimbangkan pekerjaan secara optimal
    • Pekerjaan ini meningkatkan token generation speed sebesar lebih dari 20%

Keamanan siber dan perlindungan

  • Menyiapkan model yang andal dalam mendeteksi kerentanan dan melakukan patching agar siap digunakan dunia lebih mirip olahraga tim, dan dibutuhkan ketahanan seluruh ekosistem untuk era berikutnya dalam pertahanan siber
  • Kapabilitas cybersecurity model frontier terus menjadi semakin kuat, dan karena kemampuan ini akan menyebar luas, jalur untuk memastikan kemampuannya digunakan guna mempercepat pertahanan siber dan memperkuat ekosistem menjadi semakin penting
  • GPT-5.5 diposisikan sebagai langkah yang bertahap tetapi penting menuju AI yang memecahkan masalah sulit seperti cybersecurity
    • Pada GPT-5.2, cyber safeguards yang membatasi potensi penyalahgunaan cyber telah lebih dulu diterapkan
    • Pada GPT-5.5, classifier yang lebih ketat untuk potensi cyber risk telah diterapkan, dan pada tahap awal hal ini mungkin terasa mengganggu bagi sebagian pengguna
  • Selama beberapa tahun, OpenAI telah menangani cybersecurity sebagai kategori terpisah dalam Preparedness Framework, dan terus menyesuaikan langkah mitigasi secara berulang seiring peningkatan kapabilitas
  • Safeguards terdepan di industri diterapkan agar sesuai dengan tingkat cyber capability ini
    • Safeguard khusus cyber pertama kali diperkenalkan di GPT-5.2, lalu diuji, disempurnakan, dan diperluas pada setiap peluncuran berikutnya
    • Pada GPT-5.5, perlindungan untuk aktivitas berisiko tinggi, permintaan cyber sensitif, dan penyalahgunaan berulang diperkuat lebih lanjut
    • Akses yang luas dimungkinkan berkat investasi pada keamanan model, penggunaan yang terverifikasi, dan pemantauan terhadap penggunaan yang tidak diizinkan
    • Bersama pakar eksternal, robustness dikembangkan, diuji, dan ditingkatkan selama berbulan-bulan
    • Sambil memudahkan developer melindungi kode mereka, kontrol yang lebih kuat diterapkan pada alur kerja cyber yang memudahkan pelaku jahat menimbulkan kerugian
  • Perluasan akses untuk tujuan pertahanan juga berjalan bersamaan
    • Melalui Trusted Access for Cyber, akses ke model cyber-permissive disediakan, dengan Codex sebagai titik awal
    • Bagi pengguna terverifikasi yang memenuhi trust signals tertentu, fitur cybersecurity tingkat lanjut GPT-5.5 disediakan dengan pembatasan yang lebih sedikit
    • Organisasi yang menangani pertahanan critical infrastructure dapat mengajukan akses ke model cyber-permissive seperti GPT-5.4-Cyber
    • Tujuannya adalah memberikan alat untuk pekerjaan keamanan yang sah kepada pihak pertahanan terverifikasi dengan friksi yang lebih rendah
    • Tautan pendaftaran: chatgpt.com/cyber
  • Kolaborasi dengan mitra pemerintah juga termasuk di dalamnya
    • Sedang dijajaki bersama bagaimana AI canggih dapat mendukung petugas publik yang membela infrastruktur penting seperti sistem digital untuk melindungi data pajak, jaringan listrik, dan pasokan air bersih komunitas setempat
    Iklan
  • Kapabilitas biological/chemical dan cybersecurity GPT-5.5 diklasifikasikan sebagai High dalam Preparedness Framework
    • Meskipun belum mencapai cybersecurity capability tingkat Critical, evaluasi dan pengujian mengonfirmasi kapabilitas cyber GPT-5.5 satu tingkat lebih tinggi daripada GPT-5.4
  • Sebelum dirilis, model ini melalui seluruh safety and governance process
    • Ini mencakup evaluasi preparedness, pengujian per bidang, evaluasi target baru untuk biology dan cybersecurity tingkat lanjut, serta pengujian ketahanan yang ketat bersama pakar eksternal
    • Detail lebih lanjut tersedia di GPT-5.5 system card
  • Pendekatan ini merupakan bagian dari strategi AI resilience yang dibutuhkan pada era model yang lebih kuat
    • AI yang kuat juga harus tersedia bagi orang-orang yang melindungi sistem, institusi, dan publik, dan akses berbasis kepercayaan, safeguards yang diperkuat sebanding dengan kapabilitas, serta kemampuan operasional untuk mendeteksi dan merespons penyalahgunaan serius diajukan sebagai jalur utama

Paket yang tersedia dan harga

  • Saat ini di ChatGPT dan Codex, GPT-5.5 sedang diluncurkan untuk pengguna Plus, Pro, Business, dan Enterprise, sementara GPT-5.5 Pro tersedia di ChatGPT untuk Pro, Business, dan Enterprise
  • Di ChatGPT, GPT-5.5 Thinking tersedia untuk Plus, Pro, Business, dan Enterprise
    • GPT-5.5 Pro ditujukan untuk pertanyaan yang lebih sulit dan akurasi yang lebih tinggi, dan dapat digunakan di Pro, Business, dan Enterprise
  • Di Codex, GPT-5.5 tersedia untuk paket Plus, Pro, Business, Enterprise, Edu, Go, dan memiliki 400K context window
    • Fast mode juga tersedia, dengan kecepatan pembuatan token 1.5x lebih cepat dan biaya 2.5x
  • gpt-5.5 untuk developer API akan segera tersedia di Responses API dan Chat Completions API
    • Dinyatakan seharga $5 per 1M token input, $30 per 1M token output, dengan 1M context window
    • Harga Batch dan Flex adalah setengah dari tarif API standar, dan Priority processing tersedia dengan biaya 2.5x
  • gpt-5.5-pro juga akan diluncurkan di API, dengan tujuan akurasi yang lebih tinggi
    • Tercantum seharga $30 per 1M token input dan $180 per 1M token output
    • Informasi harga lengkap ditautkan ke pricing page
  • GPT-5.5 lebih mahal daripada GPT-5.4, tetapi juga lebih tinggi dalam kecerdasan dan efisiensi token
    • Di Codex, pengalaman disesuaikan agar bagi sebagian besar pengguna hasilnya lebih baik dengan token yang lebih sedikit dibanding GPT-5.4
    • Kuota penggunaan yang longgar akan terus disediakan di seluruh tingkatan langganan
    Iklan

Benchmark terperinci

  • Coding

    • Pada SWE-Bench Pro (Public), GPT-5.5 mencatat 58.6%, GPT-5.4 57.7%, Claude Opus 4.7 64.3%, dan Gemini 3.1 Pro 54.2%
    • Untuk Terminal-Bench 2.0, GPT-5.5 mencapai 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, dan Gemini 3.1 Pro 68.5%
    • Expert-SWE (Internal) menunjukkan GPT-5.5 73.1% dan GPT-5.4 68.5%
  • Pekerjaan profesional

    • Pada GDPval (wins or ties), GPT-5.5 mencatat 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, dan Gemini 3.1 Pro 67.3%
    • FinanceAgent v1.1 mencatat GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, dan Gemini 3.1 Pro 59.7%
    • Investment Banking Modeling Tasks (Internal) menunjukkan GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, dan GPT-5.4 Pro 83.6%
    • OfficeQA Pro mencatat GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, dan Gemini 3.1 Pro 18.1%
  • Penggunaan komputer dan visi

    • OSWorld-Verified mencatat GPT-5.5 78.7%, GPT-5.4 75.0%, dan Claude Opus 4.7 78.0%
    • Pada MMMU Pro (no tools), GPT-5.5 dan GPT-5.4 sama-sama 81.2%, sementara Gemini 3.1 Pro 80.5%
    • Pada MMMU Pro (with tools), GPT-5.5 mencatat 83.2% dan GPT-5.4 82.1%
  • Penggunaan alat

    • BrowseComp mencatat GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, dan Gemini 3.1 Pro 85.9%
    • MCP Atlas mencatat GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, dan Gemini 3.1 Pro 78.2%
    • Toolathlon mencatat GPT-5.5 55.6%, GPT-5.4 54.6%, dan Gemini 3.1 Pro 48.8%
    • Tau2-bench Telecom, berdasarkan prompt asli, mencatat GPT-5.5 98.0% dan GPT-5.4 92.8%
    • Catatan untuk MCP Atlas menyebutkan bahwa ini adalah hasil setelah pembaruan terbaru Scale AI pada April 2026
    • Catatan untuk Tau2-bench Telecom menegaskan bahwa hasil ini dievaluasi tanpa prompt adjustment, dan hasil prompt adjustment dari laboratorium lain tidak disertakan
  • Akademik

    • GeneBench mencatat GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, dan GPT-5.4 Pro 25.6%
    • FrontierMath Tier 1–3 mencatat GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, dan Gemini 3.1 Pro 36.9%
    • FrontierMath Tier 4 mencatat GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, dan Gemini 3.1 Pro 16.7%
    • BixBench mencatat GPT-5.5 80.5% dan GPT-5.4 74.0%
    • GPQA Diamond mencatat GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, dan Gemini 3.1 Pro 94.3%
    • Humanity's Last Exam (no tools) mencatat GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, dan Gemini 3.1 Pro 44.4%
    • Humanity's Last Exam (with tools) mencatat GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, dan Gemini 3.1 Pro 51.4%
  • Keamanan siber

    • Capture-the-Flags challenge tasks (Internal) mencatat GPT-5.5 88.1% dan GPT-5.4 83.7%
    • CyberGym mencatat GPT-5.5 81.8%, GPT-5.4 79.0%, dan Claude Opus 4.7 73.1%
    • Catatan menyebutkan bahwa ini adalah hasil dari perluasan CTF tersulit yang ditulis di system card ditambah tantangan tambahan dengan tingkat kesulitan tinggi
  • Konteks panjang

    • Graphwalks BFS 256k f1 mencatat GPT-5.5 73.7%, GPT-5.4 62.5%, dan Claude Opus 4.7 76.9%
    • Graphwalks BFS 1mil f1 mencatat GPT-5.5 45.4%, GPT-5.4 9.4%, dan Claude Opus 4.6 41.2%
    • Graphwalks parents 256k f1 mencatat GPT-5.5 90.1%, GPT-5.4 82.8%, dan Claude Opus 4.7 93.6%
    • Graphwalks parents 1mil f1 mencatat GPT-5.5 58.5%, GPT-5.4 44.4%, dan Claude Opus 4.6 72.0%
    • OpenAI MRCR v2 8-needle disajikan menurut panjang konteks, yaitu 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, dan 512K-1M 74.0%
    • Untuk item yang sama, GPT-5.4 masing-masing mencatat 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, dan 36.6%
    • Pada rentang 128K-256K tercantum Claude Opus 4.7 59.2%, dan pada rentang 512K-1M tercantum Claude Opus 4.7 32.2%
  • Penalaran abstrak

    • ARC-AGI-1 (Verified) mencatat GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, dan Gemini 3.1 Pro 98.0%
    • ARC-AGI-2 (Verified) mencatat GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, dan Gemini 3.1 Pro 77.1%
    • Disebutkan bahwa evaluasi seri GPT dilakukan dalam lingkungan riset dengan reasoning effort diatur ke xhigh, dan pada beberapa kasus output-nya bisa sedikit berbeda dari ChatGPT di lingkungan produksi

1 komentar

 
GN⁺ 2026-04-24
Komentar Hacker News
  • Ungkapan bahwa kehilangan akses GPT-5.5 di NVIDIA terasa seperti kehilangan lengan dan kaki terdengar jauh lebih mengerikan daripada yang mungkin dimaksudkan
    Rasanya ini berlaku untuk ketergantungan pada model coding frontier secara umum, dan makin bagus performanya, makin cepat orang bersandar padanya saat ngoding
    Setelah mengalaminya sendiri, rasa tidak nyamannya cukup besar. Sekarang, alih-alih sabar menulis kode manual, menyelesaikannya sekaligus dengan model terasa sekitar 10 kali lebih cepat, dan peranku pun berubah
    Luar biasa bahwa kita bisa membuat banyak hal berjalan, tetapi kalau token habis, pada dasarnya pekerjaan juga berhenti
    Saat Claude mati, kadang jalan-jalan justru memberi leverage lebih besar daripada memaksa diri menulis kode. Jika satu jam kemudian Claude hidup lagi, kemajuannya lebih besar daripada kelelahan mencoba memecahkan masalah secara manual sambil bergulat dengan kode buatan LLM
    Bagaimanapun juga, kondisi seperti ini tetap terasa agak mengkhawatirkan

    • Rasanya teori tenaga kerja sendiri sedang dibalik oleh LLM
      Pasar saat ini berdiri di atas asumsi bahwa tenaga kerja teratomisasi dan daya tawarnya lemah, sehingga modal punya daya tawar jauh lebih besar dan pada praktiknya menentukan harga tenaga kerja
      Tapi bagaimana kalau tenaga kerja itu disediakan oleh perusahaan lain yang lebih besar, dan tidak seperti tenaga kerja tradisional, suplai tenaga kerja itu bisa diputus tanpa batas waktu
      Kini tenaga kerja telah menjadi bentuk lain dari modal, dan modal tidak perlu makan
      Perusahaan yang tidak memakai model sendiri tampaknya akan merasakan akibatnya secara langsung
    • Ini juga bisa dilihat sebagai sesuatu yang tidak terlalu berbeda dari memakai abstraksi library
      Membangun jadi lebih cepat, jumlah kode yang ditulis langsung berkurang, dan pengelolaan state internal atau memori ditangani oleh library
      Sebagian orang mungkin tidak nyaman bergantung pada pemanggilan library alih-alih memanipulasi pointer dan malloc() secara langsung, tetapi bagi yang lain ini terasa membebaskan karena memungkinkan fokus pada arsitektur tingkat lebih tinggi tanpa tenggelam dalam perpindahan konteks level rendah
    • Ada cara memakai ini dengan sengaja agar tidak menggali kuburku terlalu cepat
      Saya sering meminta dibuatkan CLI atau alat mandiri, bukan jawaban jadi terlebih dahulu
      Saya juga menanyakan bagaimana model sampai pada kesimpulan itu agar sudut pandang saya meluas, dan memintanya menjelaskan cara klasifikasinya di level metadata internalnya sendiri
      Terutama pada codebase besar yang kesulitannya bukan pada konsepnya melainkan pada ukuran graf referensi, saya mencoba memakainya ke arah yang benar-benar meningkatkan kemampuan saya memecahkan masalah
    • Jika model lokal tetap hanya tertinggal secukupnya dari model hosted terbaru, misalnya sekitar 12 bulan, dan hardware lokal juga tetap terjangkau, risikonya mungkin terbatas
      Sebab meski model hosted hilang atau jadi terlalu mahal, yang hilang hanya sedikit selisih performa itu
      Tentu saja, kedua asumsi ini sama sekali tidak jelas akan terjadi, jadi ini lebih seperti harapan saja
    • Kalau memikirkan kepentingan harga saham NVIDIA dan OpenAI, komentar seperti itu juga tidak aneh
      Dan terus terang masih sulit mempercayai slogan produktivitas 10x yang terus diulang
  • GPT-5.5 dirilis hari ini, tetapi penerapannya di ChatGPT dan Codex dilakukan bertahap selama beberapa jam
    Demi stabilitas layanan, seperti rilis sebelumnya, akses dibuka secara bertahap, biasanya dimulai dari Pro/Enterprise lalu turun ke Plus
    Jadi kalau belum langsung terlihat, diminta untuk cek lagi nanti
    Menunggu secara acak memang bisa menjengkelkan, tetapi katanya itu dilakukan demi stabilitas
    Mengaku bekerja di OpenAI

    • Saya mencoba menjalankan OpenClaw dengan GPT-5.4 API xhigh, tetapi sama sekali tidak bisa membuat modelnya benar-benar bekerja
      Saya mencoba memakainya sebagai pengganti setelah OAuthgate Anthropic, tetapi bahkan sub-tugas yang cepat, aman, dan tidak berbahaya pun tidak bisa diselesaikan
      Percakapannya hanya berakhir dengan permintaan maaf tanpa henti seperti “seharusnya saya melakukan X di sini” “benar, saya gagal” “kalau begitu lakukan sekarang” “harusnya begitu, tapi tidak saya lakukan”
      Belakangan GLM, Kimi, Minimax bisa menyelesaikannya tanpa masalah, jadi rasanya makin absurd dan akhirnya OpenAI langsung saya tinggalkan
    • Kalau ada dashboard rollout publik, kebingungannya pasti jauh berkurang
      Lebih bagus lagi kalau UI menunjukkan bahwa modelnya memang ada, tetapi belum dibuka untuk akun saya
      Kalau sampai ada ETA tentu ideal, walau saat rollout berjalan masalah bisa saja muncul sehingga sulit diprediksi
    • Selamat atas perilisannya
      Saya penasaran apakah Images 2.0 juga dirilis bersama di dalam ChatGPT, atau untuk sementara masih tetap menjadi fitur khusus API/Playground
    • Dari sudut pandang pengguna Plus, saya ragu mencoba Codex karena tidak tahu akan memakan berapa banyak batas penggunaan
    • Saya juga penasaran apakah fine-tuning GPT-5.5 akan segera hadir
  • Memang belum ada akses API resmi, tetapi belakangan OpenAI tampak pada dasarnya membiarkan backdoor Codex API yang dipakai OpenClaw
    https://twitter.com/steipete/status/2046775849769148838 dan https://twitter.com/romainhuet/status/2038699202834841962
    Backdoor API itu juga sudah mencakup GPT-5.5
    Jadi saya mencoba contoh pelikan, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    dengan plugin baru untuk LLM https://github.com/simonw/llm-openai-via-codex
    Setelah reasoning effort dinaikkan ke xhigh, hasil pelikannya jauh lebih baik
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • Pelikan model lokal yang saya unggah kemarin terlihat lebih bagus daripada ini
      Meski begitu, yang ini lucu juga karena posisinya menyilangkan kaki
    • Terus terang ini jelek sekali
      Sudah sampai versi 5.5, masa masih tidak bisa menggambar satu rangka sepeda dasar dengan benar
      Roda depannya tidak punya struktur yang memungkinkan berbelok ke samping, tetapi gambarnya gagal menangkap itu
    • Cukup mengejutkan bahwa dengan setelan default hanya memakai 39 reasoning tokens, hasilnya bisa sejauh itu
      Saya tidak tahu pasti apa itu reasoning token, tetapi jumlah tokennya tetap tampak sangat sedikit
    • Saya penasaran apakah pemakaian API langsung seperti ini diperbolehkan oleh ketentuan layanan
      Setahu saya Anthropic sangat tidak suka penggunaan model seperti ini
    • Saya penasaran kenapa ini jauh lebih buruk dalam menggambar dibanding beberapa hasil terbaru lainnya
      Bahkan model lokal open-weight seperti Qwen yang diunggah kemarin terlihat lebih baik
  • Semua orang membicarakan gating Mythos milik Anthropic dan marketing CyberGym 83%, sementara OpenAI begitu saja merilis GPT-5.5 dan skornya 82%
    Fakta bahwa semua orang bisa langsung mencobanya jauh lebih penting
    Kalau bekerja di bidang keamanan siber ofensif/defensif, menurut saya lebih tepat menyentuh langsung model yang benar-benar dirilis seperti ini daripada terpancing promosi berlebihan
    Tidak pernah terpikir saya akan berkata begini, tetapi sekarang OpenAI justru terlihat seperti pilihan yang lebih terbuka lagi

    • Hype yang sebenarnya adalah ketika Anthropic mengumumkan Mythos, semua orang langsung sadar bahwa OpenAI akan merilis model pesaing dalam beberapa minggu dan Sam tidak akan membatasi aksesnya
      Itu sebabnya industri keamanan ketakutan, karena mereka merasa hanya punya kira-kira dua minggu untuk menutup zero-day baru, lalu setelah itu bisa masuk open season di mana para black hat menemukannya massal dan mengeksploitasinya
    • Dibanding Anthropic, OpenAI memang sejak awal lebih terbuka
      Anthropic tidak pernah merilis model publik, tidak pernah secara sukarela membuka source Claude Code, dan bahkan tokenizer pun tidak dirilis
    • Bukankah OpenAI juga marah saat diberi pertanyaan keamanan siber, meminta unggah identitas pemerintah, lalu kalau tidak, diam-diam mengarahkan ke model yang lebih lemah
      Di dokumentasinya juga tertulis bahwa pekerjaan terkait keamanan siber bisa fallback ke GPT-5.2 jika terkena deteksi otomatis
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • Saya mengabaikan semua berita hype
      Bagi saya Anthropic hampir terasa seperti perwujudan bualan
      Setelah dulu membaca Cialdini, pertunjukan gaya Anthropic jadi terasa membosankan
      Sebaliknya OpenAI sangat cerdas. Setelah Claude naik daun, mereka sempat menghilang dari headline, tetapi sekarang berkat basis pengguna yang masif, cukup mengikuti siklus rilis Anthropic saja sudah cukup untuk membuat lawannya tampak konyol
      Dari sudut pandang Anthropic, sepertinya setiap ada versi GPT baru, situasinya akan makin menyedihkan, dan ujungnya tampak seperti OpenAI akan menguasai semuanya
    • Saya juga curiga OpenAI melempar pertanyaan siber ke model yang lebih bodoh
  • Saya ingin orang melihat bagian harga/batas penggunaan di halaman ini
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    Lihat perbedaan Local Messages antara 5.3, 5.4, dan 5.5
    Saya memang membaca klaim bahwa 5.5 lebih efisien sehingga titik impasnya mirip dengan 5.4, tetapi bagaimanapun terlihat seperti batas makin ketat dan harga makin naik

    • Berdasarkan API, harga GPT-5.5 dua kali lipat GPT-5.4, sekitar empat kali GPT-5.1, dan sekitar 10 kali Kimi-2.6
      Pelajaran yang tampaknya dipetik dari kasus Anthropic adalah bahwa developer sangat cepat bergantung, bahkan kecanduan, pada coding agent, jadi untuk peningkatan kecil pun mereka akan mau membayar sebanyak itu
  • Prototipe arena dungeon 3D yang dibuat dengan Codex dan GPT terlihat cukup meyakinkan
    Codex menangani arsitektur game, implementasi TypeScript/Three.js, sistem pertarungan, encounter musuh, dan feedback HUD, sementara tekstur lingkungan dibuat oleh GPT, dan model karakter serta animasinya dibuat dengan alat pembuat aset pihak ketiga
    Kemungkinan besar alasan visualnya terlihat cukup baik juga karena mesh-nya bukan dibuat langsung oleh GPT-5.5, melainkan oleh alat terpisah
    Melihat ini, rasanya kita sedang menuju masa seperti era Flash dulu, ketika gamer atau developer hobi bisa cepat membuat konsep game lalu langsung memublikasikannya di web
    Khususnya Three.js bahkan bukan game engine, tetapi mulai terasa seperti alat inti de facto untuk merancang game dengan AI

    • Selama 3 tahun terakhir saya terus bereksperimen dengan Three.js dan AI, dan di 5.4 saya merasakan lompatan yang sangat besar
      Kalau khusus Three.js, itu adalah loncatan generasi tunggal terbesar, terutama pada shader GLSL, dan juga membaik dalam menyusun scene yang terpecah ke banyak halaman/komponen
      Membuat shader utuh dari nol masih sulit, tetapi kemampuan memodifikasi shader yang sudah ada sekarang cukup berguna
      Di 5.2 ke bawah, model benar-benar buruk dalam pola one canvas, multiple page untuk mempertahankan satu canvas latar di banyak route, tetapi 5.4, walau masih perlu sedikit dibimbing, jauh lebih responsif terhadap prompt refactor dan optimasi
      Saya antusias untuk menguji seperti apa 5.5 dalam praktik
    • Era seperti Flash sebenarnya sudah datang sejak beberapa waktu lalu, dan bottleneck-nya selalu kreativitas
    • Saya sudah sangat sering menerima bantuan LLM untuk game dan proyek berbasis Three.js, dan hasilnya bagus
      Visualisasi jam aneh yang saya buat juga sangat bergantung pada ini
      Ini memang bukan game engine, tetapi untuk WebGL 3D di web, secara praktis sudah menjadi standar, dan karena sudah lama ada, data latihnya juga sangat besar
      Sebelum era LLM, saya lebih bergantung pada Babylon.js yang punya fitur level lebih tinggi
    • Seorang teman sedang membuat Jamboree
      Dulu namanya Spielwerk, dan ini aplikasi iOS untuk membuat dan membagikan game
      Semuanya berbasis web, jadi mudah dibagikan
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLM masih belum bisa penalaran spasial
      Saya belum mencoba GPT, tetapi dengan Claude, sekeras apa pun prompt engineering, tetap tidak bisa menyelesaikan Rubik's Cube, dan bahkan Opus 4.6 hanya bisa benar sekitar 70% dari puzzle sebelum mentok
      Satu percobaan bisa menelan biaya 20 dolar, jadi biayanya juga sulit ditanggung
      Kalau penalaran tiga dimensi benar-benar bisa dibuat berjalan, pendekatan yang sama mungkin bisa diperluas ke soal-soal matematika yang sekarang belum bisa diselesaikan
      Saya sedang mempertimbangkan untuk membuka server MCP Rubik's Cube saya agar orang bisa menantang diri, apakah ada yang bisa menyelesaikan kubus hanya dengan prompt
  • Dalam pengumuman kali ini, bagian yang lebih menarik daripada benchmark adalah bahwa Codex menganalisis pola trafik nyata selama beberapa minggu untuk meningkatkan utilisasi GPU, lalu menulis algoritma heuristik kustom untuk pembagian dan penyeimbangan pekerjaan sehingga kecepatan generasi token naik lebih dari 20%
    Area di mana LLM agentik bisa melakukan optimasi efisiensi komputasi seperti ini tampaknya berdampak besar, tetapi diuji jauh lebih sedikit dibanding benchmark
    Dari pengalaman saya, di bagian ini Opus masih lebih baik daripada GPT/Codex, tetapi karena OpenAI sedang mendapat manfaat nyata dari maksimalisasi performa seperti ini di bawah tekanan biaya dan kapasitas, mereka tampaknya akan terus mendorong ke arah ini

    • Saat mengerjakan pemrosesan data berkinerja tinggi di Rust, saya menghadapi hambatan performa yang perlu ditingkatkan lebih dari 100x
      Saya teringat optimasi code golf FizzBuzz Intel yang dulu terkenal, lalu saya memberi gemini pro kode saya sambil meminta “tolong usulkan optimasi cerdas seperti itu”, dan sarannya benar-benar keren
      LLM terus mengejutkan saya setiap hari
    • KernelBench memang sudah menguji optimasi kernel CUDA
      Dan karena tiap perusahaan juga tahu bahwa optimasi infrastruktur dan model mereka sendiri adalah jalur utama untuk menang dalam kompetisi, saya yakin bagian ini sedang mereka garap dengan sangat serius
    • Masalahnya, klaim seperti ini terlalu empiris sehingga sulit direproduksi
      Menyenangkan melihat hal-hal di luar benchmark tradisional seperti MMLU, tetapi tanpa eksperimen terkontrol yang layak, angka-angka seperti ini tidak terlalu membantu
  • Kalau melihat angkanya, Mythos vs GPT-5.5 masih terpaut jauh di SWE-bench Pro, tetapi selain itu tampak cukup mirip
    SWE-bench Pro 77.8% vs 58.6%
    Terminal-bench-2.0 82.0% vs 82.7%
    GPQA Diamond 94.6% vs 93.6%
    H. Last Exam 56.8% vs 41.4%
    H. Last Exam (tools) 64.7% vs 52.2%
    BrowseComp 86.9% vs 84.4%, Pro 90.1%
    OSWorld-Verified 79.6% vs 78.7%
    Sumber angka Mythos adalah https://www.anthropic.com/glasswing

    • Mythos hanya berarti jika benar-benar bisa dipakai
      Saat memakai Opus 4.7 sekarang, otonominya terasa sangat di-nerf, dan karena apa yang disebut keamanan, pembatasannya berat
      Jadi saya tidak begitu yakin hasil nyatanya akan sehebat yang diiklankan Anthropic
    • Menurut halaman rilis Anthropic, tim Claude mengonfirmasi adanya hafalan SWE-bench, dan tes itu memang masuk ke data latih
      Ada di sini
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • Saya sempat melihat lebih dekat SWE-bench Verified, dan angka Mythos menyisakan banyak pertanyaan
      Saya mengambil submission resmi di https://github.com/SWE-bench/experiments/tree/main/evaluatio..., menyaring model sejak Sonnet 4, lalu menjumlahkan seluruh 500 soal; tingkat penyelesaian gabungannya tepat 93%
      Tetapi kalau Mythos mencetak 93.7%, itu berarti ia menyelesaikan soal-soal yang tidak bisa dipecahkan model lain mana pun, dan ketika saya melihat soal-soal itu langsung, rasanya makin mencurigakan
      Sisa 7% soal tampak hampir mustahil diselesaikan tanpa lebih dulu melihat test patch, dan solusi nyatanya berjalan sangat berbeda dari deskripsi masalah hingga terasa seperti sedang menyelesaikan masalah lain sama sekali
      Saya tidak ingin langsung menuduh Mythos curang, tetapi mungkin saja ia mengingat terlalu banyak status repository sehingga dari diff di memorinya ia bisa melakukan reverse inference atas pernyataan masalah yang sebenarnya
      Kalau bukan begitu, sulit menjelaskan bagaimana ia bisa menafsirkan deskripsi masalah yang begitu ambigu dengan sangat tepat
    • Satu benchmark saja tidak berarti apa-apa
      Setiap benchmark memang selalu memunculkan hasil aneh
  • Tetap saja mengecewakan bahwa tingkat halusinasi 86% masih setinggi itu
    Sebagai pembanding, Opus ada di sekitar 36%
    Sumbernya https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grok ada di 17% dan itu yang terendah, sementara kebanyakan model ada di atas 80%, rasanya aneh
      Tergantung pertanyaannya, halusinasi justru terasa lebih dekat ke 100%, jadi benchmark ini secara intuitif sulit diterima
    • Ada yang aneh, rasanya Haiku tidak mungkin tampil sebaik itu
    • Ini terbaca seperti sinyal bahwa vendor memang menginginkan perilaku seperti itu
      Orang yang bertanya kemungkinan besar tidak sepenuhnya memahami persoalannya, jadi apa pun hasilnya, mereka tampaknya tetap lebih menyukai jawaban yang terdengar penuh percaya diri
      Tujuannya seolah menjual kesan terlihat kompeten alih-alih kemampuan teknologi yang sebenarnya
      LLM bisa menghancurkan produk, jadi kalau ada yang percaya mesin pikiran miliarder bisa menggantikan karyawan dan menyuruhmu menghabiskan 75% anggaran tenaga kerja untuk itu, ya silakan saja tertipu dengan senang hati
  • Model ini sangat kuat untuk tugas jangka panjang, dan Codex sekarang juga punya heartbeats sehingga statusnya bisa terus dipantau
    Katanya kalau diberi masalah sulit yang memakan waktu berjam-jam tetapi punya kendala yang bisa diverifikasi, baru akan terlihat seberapa bagus model ini
    Mengaku bekerja di OpenAI

    • Kedengarannya fitur yang bagus dan saya ingin cepat-cepat mengujinya
      Belakangan saya lelah karena model lain, terutama Opus, sering berhenti sendiri di tengah pekerjaan
    • Dalam evaluasi internal Canva, GPT-5.5 berhasil menyelesaikan banyak tantangan frontier jangka panjang, dan untuk beberapa di antaranya ini pertama kalinya dari semua model AI yang kami uji
      Selamat atas peluncurannya
    • Perlu penjelasan apa tepatnya yang dimaksud dengan heartbeats