GPT-5.5 Diluncurkan

(openai.com)

4 poin oleh GN⁺ 2026-04-24 | 1 komentar | Bagikan ke WhatsApp

Model agentik yang dapat merencanakan sendiri tugas kompleks dan menggabungkan berbagai alat hingga selesai, dengan cakupan luas mulai dari penulisan kode dan debugging hingga riset web, analisis data, pembuatan dokumen·spreadsheet, serta pengoperasian perangkat lunak
Sambil mempertahankan per-token latency yang sama seperti GPT-5.4, performanya meningkat pada coding, computer use, pekerjaan berbasis pengetahuan, dan riset ilmiah tahap awal, serta efisiensinya juga naik karena dapat menyelesaikan tugas Codex yang sama dengan token lebih sedikit
Dalam software engineering, model ini mencatat Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, dan SWE-Bench Pro 58.6%, serta menunjukkan kekuatan dalam implementasi·refactoring·debugging·testing·verifikasi dan menjaga konteks codebase besar
Dalam alur kerja umum dan riset, kemampuan membuat dokumen·spreadsheet·slide, computer use berbasis manipulasi layar, analisis data multilangkah, verifikasi hipotesis, hingga interpretasi hasil juga diperkuat, sementara GPT-5.5 Pro ditujukan untuk akurasi dan cakupan yang lebih tinggi
Sebelum peluncuran, model ini melewati pengamanan yang diperkuat serta pengujian internal dan eksternal, dan saat ini sedang diluncurkan bertahap di ChatGPT dan Codex terutama untuk Plus, Pro, Business, dan Enterprise, sehingga tampak sebagai langkah yang memperluas cakupan pemanfaatan AI untuk pekerjaan praktis

Gambaran model dan cakupan distribusi

GPT-5.5 diperkenalkan sebagai model yang lebih cepat memahami maksud, merencanakan sendiri tugas yang saling terkait dalam banyak tahap, lalu menggunakan alat untuk mendorongnya sampai tuntas
- Model ini dapat menangani penulisan dan debugging kode, riset web, analisis data, pembuatan dokumen dan spreadsheet, pengoperasian perangkat lunak, serta pekerjaan yang berpindah-pindah antaralat
- Alih-alih mengelola tiap tahap secara sangat rinci, model ini dirancang agar dapat langsung diberi tugas yang kompleks dan tidak terstruktur, lalu melanjutkan dari perencanaan, penggunaan alat, verifikasi, hingga penanganan ambiguitas
Peningkatan pada pekerjaan agentik ditekankan secara khusus, dengan performa kuat pada coding, computer use, knowledge work, dan riset ilmiah tahap awal
- Meski model yang lebih besar sering kali menjadi lebih lambat, per-token latency pada layanan nyata tetap dipertahankan sama seperti GPT-5.4
- Efisiensi juga meningkat karena tugas Codex yang sama dapat diselesaikan dengan token lebih sedikit
Sebelum rilis, pengamanan diperkuat, dan model ini merefleksikan hasil pengujian red team internal dan eksternal, uji tambahan terhadap kemampuan cybersecurity dan biology tingkat lanjut, serta umpan balik penggunaan awal dari sekitar 200 mitra tepercaya
Saat ini model ini sedang didistribusikan bertahap di ChatGPT dan Codex kepada pengguna Plus, Pro, Business, Enterprise, dan GPT-5.5 Pro tersedia untuk Pro, Business, dan Enterprise di ChatGPT
- API sedang menyesuaikan persyaratan keamanan terpisah, dan GPT-5.5 serta GPT-5.5 Pro akan segera disediakan

Software engineering dan coding agentik

OpenAI sedang membangun infrastruktur AI agentik, dan selama setahun terakhir AI telah sangat mempercepat software engineering
- Dengan GPT-5.5 masuk ke Codex dan ChatGPT, perubahan ini mulai meluas ke riset ilmiah dan pekerjaan komputer umum
Berdasarkan Artificial Analysis Coding Index, model ini menawarkan kecerdasan tingkat teratas dengan biaya setengah dari model coding frontier pesaing
GPT-5.5 diperkenalkan sebagai model agentic coding terkuat menurut standar OpenAI
- Di Terminal-Bench 2.0, model ini mencatat 82.7%, dengan evaluasi yang menargetkan alur kerja command line kompleks yang memerlukan perencanaan, iterasi, dan kombinasi alat
- Di SWE-Bench Pro, model ini mencatat 58.6%, dan dalam penyelesaian issue GitHub nyata, lebih banyak tugas dapat diselesaikan end-to-end dalam satu lintasan dibanding model sebelumnya
- Dalam evaluasi internal Expert-SWE pun, GPT-5.5 melampaui GPT-5.4
Di seluruh tiga evaluasi coding tersebut, model ini meraih skor lebih tinggi sambil menggunakan lebih sedikit token dibanding GPT-5.4
Kekuatan di Codex terlihat di seluruh implementasi, refactoring, debugging, testing, dan verifikasi
- Model ini menjadi lebih kuat dalam perilaku engineering nyata seperti menjaga konteks sistem besar, melacak penyebab kegagalan yang ambigu, memeriksa asumsi lewat alat, dan menerapkan perubahan di seluruh codebase

Contoh penggunaan coding dan pengujian awal

Contoh prompt mencakup implementasi aplikasi WebGL + Vite menggunakan data nyata Artemis II
- Menggunakan data vektor NASA/JPL Horizons untuk merender lintasan Orion, Moon, dan Sun
- Skala tampilan diterapkan demi keterbacaan
Para penguji awal menilai GPT-5.5 lebih baik dalam memahami struktur sistem
- Model ini lebih akurat menunjukkan apa yang gagal dan mengapa, di mana perbaikan harus dimasukkan, serta dampaknya terhadap bagian lain dari codebase
Dan Shipper menguji apakah model dapat membuat ulang redesain dengan tingkat yang sama setelah gangguan pascarilis diputar balik, dan GPT-5.4 gagal sementara GPT-5.5 berhasil
Pietro Schirano menggabungkan branch dengan ratusan perubahan frontend dan refactor ke main branch yang sudah banyak berubah dalam sekali proses sekitar 20 menit
Dalam pengujian oleh engineer senior, reasoning dan autonomy model ini menonjol dibanding GPT-5.4 dan Claude Opus 4.7
- Bahkan tanpa prompt eksplisit, model ini lebih dulu menangkap masalah dan juga memperkirakan kebutuhan testing serta review
- Saat diminta mendesain ulang comment system untuk collaborative markdown editor, model ini menghasilkan stack 12-diff yang hampir selesai
- Perbaikan implementasi yang dibutuhkan lebih sedikit dari perkiraan, dan tingkat kepercayaan terhadap rencananya juga lebih tinggi dibanding GPT-5.4
Dalam kutipan Michael Truell dari Cursor, terlihat karakteristik bahwa model ini dapat terus bekerja lebih lama dan lebih cocok untuk tugas kompleks serta berjalan panjang tanpa berhenti terlalu dini

Pekerjaan pengetahuan umum dan penggunaan komputer

Kekuatan yang terlihat pada coding juga langsung berlanjut ke pekerjaan komputer sehari-hari
- Karena lebih baik memahami maksud, model ini menjalankan seluruh proses dengan lebih alami, mulai dari menelusuri informasi, menyaring informasi penting, menggunakan alat, memverifikasi hasil, hingga mengubah bahan mentah menjadi keluaran yang berguna
Di Codex, GPT-5.5 lebih kuat daripada GPT-5.4 dalam membuat dokumen, spreadsheet, dan slide
- Para alpha tester menyatakan model ini lebih baik daripada model sebelumnya untuk riset operasional, pemodelan spreadsheet, dan mengubah input bisnis yang tidak terstruktur menjadi rencana
Jika digabungkan dengan kemampuan computer use di Codex, model ini dapat melihat layar, mengeklik, mengetik, menavigasi antarmuka, dan berpindah antaralat dengan presisi
Di internal OpenAI pun model ini sudah dipakai dalam alur kerja nyata, dan saat ini lebih dari 85% karyawan menggunakan Codex setiap minggu
- Pemakaiannya mencakup software engineering, keuangan, komunikasi, pemasaran, data science, dan manajemen produk
Tim komunikasi menganalisis data speaking request selama 6 bulan untuk membuat framework penilaian dan risiko, lalu memvalidasi agen Slack yang memproses otomatis permintaan berisiko rendah dan meneruskan permintaan berisiko tinggi untuk ditinjau manusia
Tim Finance meninjau 24.771 formulir pajak K-1 dengan total 71.637 halaman, dan melalui alur kerja yang mengecualikan informasi pribadi, proses ini selesai 2 minggu lebih cepat dibanding tahun sebelumnya
Di tim Go-to-Market, otomatisasi pembuatan laporan bisnis mingguan menghemat 5–10 jam per minggu

GPT-5.5 Thinking dan GPT-5.5 Pro di ChatGPT

GPT-5.5 Thinking di ChatGPT dirancang untuk menjawab masalah yang lebih sulit dengan lebih cepat, serta memungkinkan pekerjaan kompleks dilakukan lebih efisien dengan jawaban yang lebih cerdas dan ringkas
- Unggul dalam coding, riset, sintesis dan analisis informasi, serta pekerjaan berbasis dokumen, dan terutama menguntungkan saat menggunakan plugin
GPT-5.5 Pro ditujukan untuk tugas yang lebih sulit dan kualitas yang lebih tinggi, dengan latensi yang lebih rendah sehingga lebih layak diterapkan dalam pekerjaan nyata
- Dibanding GPT-5.4 Pro, respons menjadi lebih komprehensif, lebih terstruktur, lebih akurat, lebih relevan, dan lebih berguna
- Sangat kuat khususnya dalam business, legal, education, dan data science
Model ini juga mencatat angka tinggi pada benchmark yang mendekati pekerjaan profesional
- Mencatat GDPval 84.9%, OSWorld-Verified 78.7%, dan Tau2-bench Telecom 98.0%
- Tau2-bench Telecom dijalankan tanpa prompt tuning
- Juga ditampilkan FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, dan OfficeQA Pro 54.1%
Dalam kutipan Justin Boitano dari NVIDIA, dijelaskan alur bahwa model ini disediakan di atas sistem NVIDIA GB200 NVL72, menghadirkan kemampuan end-to-end melalui prompt bahasa alami, memangkas waktu debug dari hitungan hari menjadi beberapa jam, dan mengubah eksperimen yang biasanya memakan waktu berminggu-minggu menjadi proses semalam

Workflow riset sains dan teknologi

GPT-5.5 juga menunjukkan peningkatan performa dalam workflow riset sains dan teknologi
- Bukan hanya menjawab pertanyaan sulit, tetapi juga lebih baik dalam mempertahankan loop yang mencakup eksplorasi ide, pengumpulan bukti, verifikasi hipotesis, interpretasi hasil, hingga penentuan eksperimen berikutnya
Di GeneBench, model ini menunjukkan peningkatan yang jelas dibanding GPT-5.4
- Ini adalah evaluasi baru yang menargetkan analisis data multilangkah di genetics dan quantitative biology
- Mencakup data yang ambigu atau mengandung kesalahan, confounder tersembunyi, kegagalan QC, serta implementasi dan interpretasi teknik statistik modern
- Tugas-tugas di sini setara dengan proyek yang bahkan bagi pakar sains dapat memakan waktu berhari-hari
Di BixBench, model ini juga mencatat performa terdepan di antara model dengan skor publik
- Diperkenalkan sebagai benchmark yang mencerminkan bioinformatics dan analisis data dunia nyata
- Menunjukkan potensi akselerasi setingkat co-scientist di garis depan biomedical research
Versi internal GPT-5.5 dan custom harness juga digunakan untuk menemukan pembuktian baru terkait Ramsey numbers
- Tautan pembuktian baru
- Dalam combinatorics, model ini menemukan pembuktian atas fakta asimtotik pada off-diagonal Ramsey numbers yang sudah lama dipelajari, lalu memverifikasinya dengan Lean
- Model ini berkontribusi bukan hanya pada kode atau penjelasan, tetapi juga pada argumen matematis yang berguna di bidang riset inti
Para penguji awal memanfaatkan GPT-5.5 Pro lebih sebagai mitra riset daripada mesin jawaban sekali pakai
- Model ini meninjau manuskrip secara kritis berulang kali, melakukan stress test pada argumen teknis, mengusulkan analisis, dan bekerja bersama konteks kode, catatan, serta PDF
- Model ini lebih baik membantu alur dari pertanyaan, ke eksperimen, hingga hasil akhir

Studi kasus riset

Derya Unutmaz dari Jackson Laboratory for Genomic Medicine menganalisis dataset ekspresi gen berisi 62 sampel dan sekitar 28.000 gen dengan GPT-5.5 Pro
- Model ini menghasilkan laporan riset terperinci, yang menampilkan bukan hanya ringkasan hasil tetapi juga pertanyaan kunci dan insight
- Skala pekerjaan ini setara dengan pekerjaan yang akan memakan waktu berbulan-bulan jika dikerjakan oleh timnya
Bartosz Naskręcki dari Adam Mickiewicz University membuat aplikasi algebraic geometry dengan Codex dalam 11 menit dari satu prompt
- Aplikasi itu memvisualisasikan perpotongan dua quadratic surface dan mengubah kurva hasilnya ke model Weierstrass
- Setelah itu, ia juga membuat visualisasi singularity lebih stabil dan menambahkan exact coefficients yang dapat digunakan kembali untuk pekerjaan lanjutan
- Codex juga membantu dalam implementasi visualisasi matematika kustom dan workflow computer algebra yang sebelumnya memerlukan alat khusus
Credit: Bartosz Naskręcki
Dalam kutipan Brandon White dari Axiom Bio, dijelaskan bahwa model ini menalar biochemical dataset berskala besar untuk memprediksi human drug outcomes, dan menunjukkan peningkatan akurasi yang bermakna pada evaluasi drug discovery yang paling sulit

Infrastruktur inferensi dan optimasi performa

Untuk menyajikan GPT-5.5 dengan latensi setara GPT-5.4, inferensi harus dirancang ulang sebagai sistem terintegrasi, bukan sekadar kumpulan optimasi terpisah
- GPT-5.5 dirancang bersama, dilatih, dan disajikan dengan asumsi sistem NVIDIA GB200 dan GB300 NVL72
Codex dan GPT-5.5 sendiri berkontribusi langsung pada pencapaian target performa
- Codex digunakan untuk dengan cepat mengubah ide menjadi implementasi yang bisa dibenchmark, membuat sketsa pendekatan, menghubungkan eksperimen, dan menemukan optimasi yang layak mendapat investasi lebih dalam
- GPT-5.5 membantu menemukan dan mengimplementasikan perbaikan penting di dalam stack
- Pada akhirnya, model ini juga berkontribusi pada peningkatan infrastruktur yang digunakan untuk melayani dirinya sendiri
Sebagai contoh perbaikan utama, diperkenalkan load balancing dan partitioning heuristics
- Sebelumnya, permintaan di accelerator dibagi menjadi sejumlah chunk tetap sehingga permintaan besar dan kecil berjalan pada GPU yang sama
- Namun, jumlah chunk yang statis tidak optimal untuk semua bentuk traffic
- Codex menganalisis pola production traffic selama beberapa minggu dan menulis algoritme heuristic kustom yang membagi serta menyeimbangkan pekerjaan secara optimal
- Pekerjaan ini meningkatkan token generation speed sebesar lebih dari 20%

Keamanan siber dan perlindungan

Menyiapkan model yang andal dalam mendeteksi kerentanan dan melakukan patching agar siap digunakan dunia lebih mirip olahraga tim, dan dibutuhkan ketahanan seluruh ekosistem untuk era berikutnya dalam pertahanan siber
- Tautan terkait: next era of cyber defense
Kapabilitas cybersecurity model frontier terus menjadi semakin kuat, dan karena kemampuan ini akan menyebar luas, jalur untuk memastikan kemampuannya digunakan guna mempercepat pertahanan siber dan memperkuat ekosistem menjadi semakin penting
GPT-5.5 diposisikan sebagai langkah yang bertahap tetapi penting menuju AI yang memecahkan masalah sulit seperti cybersecurity
- Pada GPT-5.2, cyber safeguards yang membatasi potensi penyalahgunaan cyber telah lebih dulu diterapkan
- Pada GPT-5.5, classifier yang lebih ketat untuk potensi cyber risk telah diterapkan, dan pada tahap awal hal ini mungkin terasa mengganggu bagi sebagian pengguna
Selama beberapa tahun, OpenAI telah menangani cybersecurity sebagai kategori terpisah dalam Preparedness Framework, dan terus menyesuaikan langkah mitigasi secara berulang seiring peningkatan kapabilitas
Safeguards terdepan di industri diterapkan agar sesuai dengan tingkat cyber capability ini
- Safeguard khusus cyber pertama kali diperkenalkan di GPT-5.2, lalu diuji, disempurnakan, dan diperluas pada setiap peluncuran berikutnya
- Pada GPT-5.5, perlindungan untuk aktivitas berisiko tinggi, permintaan cyber sensitif, dan penyalahgunaan berulang diperkuat lebih lanjut
- Akses yang luas dimungkinkan berkat investasi pada keamanan model, penggunaan yang terverifikasi, dan pemantauan terhadap penggunaan yang tidak diizinkan
- Bersama pakar eksternal, robustness dikembangkan, diuji, dan ditingkatkan selama berbulan-bulan
- Sambil memudahkan developer melindungi kode mereka, kontrol yang lebih kuat diterapkan pada alur kerja cyber yang memudahkan pelaku jahat menimbulkan kerugian
Perluasan akses untuk tujuan pertahanan juga berjalan bersamaan
- Melalui Trusted Access for Cyber, akses ke model cyber-permissive disediakan, dengan Codex sebagai titik awal
- Bagi pengguna terverifikasi yang memenuhi trust signals tertentu, fitur cybersecurity tingkat lanjut GPT-5.5 disediakan dengan pembatasan yang lebih sedikit
- Organisasi yang menangani pertahanan critical infrastructure dapat mengajukan akses ke model cyber-permissive seperti GPT-5.4-Cyber
- Tujuannya adalah memberikan alat untuk pekerjaan keamanan yang sah kepada pihak pertahanan terverifikasi dengan friksi yang lebih rendah
- Tautan pendaftaran: chatgpt.com/cyber
Kolaborasi dengan mitra pemerintah juga termasuk di dalamnya
- Sedang dijajaki bersama bagaimana AI canggih dapat mendukung petugas publik yang membela infrastruktur penting seperti sistem digital untuk melindungi data pajak, jaringan listrik, dan pasokan air bersih komunitas setempat
Kapabilitas biological/chemical dan cybersecurity GPT-5.5 diklasifikasikan sebagai High dalam Preparedness Framework
- Meskipun belum mencapai cybersecurity capability tingkat Critical, evaluasi dan pengujian mengonfirmasi kapabilitas cyber GPT-5.5 satu tingkat lebih tinggi daripada GPT-5.4
Sebelum dirilis, model ini melalui seluruh safety and governance process
- Ini mencakup evaluasi preparedness, pengujian per bidang, evaluasi target baru untuk biology dan cybersecurity tingkat lanjut, serta pengujian ketahanan yang ketat bersama pakar eksternal
- Detail lebih lanjut tersedia di GPT-5.5 system card
Pendekatan ini merupakan bagian dari strategi AI resilience yang dibutuhkan pada era model yang lebih kuat
- AI yang kuat juga harus tersedia bagi orang-orang yang melindungi sistem, institusi, dan publik, dan akses berbasis kepercayaan, safeguards yang diperkuat sebanding dengan kapabilitas, serta kemampuan operasional untuk mendeteksi dan merespons penyalahgunaan serius diajukan sebagai jalur utama

Paket yang tersedia dan harga

Saat ini di ChatGPT dan Codex, GPT-5.5 sedang diluncurkan untuk pengguna Plus, Pro, Business, dan Enterprise, sementara GPT-5.5 Pro tersedia di ChatGPT untuk Pro, Business, dan Enterprise
Di ChatGPT, GPT-5.5 Thinking tersedia untuk Plus, Pro, Business, dan Enterprise
- GPT-5.5 Pro ditujukan untuk pertanyaan yang lebih sulit dan akurasi yang lebih tinggi, dan dapat digunakan di Pro, Business, dan Enterprise
Di Codex, GPT-5.5 tersedia untuk paket Plus, Pro, Business, Enterprise, Edu, Go, dan memiliki 400K context window
- Fast mode juga tersedia, dengan kecepatan pembuatan token 1.5x lebih cepat dan biaya 2.5x
gpt-5.5 untuk developer API akan segera tersedia di Responses API dan Chat Completions API
- Dinyatakan seharga $5 per 1M token input, $30 per 1M token output, dengan 1M context window
- Harga Batch dan Flex adalah setengah dari tarif API standar, dan Priority processing tersedia dengan biaya 2.5x
gpt-5.5-pro juga akan diluncurkan di API, dengan tujuan akurasi yang lebih tinggi
- Tercantum seharga $30 per 1M token input dan $180 per 1M token output
- Informasi harga lengkap ditautkan ke pricing page
GPT-5.5 lebih mahal daripada GPT-5.4, tetapi juga lebih tinggi dalam kecerdasan dan efisiensi token
- Di Codex, pengalaman disesuaikan agar bagi sebagian besar pengguna hasilnya lebih baik dengan token yang lebih sedikit dibanding GPT-5.4
- Kuota penggunaan yang longgar akan terus disediakan di seluruh tingkatan langganan

Benchmark terperinci

Coding
- Pada SWE-Bench Pro (Public), GPT-5.5 mencatat 58.6%, GPT-5.4 57.7%, Claude Opus 4.7 64.3%, dan Gemini 3.1 Pro 54.2%
- Untuk Terminal-Bench 2.0, GPT-5.5 mencapai 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, dan Gemini 3.1 Pro 68.5%
- Expert-SWE (Internal) menunjukkan GPT-5.5 73.1% dan GPT-5.4 68.5%
Pekerjaan profesional
- Pada GDPval (wins or ties), GPT-5.5 mencatat 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, dan Gemini 3.1 Pro 67.3%
- FinanceAgent v1.1 mencatat GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, dan Gemini 3.1 Pro 59.7%
- Investment Banking Modeling Tasks (Internal) menunjukkan GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, dan GPT-5.4 Pro 83.6%
- OfficeQA Pro mencatat GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, dan Gemini 3.1 Pro 18.1%
Penggunaan komputer dan visi
- OSWorld-Verified mencatat GPT-5.5 78.7%, GPT-5.4 75.0%, dan Claude Opus 4.7 78.0%
- Pada MMMU Pro (no tools), GPT-5.5 dan GPT-5.4 sama-sama 81.2%, sementara Gemini 3.1 Pro 80.5%
- Pada MMMU Pro (with tools), GPT-5.5 mencatat 83.2% dan GPT-5.4 82.1%
Penggunaan alat
- BrowseComp mencatat GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, dan Gemini 3.1 Pro 85.9%
- MCP Atlas mencatat GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, dan Gemini 3.1 Pro 78.2%
- Toolathlon mencatat GPT-5.5 55.6%, GPT-5.4 54.6%, dan Gemini 3.1 Pro 48.8%
- Tau2-bench Telecom, berdasarkan prompt asli, mencatat GPT-5.5 98.0% dan GPT-5.4 92.8%
- Catatan untuk MCP Atlas menyebutkan bahwa ini adalah hasil setelah pembaruan terbaru Scale AI pada April 2026
- Catatan untuk Tau2-bench Telecom menegaskan bahwa hasil ini dievaluasi tanpa prompt adjustment, dan hasil prompt adjustment dari laboratorium lain tidak disertakan
Akademik
- GeneBench mencatat GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, dan GPT-5.4 Pro 25.6%
- FrontierMath Tier 1–3 mencatat GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, dan Gemini 3.1 Pro 36.9%
- FrontierMath Tier 4 mencatat GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, dan Gemini 3.1 Pro 16.7%
- BixBench mencatat GPT-5.5 80.5% dan GPT-5.4 74.0%
- GPQA Diamond mencatat GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, dan Gemini 3.1 Pro 94.3%
- Humanity's Last Exam (no tools) mencatat GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, dan Gemini 3.1 Pro 44.4%
- Humanity's Last Exam (with tools) mencatat GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, dan Gemini 3.1 Pro 51.4%
Keamanan siber
- Capture-the-Flags challenge tasks (Internal) mencatat GPT-5.5 88.1% dan GPT-5.4 83.7%
- CyberGym mencatat GPT-5.5 81.8%, GPT-5.4 79.0%, dan Claude Opus 4.7 73.1%
- Catatan menyebutkan bahwa ini adalah hasil dari perluasan CTF tersulit yang ditulis di system card ditambah tantangan tambahan dengan tingkat kesulitan tinggi
Konteks panjang
- Graphwalks BFS 256k f1 mencatat GPT-5.5 73.7%, GPT-5.4 62.5%, dan Claude Opus 4.7 76.9%
- Graphwalks BFS 1mil f1 mencatat GPT-5.5 45.4%, GPT-5.4 9.4%, dan Claude Opus 4.6 41.2%
- Graphwalks parents 256k f1 mencatat GPT-5.5 90.1%, GPT-5.4 82.8%, dan Claude Opus 4.7 93.6%
- Graphwalks parents 1mil f1 mencatat GPT-5.5 58.5%, GPT-5.4 44.4%, dan Claude Opus 4.6 72.0%
- OpenAI MRCR v2 8-needle disajikan menurut panjang konteks, yaitu 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, dan 512K-1M 74.0%
- Untuk item yang sama, GPT-5.4 masing-masing mencatat 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, dan 36.6%
- Pada rentang 128K-256K tercantum Claude Opus 4.7 59.2%, dan pada rentang 512K-1M tercantum Claude Opus 4.7 32.2%
Penalaran abstrak
- ARC-AGI-1 (Verified) mencatat GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, dan Gemini 3.1 Pro 98.0%
- ARC-AGI-2 (Verified) mencatat GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, dan Gemini 3.1 Pro 77.1%
- Disebutkan bahwa evaluasi seri GPT dilakukan dalam lingkungan riset dengan reasoning effort diatur ke xhigh, dan pada beberapa kasus output-nya bisa sedikit berbeda dari ChatGPT di lingkungan produksi

1 komentar

GN⁺ 2026-04-24

Komentar Hacker News

Ungkapan bahwa kehilangan akses GPT-5.5 di NVIDIA terasa seperti kehilangan lengan dan kaki terdengar jauh lebih mengerikan daripada yang mungkin dimaksudkan
Rasanya ini berlaku untuk ketergantungan pada model coding frontier secara umum, dan makin bagus performanya, makin cepat orang bersandar padanya saat ngoding
Setelah mengalaminya sendiri, rasa tidak nyamannya cukup besar. Sekarang, alih-alih sabar menulis kode manual, menyelesaikannya sekaligus dengan model terasa sekitar 10 kali lebih cepat, dan peranku pun berubah
Luar biasa bahwa kita bisa membuat banyak hal berjalan, tetapi kalau token habis, pada dasarnya pekerjaan juga berhenti
Saat Claude mati, kadang jalan-jalan justru memberi leverage lebih besar daripada memaksa diri menulis kode. Jika satu jam kemudian Claude hidup lagi, kemajuannya lebih besar daripada kelelahan mencoba memecahkan masalah secara manual sambil bergulat dengan kode buatan LLM
Bagaimanapun juga, kondisi seperti ini tetap terasa agak mengkhawatirkan
- Rasanya teori tenaga kerja sendiri sedang dibalik oleh LLM
  Pasar saat ini berdiri di atas asumsi bahwa tenaga kerja teratomisasi dan daya tawarnya lemah, sehingga modal punya daya tawar jauh lebih besar dan pada praktiknya menentukan harga tenaga kerja
  Tapi bagaimana kalau tenaga kerja itu disediakan oleh perusahaan lain yang lebih besar, dan tidak seperti tenaga kerja tradisional, suplai tenaga kerja itu bisa diputus tanpa batas waktu
  Kini tenaga kerja telah menjadi bentuk lain dari modal, dan modal tidak perlu makan
  Perusahaan yang tidak memakai model sendiri tampaknya akan merasakan akibatnya secara langsung
- Ini juga bisa dilihat sebagai sesuatu yang tidak terlalu berbeda dari memakai abstraksi library
  Membangun jadi lebih cepat, jumlah kode yang ditulis langsung berkurang, dan pengelolaan state internal atau memori ditangani oleh library
  Sebagian orang mungkin tidak nyaman bergantung pada pemanggilan library alih-alih memanipulasi pointer dan malloc() secara langsung, tetapi bagi yang lain ini terasa membebaskan karena memungkinkan fokus pada arsitektur tingkat lebih tinggi tanpa tenggelam dalam perpindahan konteks level rendah
- Ada cara memakai ini dengan sengaja agar tidak menggali kuburku terlalu cepat
  Saya sering meminta dibuatkan CLI atau alat mandiri, bukan jawaban jadi terlebih dahulu
  Saya juga menanyakan bagaimana model sampai pada kesimpulan itu agar sudut pandang saya meluas, dan memintanya menjelaskan cara klasifikasinya di level metadata internalnya sendiri
  Terutama pada codebase besar yang kesulitannya bukan pada konsepnya melainkan pada ukuran graf referensi, saya mencoba memakainya ke arah yang benar-benar meningkatkan kemampuan saya memecahkan masalah
- Jika model lokal tetap hanya tertinggal secukupnya dari model hosted terbaru, misalnya sekitar 12 bulan, dan hardware lokal juga tetap terjangkau, risikonya mungkin terbatas
  Sebab meski model hosted hilang atau jadi terlalu mahal, yang hilang hanya sedikit selisih performa itu
  Tentu saja, kedua asumsi ini sama sekali tidak jelas akan terjadi, jadi ini lebih seperti harapan saja
- Kalau memikirkan kepentingan harga saham NVIDIA dan OpenAI, komentar seperti itu juga tidak aneh
  Dan terus terang masih sulit mempercayai slogan produktivitas 10x yang terus diulang
GPT-5.5 dirilis hari ini, tetapi penerapannya di ChatGPT dan Codex dilakukan bertahap selama beberapa jam
Demi stabilitas layanan, seperti rilis sebelumnya, akses dibuka secara bertahap, biasanya dimulai dari Pro/Enterprise lalu turun ke Plus
Jadi kalau belum langsung terlihat, diminta untuk cek lagi nanti
Menunggu secara acak memang bisa menjengkelkan, tetapi katanya itu dilakukan demi stabilitas
Mengaku bekerja di OpenAI
- Saya mencoba menjalankan OpenClaw dengan GPT-5.4 API xhigh, tetapi sama sekali tidak bisa membuat modelnya benar-benar bekerja
  Saya mencoba memakainya sebagai pengganti setelah OAuthgate Anthropic, tetapi bahkan sub-tugas yang cepat, aman, dan tidak berbahaya pun tidak bisa diselesaikan
  Percakapannya hanya berakhir dengan permintaan maaf tanpa henti seperti “seharusnya saya melakukan X di sini” “benar, saya gagal” “kalau begitu lakukan sekarang” “harusnya begitu, tapi tidak saya lakukan”
  Belakangan GLM, Kimi, Minimax bisa menyelesaikannya tanpa masalah, jadi rasanya makin absurd dan akhirnya OpenAI langsung saya tinggalkan
- Kalau ada dashboard rollout publik, kebingungannya pasti jauh berkurang
  Lebih bagus lagi kalau UI menunjukkan bahwa modelnya memang ada, tetapi belum dibuka untuk akun saya
  Kalau sampai ada ETA tentu ideal, walau saat rollout berjalan masalah bisa saja muncul sehingga sulit diprediksi
- Selamat atas perilisannya
  Saya penasaran apakah Images 2.0 juga dirilis bersama di dalam ChatGPT, atau untuk sementara masih tetap menjadi fitur khusus API/Playground
- Dari sudut pandang pengguna Plus, saya ragu mencoba Codex karena tidak tahu akan memakan berapa banyak batas penggunaan
- Saya juga penasaran apakah fine-tuning GPT-5.5 akan segera hadir
Memang belum ada akses API resmi, tetapi belakangan OpenAI tampak pada dasarnya membiarkan backdoor Codex API yang dipakai OpenClaw
https://twitter.com/steipete/status/2046775849769148838 dan https://twitter.com/romainhuet/status/2038699202834841962
Backdoor API itu juga sudah mencakup GPT-5.5
Jadi saya mencoba contoh pelikan, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
dengan plugin baru untuk LLM https://github.com/simonw/llm-openai-via-codex
Setelah reasoning effort dinaikkan ke xhigh, hasil pelikannya jauh lebih baik
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
- Pelikan model lokal yang saya unggah kemarin terlihat lebih bagus daripada ini
  Meski begitu, yang ini lucu juga karena posisinya menyilangkan kaki
- Terus terang ini jelek sekali
  Sudah sampai versi 5.5, masa masih tidak bisa menggambar satu rangka sepeda dasar dengan benar
  Roda depannya tidak punya struktur yang memungkinkan berbelok ke samping, tetapi gambarnya gagal menangkap itu
- Cukup mengejutkan bahwa dengan setelan default hanya memakai 39 reasoning tokens, hasilnya bisa sejauh itu
  Saya tidak tahu pasti apa itu reasoning token, tetapi jumlah tokennya tetap tampak sangat sedikit
- Saya penasaran apakah pemakaian API langsung seperti ini diperbolehkan oleh ketentuan layanan
  Setahu saya Anthropic sangat tidak suka penggunaan model seperti ini
- Saya penasaran kenapa ini jauh lebih buruk dalam menggambar dibanding beberapa hasil terbaru lainnya
  Bahkan model lokal open-weight seperti Qwen yang diunggah kemarin terlihat lebih baik
Semua orang membicarakan gating Mythos milik Anthropic dan marketing CyberGym 83%, sementara OpenAI begitu saja merilis GPT-5.5 dan skornya 82%
Fakta bahwa semua orang bisa langsung mencobanya jauh lebih penting
Kalau bekerja di bidang keamanan siber ofensif/defensif, menurut saya lebih tepat menyentuh langsung model yang benar-benar dirilis seperti ini daripada terpancing promosi berlebihan
Tidak pernah terpikir saya akan berkata begini, tetapi sekarang OpenAI justru terlihat seperti pilihan yang lebih terbuka lagi
- Hype yang sebenarnya adalah ketika Anthropic mengumumkan Mythos, semua orang langsung sadar bahwa OpenAI akan merilis model pesaing dalam beberapa minggu dan Sam tidak akan membatasi aksesnya
  Itu sebabnya industri keamanan ketakutan, karena mereka merasa hanya punya kira-kira dua minggu untuk menutup zero-day baru, lalu setelah itu bisa masuk open season di mana para black hat menemukannya massal dan mengeksploitasinya
- Dibanding Anthropic, OpenAI memang sejak awal lebih terbuka
  Anthropic tidak pernah merilis model publik, tidak pernah secara sukarela membuka source Claude Code, dan bahkan tokenizer pun tidak dirilis
- Bukankah OpenAI juga marah saat diberi pertanyaan keamanan siber, meminta unggah identitas pemerintah, lalu kalau tidak, diam-diam mengarahkan ke model yang lebih lemah
  Di dokumentasinya juga tertulis bahwa pekerjaan terkait keamanan siber bisa fallback ke GPT-5.2 jika terkena deteksi otomatis
  https://developers.openai.com/codex/concepts/cyber-safety
  https://chatgpt.com/cyber
- Saya mengabaikan semua berita hype
  Bagi saya Anthropic hampir terasa seperti perwujudan bualan
  Setelah dulu membaca Cialdini, pertunjukan gaya Anthropic jadi terasa membosankan
  Sebaliknya OpenAI sangat cerdas. Setelah Claude naik daun, mereka sempat menghilang dari headline, tetapi sekarang berkat basis pengguna yang masif, cukup mengikuti siklus rilis Anthropic saja sudah cukup untuk membuat lawannya tampak konyol
  Dari sudut pandang Anthropic, sepertinya setiap ada versi GPT baru, situasinya akan makin menyedihkan, dan ujungnya tampak seperti OpenAI akan menguasai semuanya
- Saya juga curiga OpenAI melempar pertanyaan siber ke model yang lebih bodoh
Saya ingin orang melihat bagian harga/batas penggunaan di halaman ini
https://developers.openai.com/codex/pricing?codex-usage-limi...
Lihat perbedaan Local Messages antara 5.3, 5.4, dan 5.5
Saya memang membaca klaim bahwa 5.5 lebih efisien sehingga titik impasnya mirip dengan 5.4, tetapi bagaimanapun terlihat seperti batas makin ketat dan harga makin naik
- Berdasarkan API, harga GPT-5.5 dua kali lipat GPT-5.4, sekitar empat kali GPT-5.1, dan sekitar 10 kali Kimi-2.6
  Pelajaran yang tampaknya dipetik dari kasus Anthropic adalah bahwa developer sangat cepat bergantung, bahkan kecanduan, pada coding agent, jadi untuk peningkatan kecil pun mereka akan mau membayar sebanyak itu
Prototipe arena dungeon 3D yang dibuat dengan Codex dan GPT terlihat cukup meyakinkan
Codex menangani arsitektur game, implementasi TypeScript/Three.js, sistem pertarungan, encounter musuh, dan feedback HUD, sementara tekstur lingkungan dibuat oleh GPT, dan model karakter serta animasinya dibuat dengan alat pembuat aset pihak ketiga
Kemungkinan besar alasan visualnya terlihat cukup baik juga karena mesh-nya bukan dibuat langsung oleh GPT-5.5, melainkan oleh alat terpisah
Melihat ini, rasanya kita sedang menuju masa seperti era Flash dulu, ketika gamer atau developer hobi bisa cepat membuat konsep game lalu langsung memublikasikannya di web
Khususnya Three.js bahkan bukan game engine, tetapi mulai terasa seperti alat inti de facto untuk merancang game dengan AI
- Selama 3 tahun terakhir saya terus bereksperimen dengan Three.js dan AI, dan di 5.4 saya merasakan lompatan yang sangat besar
  Kalau khusus Three.js, itu adalah loncatan generasi tunggal terbesar, terutama pada shader GLSL, dan juga membaik dalam menyusun scene yang terpecah ke banyak halaman/komponen
  Membuat shader utuh dari nol masih sulit, tetapi kemampuan memodifikasi shader yang sudah ada sekarang cukup berguna
  Di 5.2 ke bawah, model benar-benar buruk dalam pola one canvas, multiple page untuk mempertahankan satu canvas latar di banyak route, tetapi 5.4, walau masih perlu sedikit dibimbing, jauh lebih responsif terhadap prompt refactor dan optimasi
  Saya antusias untuk menguji seperti apa 5.5 dalam praktik
- Era seperti Flash sebenarnya sudah datang sejak beberapa waktu lalu, dan bottleneck-nya selalu kreativitas
- Saya sudah sangat sering menerima bantuan LLM untuk game dan proyek berbasis Three.js, dan hasilnya bagus
  Visualisasi jam aneh yang saya buat juga sangat bergantung pada ini
  Ini memang bukan game engine, tetapi untuk WebGL 3D di web, secara praktis sudah menjadi standar, dan karena sudah lama ada, data latihnya juga sangat besar
  Sebelum era LLM, saya lebih bergantung pada Babylon.js yang punya fitur level lebih tinggi
- Seorang teman sedang membuat Jamboree
  Dulu namanya Spielwerk, dan ini aplikasi iOS untuk membuat dan membagikan game
  Semuanya berbasis web, jadi mudah dibagikan
  https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
- LLM masih belum bisa penalaran spasial
  Saya belum mencoba GPT, tetapi dengan Claude, sekeras apa pun prompt engineering, tetap tidak bisa menyelesaikan Rubik's Cube, dan bahkan Opus 4.6 hanya bisa benar sekitar 70% dari puzzle sebelum mentok
  Satu percobaan bisa menelan biaya 20 dolar, jadi biayanya juga sulit ditanggung
  Kalau penalaran tiga dimensi benar-benar bisa dibuat berjalan, pendekatan yang sama mungkin bisa diperluas ke soal-soal matematika yang sekarang belum bisa diselesaikan
  Saya sedang mempertimbangkan untuk membuka server MCP Rubik's Cube saya agar orang bisa menantang diri, apakah ada yang bisa menyelesaikan kubus hanya dengan prompt
Dalam pengumuman kali ini, bagian yang lebih menarik daripada benchmark adalah bahwa Codex menganalisis pola trafik nyata selama beberapa minggu untuk meningkatkan utilisasi GPU, lalu menulis algoritma heuristik kustom untuk pembagian dan penyeimbangan pekerjaan sehingga kecepatan generasi token naik lebih dari 20%
Area di mana LLM agentik bisa melakukan optimasi efisiensi komputasi seperti ini tampaknya berdampak besar, tetapi diuji jauh lebih sedikit dibanding benchmark
Dari pengalaman saya, di bagian ini Opus masih lebih baik daripada GPT/Codex, tetapi karena OpenAI sedang mendapat manfaat nyata dari maksimalisasi performa seperti ini di bawah tekanan biaya dan kapasitas, mereka tampaknya akan terus mendorong ke arah ini
- Saat mengerjakan pemrosesan data berkinerja tinggi di Rust, saya menghadapi hambatan performa yang perlu ditingkatkan lebih dari 100x
  Saya teringat optimasi code golf FizzBuzz Intel yang dulu terkenal, lalu saya memberi gemini pro kode saya sambil meminta “tolong usulkan optimasi cerdas seperti itu”, dan sarannya benar-benar keren
  LLM terus mengejutkan saya setiap hari
- KernelBench memang sudah menguji optimasi kernel CUDA
  Dan karena tiap perusahaan juga tahu bahwa optimasi infrastruktur dan model mereka sendiri adalah jalur utama untuk menang dalam kompetisi, saya yakin bagian ini sedang mereka garap dengan sangat serius
- Masalahnya, klaim seperti ini terlalu empiris sehingga sulit direproduksi
  Menyenangkan melihat hal-hal di luar benchmark tradisional seperti MMLU, tetapi tanpa eksperimen terkontrol yang layak, angka-angka seperti ini tidak terlalu membantu
Kalau melihat angkanya, Mythos vs GPT-5.5 masih terpaut jauh di SWE-bench Pro, tetapi selain itu tampak cukup mirip
SWE-bench Pro 77.8% vs 58.6%
Terminal-bench-2.0 82.0% vs 82.7%
GPQA Diamond 94.6% vs 93.6%
H. Last Exam 56.8% vs 41.4%
H. Last Exam (tools) 64.7% vs 52.2%
BrowseComp 86.9% vs 84.4%, Pro 90.1%
OSWorld-Verified 79.6% vs 78.7%
Sumber angka Mythos adalah https://www.anthropic.com/glasswing
- Mythos hanya berarti jika benar-benar bisa dipakai
  Saat memakai Opus 4.7 sekarang, otonominya terasa sangat di-nerf, dan karena apa yang disebut keamanan, pembatasannya berat
  Jadi saya tidak begitu yakin hasil nyatanya akan sehebat yang diiklankan Anthropic
- Menurut halaman rilis Anthropic, tim Claude mengonfirmasi adanya hafalan SWE-bench, dan tes itu memang masuk ke data latih
  Ada di sini
  https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
- Saya sempat melihat lebih dekat SWE-bench Verified, dan angka Mythos menyisakan banyak pertanyaan
  Saya mengambil submission resmi di https://github.com/SWE-bench/experiments/tree/main/evaluatio..., menyaring model sejak Sonnet 4, lalu menjumlahkan seluruh 500 soal; tingkat penyelesaian gabungannya tepat 93%
  Tetapi kalau Mythos mencetak 93.7%, itu berarti ia menyelesaikan soal-soal yang tidak bisa dipecahkan model lain mana pun, dan ketika saya melihat soal-soal itu langsung, rasanya makin mencurigakan
  Sisa 7% soal tampak hampir mustahil diselesaikan tanpa lebih dulu melihat test patch, dan solusi nyatanya berjalan sangat berbeda dari deskripsi masalah hingga terasa seperti sedang menyelesaikan masalah lain sama sekali
  Saya tidak ingin langsung menuduh Mythos curang, tetapi mungkin saja ia mengingat terlalu banyak status repository sehingga dari diff di memorinya ia bisa melakukan reverse inference atas pernyataan masalah yang sebenarnya
  Kalau bukan begitu, sulit menjelaskan bagaimana ia bisa menafsirkan deskripsi masalah yang begitu ambigu dengan sangat tepat
- Satu benchmark saja tidak berarti apa-apa
  Setiap benchmark memang selalu memunculkan hasil aneh
Tetap saja mengecewakan bahwa tingkat halusinasi 86% masih setinggi itu
Sebagai pembanding, Opus ada di sekitar 36%
Sumbernya https://artificialanalysis.ai/models?omniscience=omniscience...
- Grok ada di 17% dan itu yang terendah, sementara kebanyakan model ada di atas 80%, rasanya aneh
  Tergantung pertanyaannya, halusinasi justru terasa lebih dekat ke 100%, jadi benchmark ini secara intuitif sulit diterima
- Ada yang aneh, rasanya Haiku tidak mungkin tampil sebaik itu
- Ini terbaca seperti sinyal bahwa vendor memang menginginkan perilaku seperti itu
  Orang yang bertanya kemungkinan besar tidak sepenuhnya memahami persoalannya, jadi apa pun hasilnya, mereka tampaknya tetap lebih menyukai jawaban yang terdengar penuh percaya diri
  Tujuannya seolah menjual kesan terlihat kompeten alih-alih kemampuan teknologi yang sebenarnya
  LLM bisa menghancurkan produk, jadi kalau ada yang percaya mesin pikiran miliarder bisa menggantikan karyawan dan menyuruhmu menghabiskan 75% anggaran tenaga kerja untuk itu, ya silakan saja tertipu dengan senang hati
Model ini sangat kuat untuk tugas jangka panjang, dan Codex sekarang juga punya heartbeats sehingga statusnya bisa terus dipantau
Katanya kalau diberi masalah sulit yang memakan waktu berjam-jam tetapi punya kendala yang bisa diverifikasi, baru akan terlihat seberapa bagus model ini
Mengaku bekerja di OpenAI
- Kedengarannya fitur yang bagus dan saya ingin cepat-cepat mengujinya
  Belakangan saya lelah karena model lain, terutama Opus, sering berhenti sendiri di tengah pekerjaan
- Dalam evaluasi internal Canva, GPT-5.5 berhasil menyelesaikan banyak tantangan frontier jangka panjang, dan untuk beberapa di antaranya ini pertama kalinya dari semua model AI yang kami uji
  Selamat atas peluncurannya
- Perlu penjelasan apa tepatnya yang dimaksud dengan heartbeats

GPT-5.5 Diluncurkan

Gambaran model dan cakupan distribusi

Software engineering dan coding agentik

Contoh penggunaan coding dan pengujian awal

Pekerjaan pengetahuan umum dan penggunaan komputer

GPT-5.5 Thinking dan GPT-5.5 Pro di ChatGPT

Workflow riset sains dan teknologi

Studi kasus riset

Infrastruktur inferensi dan optimasi performa

Keamanan siber dan perlindungan

Paket yang tersedia dan harga

Benchmark terperinci

Coding

Pekerjaan profesional

Penggunaan komputer dan visi

Penggunaan alat

Akademik

Keamanan siber

Konteks panjang

Penalaran abstrak

Bacaan terkait

1 komentar

Komentar Hacker News