GPT-5.5

(openai.com)

4 poin oleh GN⁺ 6 hari lalu | 1 komentar | Bagikan ke WhatsApp

Model agen yang dapat merencanakan tugas kompleks sendiri, menggabungkan berbagai alat, dan menuntaskannya hingga selesai, dengan cakupan luas mulai dari penulisan kode dan debugging hingga riset web, analisis data, pembuatan dokumen·spreadsheet, serta pengoperasian software
Sambil mempertahankan per-token latency setara GPT-5.4, performanya meningkat dalam coding, computer use, pekerjaan berbasis pengetahuan, dan riset ilmiah tahap awal, serta efisiensinya juga naik karena dapat menyelesaikan tugas Codex yang sama dengan token lebih sedikit
Dalam software engineering, model ini mencatat Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, dan SWE-Bench Pro 58.6%, dengan kekuatan yang terlihat pada implementasi, refactoring, debugging, testing, verifikasi, serta mempertahankan konteks codebase besar
Dalam alur kerja umum dan riset, peningkatan juga terlihat pada rangkaian proses dari pembuatan dokumen·spreadsheet·slide, computer use berbasis manipulasi layar, analisis data multilangkah, verifikasi hipotesis, hingga interpretasi hasil, sementara GPT-5.5 Pro ditujukan untuk akurasi dan cakupan yang lebih tinggi
Sebelum dirilis, model ini melewati pengamanan yang diperkuat serta pengujian internal dan eksternal, dan kini sedang diluncurkan bertahap di ChatGPT dan Codex terutama untuk pengguna Plus, Pro, Business, dan Enterprise, sehingga tampak sebagai langkah yang memperluas cakupan pemanfaatan AI untuk pekerjaan praktis

Gambaran model dan cakupan peluncuran

GPT-5.5 diperkenalkan sebagai model yang lebih cepat memahami maksud, dapat merencanakan sendiri pekerjaan yang terjalin dalam banyak tahap, lalu menggunakan alat untuk mendorongnya sampai tuntas
- Model ini dapat menangani penulisan kode dan debugging, riset web, analisis data, pembuatan dokumen dan spreadsheet, pengoperasian software, serta pekerjaan yang berpindah-pindah antaralat
- Alih-alih mengelola setiap tahap secara rinci, model ini dirancang untuk menerima tugas kompleks dan tidak terstruktur sekaligus, lalu melanjutkan hingga perencanaan, penggunaan alat, verifikasi, dan penanganan ambiguitas
Peningkatan pada pekerjaan agentic sangat ditekankan, dengan performa kuat pada coding, computer use, knowledge work, dan riset ilmiah tahap awal
- Meski model yang lebih besar sering kali menjadi lebih lambat, per-token latency pada layanan nyata tetap dipertahankan sama seperti GPT-5.4
- Efisiensi juga meningkat karena tugas Codex yang sama dapat diselesaikan dengan token lebih sedikit
Sebelum peluncuran, pengamanannya diperkuat, disertai pengujian red team internal dan eksternal, uji tambahan atas kemampuan cybersecurity dan biology tingkat lanjut, serta masukan penggunaan awal dari sekitar 200 mitra tepercaya
Saat ini model tersebut diluncurkan bertahap di ChatGPT dan Codex untuk pengguna Plus, Pro, Business, Enterprise, sementara GPT-5.5 Pro tersedia untuk pengguna Pro, Business, dan Enterprise di ChatGPT
- API sedang menyesuaikan persyaratan keamanan terpisah dan akan segera menyediakan GPT-5.5 serta GPT-5.5 Pro

Software engineering dan coding agentic

OpenAI sedang membangun infrastruktur agentic AI, dan selama setahun terakhir AI telah sangat mempercepat software engineering
- Dengan GPT-5.5 masuk ke Codex dan ChatGPT, perubahan ini mulai meluas ke riset ilmiah dan pekerjaan komputer yang lebih umum
Berdasarkan Artificial Analysis Coding Index, model ini menawarkan kecerdasan tingkat teratas dengan biaya setengah dari model coding frontier pesaing
GPT-5.5 diperkenalkan sebagai model agentic coding terkuat menurut standar OpenAI
- Di Terminal-Bench 2.0, model ini mencatat 82.7%, dengan evaluasi yang berfokus pada workflow command line kompleks yang membutuhkan perencanaan, iterasi, dan kombinasi alat
- Di SWE-Bench Pro, model ini mencatat 58.6%, dan mampu menyelesaikan lebih banyak tugas end-to-end dalam satu lintasan dibanding model sebelumnya pada penyelesaian isu GitHub nyata
- Dalam evaluasi internal Expert-SWE pun, GPT-5.5 melampaui GPT-5.4
Di seluruh tiga evaluasi coding tersebut, model ini meraih skor lebih tinggi sambil menggunakan token lebih sedikit daripada GPT-5.4
Kekuatan di Codex terlihat pada implementasi, refactoring, debugging, testing, dan verifikasi secara menyeluruh
- Model ini menjadi lebih kuat dalam perilaku engineering nyata seperti menjaga konteks sistem besar, melacak penyebab kegagalan yang ambigu, memeriksa asumsi melalui alat, dan menerapkan perubahan di seluruh codebase

Contoh penggunaan coding dan pengujian awal

Contoh prompt yang disertakan mencakup implementasi aplikasi WebGL + Vite menggunakan data nyata Artemis II
- Aplikasi tersebut merender lintasan Orion, Moon, dan Sun menggunakan data vektor NASA/JPL Horizons
- Skala tampilan diterapkan demi keterbacaan
Para penguji awal menilai GPT-5.5 lebih baik dalam memahami struktur sistem
- Model ini lebih akurat menunjukkan apa yang gagal dan mengapa, di mana perbaikannya harus dilakukan, serta dampaknya pada bagian lain dari codebase
Dan Shipper menguji apakah model bisa membangun ulang redesign pada tingkat yang sama setelah gangguan pascapeluncuran diputar balik, dan hasilnya GPT-5.4 gagal sedangkan GPT-5.5 berhasil
Pietro Schirano menggabungkan branch yang berisi ratusan perubahan frontend dan refactor ke main branch yang sudah banyak berubah dalam sekali jalan hanya sekitar 20 menit
Dalam pengujian oleh engineer senior, reasoning dan autonomy model ini lebih menonjol dibanding GPT-5.4 dan Claude Opus 4.7
- Bahkan tanpa prompt eksplisit, model ini lebih dulu menangkap masalah dan memperkirakan perlunya testing serta review
- Saat diminta mendesain ulang comment system pada collaborative markdown editor, model ini menghasilkan 12-diff stack yang hampir selesai
- Perbaikan implementasi yang dibutuhkan lebih sedikit dari perkiraan, dan tingkat kepercayaan pada rencananya juga lebih tinggi daripada GPT-5.4
Dalam kutipan Michael Truell dari Cursor, terlihat karakteristik bahwa model ini dapat bekerja lebih lama secara berkelanjutan, dan lebih cocok untuk tugas kompleks yang berjalan lama tanpa berhenti terlalu cepat

Pekerjaan pengetahuan umum dan penggunaan komputer

Kekuatan yang terlihat di coding juga berlanjut langsung ke pekerjaan komputer sehari-hari
- Karena lebih memahami maksud, model ini lebih alami dalam menjalankan seluruh proses mulai dari menelusuri informasi, memilih informasi penting, menggunakan alat, memverifikasi hasil, hingga mengubah bahan mentah menjadi output yang berguna
Di Codex, GPT-5.5 lebih kuat daripada GPT-5.4 dalam pembuatan dokumen, spreadsheet, dan slide
- Para alpha tester menyatakan model ini lebih baik daripada model sebelumnya untuk riset operasional, pemodelan spreadsheet, dan mengubah input bisnis yang tidak terstruktur menjadi rencana
Jika digabungkan dengan kemampuan computer use di Codex, model ini dapat melihat layar, mengklik, mengetik, menavigasi antarmuka, dan berpindah dengan presisi antarberbagai alat
Di internal OpenAI sendiri, model ini sudah digunakan dalam workflow nyata, dan saat ini lebih dari 85% karyawan menggunakan Codex setiap minggu
- Pemanfaatannya mencakup software engineering, keuangan, komunikasi, pemasaran, data science, dan product management
Tim komunikasi menganalisis data speaking request selama 6 bulan untuk membangun framework penilaian·risiko, lalu memvalidasi Slack agent yang memproses otomatis permintaan berisiko rendah dan menyerahkan permintaan berisiko tinggi untuk ditinjau manusia
Tim Finance meninjau 24,771 formulir pajak K-1, total 71,637 halaman, dan melalui workflow yang mengecualikan informasi pribadi, pekerjaan itu selesai 2 minggu lebih cepat dibanding tahun sebelumnya
Di tim Go-to-Market, otomatisasi pembuatan laporan bisnis mingguan menghemat 5~10 jam per minggu

GPT-5.5 Thinking dan GPT-5.5 Pro di ChatGPT

GPT-5.5 Thinking di ChatGPT dirancang untuk menjawab masalah yang lebih sulit dengan lebih cepat, serta membuat pekerjaan kompleks berjalan lebih efisien dengan jawaban yang lebih cerdas dan ringkas
- unggul dalam coding, research, sintesis dan analisis informasi, serta pekerjaan yang berpusat pada dokumen, dan особенно menguntungkan saat menggunakan plugin
GPT-5.5 Pro menargetkan tugas yang lebih sulit dan kualitas yang lebih tinggi, dengan latensi yang berkurang sehingga lebih layak diterapkan di pekerjaan nyata
- dibandingkan GPT-5.4 Pro, responsnya menjadi lebih komprehensif, lebih terstruktur, lebih akurat, lebih relevan, dan lebih berguna
- sangat kuat terutama di business, legal, education, dan data science
Model ini juga menunjukkan angka tinggi pada benchmark yang mendekati pekerjaan profesional
- mencatat GDPval 84.9%, OSWorld-Verified 78.7%, dan Tau2-bench Telecom 98.0%
- Tau2-bench Telecom dijalankan tanpa prompt tuning
- FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, dan OfficeQA Pro 54.1% juga turut disajikan
Dalam kutipan Justin Boitano dari NVIDIA, dijelaskan alur di mana model ini disediakan di atas sistem NVIDIA GB200 NVL72, menghadirkan kemampuan end-to-end melalui prompt bahasa alami, mengurangi waktu debugging dari hitungan hari menjadi beberapa jam, dan mengubah eksperimen yang biasanya memakan waktu berminggu-minggu menjadi pekerjaan semalam

Riset sains dan alur kerja riset teknologi

GPT-5.5 juga menunjukkan peningkatan performa dalam alur kerja riset sains dan teknologi
- melampaui sekadar menjawab pertanyaan sulit, model ini lebih mampu mempertahankan loop yang berlanjut dari eksplorasi ide, pengumpulan bukti, verifikasi hipotesis, interpretasi hasil, hingga penentuan eksperimen berikutnya
Di GeneBench, model ini menunjukkan peningkatan yang jelas dibanding GPT-5.4
- ini adalah evaluasi baru yang ditujukan pada analisis data multilangkah di genetics dan quantitative biology
- mencakup data yang ambigu atau mengandung kesalahan, confounder tersembunyi, kegagalan QC, serta implementasi dan interpretasi teknik statistik modern
- tugas-tugas di sini setara dengan proyek beberapa hari bahkan bagi pakar sains
Di BixBench, model ini juga mencatat performa terdepan di antara model-model dengan skor publik
- benchmark ini diperkenalkan sebagai tolok ukur yang mencerminkan bioinformatics dan analisis data dunia nyata
- menunjukkan potensi percepatan setingkat co-scientist di garis depan biomedical research
Versi internal GPT-5.5 dan custom harness juga digunakan untuk menemukan bukti baru terkait Ramsey numbers
- tautan bukti baru
- model ini menemukan bukti atas fakta asimtotik pada off-diagonal Ramsey numbers yang telah lama ada di combinatorics, lalu memverifikasinya dengan Lean
- kontribusinya melampaui kode atau penjelasan, hingga ke argumen matematis yang berguna di bidang riset inti
Para penguji awal memanfaatkan GPT-5.5 Pro lebih sebagai mitra riset daripada mesin jawaban sekali pakai
- model ini meninjau draf secara kritis beberapa kali, melakukan stress test pada argumen teknis, mengusulkan analisis, dan bekerja bersama konteks kode, catatan, serta PDF
- model ini lebih baik dalam membantu alur dari pertanyaan ke eksperimen hingga hasil akhir

Studi kasus riset

Derya Unutmaz dari Jackson Laboratory for Genomic Medicine menganalisis dataset gene-expression dengan 62 sampel dan sekitar 28.000 gen menggunakan GPT-5.5 Pro
- model ini menghasilkan laporan riset yang terperinci, mengungkap bukan hanya ringkasan hasil tetapi juga pertanyaan dan insight utama
- pekerjaan tersebut berskala yang akan memakan waktu berbulan-bulan jika dikerjakan timnya
Bartosz Naskręcki dari Adam Mickiewicz University membuat aplikasi algebraic-geometry dengan Codex dalam 11 menit dari satu prompt
- aplikasi itu memvisualisasikan perpotongan dua quadratic surface dan mengubah kurva hasilnya ke model Weierstrass
- setelah itu ia membuat visualisasi singularity lebih stabil dan bahkan menambahkan exact coefficients yang bisa dipakai ulang untuk pekerjaan lanjutan
- Codex juga membantu mewujudkan visualisasi matematika kustom dan alur kerja computer-algebra yang sebelumnya memerlukan alat khusus
Credit: Bartosz Naskręcki
Dalam kutipan Brandon White dari Axiom Bio, dijelaskan bahwa model ini menalar biochemical dataset yang sangat besar untuk memprediksi human drug outcomes, dan menunjukkan peningkatan akurasi yang bermakna pada evaluasi drug discovery yang paling sulit

Infrastruktur inferensi dan optimasi performa

Untuk menyajikan GPT-5.5 dengan latensi setara GPT-5.4, inferensi harus didesain ulang sebagai sistem terintegrasi, bukan sekadar kumpulan optimasi terpisah
- GPT-5.5 dirancang bersama, dilatih, dan disajikan dengan asumsi sistem NVIDIA GB200 dan GB300 NVL72
Codex dan GPT-5.5 sendiri berkontribusi langsung dalam mencapai target performa
- Codex digunakan untuk dengan cepat mengubah ide menjadi implementasi yang bisa dibenchmark, membuat sketsa pendekatan, menghubungkan eksperimen, dan menemukan optimasi yang membutuhkan investasi lebih dalam
- GPT-5.5 membantu menemukan lalu mengimplementasikan perbaikan inti di dalam stack
- pada akhirnya, model ini juga berkontribusi pada peningkatan infrastruktur yang digunakan untuk melayani dirinya sendiri
Sebagai contoh perbaikan representatif, diperkenalkan load balancing dan partitioning heuristics
- sebelumnya, request di atas accelerator dibagi menjadi jumlah chunk tetap sehingga request besar dan kecil berjalan pada GPU yang sama
- namun jumlah chunk yang statis tidak optimal untuk semua bentuk traffic
- Codex menganalisis pola production traffic selama beberapa minggu dan menulis algoritme heuristic kustom untuk membagi serta menyeimbangkan pekerjaan secara optimal
- pekerjaan ini meningkatkan token generation speed sebesar lebih dari 20%

Keamanan siber dan perlindungan

Menyiapkan model yang andal dalam mendeteksi kerentanan dan melakukan patching ke dunia nyata lebih mirip olahraga tim, dan membutuhkan ketahanan seluruh ekosistem untuk era pertahanan siber berikutnya
- Tautan terkait: next era of cyber defense
Kapabilitas cybersecurity model frontier terus menguat, dan karena kemampuan ini akan tersebar luas, jalur untuk memanfaatkannya guna mempercepat pertahanan siber dan memperkuat ekosistem menjadi semakin penting
GPT-5.5 diposisikan sebagai langkah bertahap tetapi penting menuju AI yang dapat menyelesaikan masalah sulit seperti cybersecurity
- Pada GPT-5.2, cyber safeguards sudah diterapkan lebih dulu untuk membatasi potensi penyalahgunaan cyber
- Di GPT-5.5, classifier yang lebih ketat untuk potensi cyber risk telah diterapkan, dan pada awalnya hal ini bisa terasa mengganggu bagi sebagian pengguna
Selama bertahun-tahun, OpenAI telah menangani cybersecurity sebagai kategori terpisah dalam Preparedness Framework, sambil berulang kali menyesuaikan mitigasi seiring peningkatan kapabilitas
Safeguards tingkat terdepan di industri diterapkan sesuai dengan tingkat cyber capability ini
- Safeguard khusus cyber pertama kali diperkenalkan di GPT-5.2, lalu diuji, disempurnakan, dan diperluas pada setiap peluncuran berikutnya
- Di GPT-5.5, perlindungan terhadap aktivitas berisiko tinggi, permintaan cyber sensitif, dan penyalahgunaan berulang semakin diperkuat
- Pendekatan akses yang luas dimungkinkan berkat investasi pada keamanan model, penggunaan terverifikasi, dan pemantauan penggunaan yang tidak diizinkan
- Selama berbulan-bulan, robustness dikembangkan, diuji, dan ditingkatkan bersama para ahli eksternal
- Sambil memudahkan developer melindungi kode mereka, kontrol yang lebih kuat diterapkan pada workflow cyber yang dapat memudahkan pelaku jahat menimbulkan kerugian
Perluasan akses untuk tujuan defensif juga berjalan bersamaan
- Melalui Trusted Access for Cyber, akses ke model yang cyber-permissive disediakan, dengan titik awalnya Codex
- Bagi pengguna terverifikasi yang memenuhi trust signals tertentu, fitur cybersecurity lanjutan GPT-5.5 disediakan dengan lebih sedikit pembatasan
- Organisasi yang bertanggung jawab atas pertahanan critical infrastructure dapat mengajukan akses ke model cyber-permissive seperti GPT-5.4-Cyber
- Tujuannya adalah memberikan alat untuk pekerjaan keamanan yang sah kepada pihak pertahanan terverifikasi dengan hambatan yang lebih rendah
- Tautan pendaftaran: chatgpt.com/cyber
Termasuk juga kolaborasi dengan mitra pemerintah
- Mereka sedang bersama-sama mengeksplorasi bagaimana AI canggih dapat mendukung pejabat publik yang melindungi infrastruktur penting seperti sistem digital untuk perlindungan data pajak, jaringan listrik, dan pasokan air bersih masyarakat setempat
Kapabilitas biological/chemical dan cybersecurity GPT-5.5 diklasifikasikan sebagai High dalam Preparedness Framework
- Meskipun belum mencapai tingkat cybersecurity capability Critical, evaluasi dan pengujian menunjukkan kapabilitas cyber GPT-5.5 satu tingkat lebih tinggi daripada GPT-5.4
Sebelum peluncuran, model ini menjalani seluruh safety and governance process
- Ini mencakup evaluasi preparedness, pengujian per bidang, evaluasi target baru untuk biology dan cybersecurity tingkat lanjut, serta pengujian ketahanan yang ketat bersama para ahli eksternal
- Rincian lebih lanjut tersedia di GPT-5.5 system card
Pendekatan ini adalah bagian dari strategi AI resilience yang dibutuhkan di era model yang lebih kuat
- AI yang kuat juga harus tersedia bagi orang-orang yang melindungi sistem, institusi, dan publik, dengan akses berbasis kepercayaan, safeguards yang diperkuat sebanding dengan kapabilitas, serta kemampuan operasional untuk mendeteksi dan merespons penyalahgunaan serius sebagai jalur utama yang diajukan

Paket yang tersedia dan harga

Saat ini di ChatGPT dan Codex, GPT-5.5 sedang diluncurkan untuk pengguna Plus, Pro, Business, dan Enterprise, sementara GPT-5.5 Pro tersedia di ChatGPT untuk Pro, Business, dan Enterprise
Di ChatGPT, GPT-5.5 Thinking tersedia untuk Plus, Pro, Business, dan Enterprise
- GPT-5.5 Pro ditujukan untuk pertanyaan yang lebih sulit dan akurasi yang lebih tinggi, dan tersedia di Pro, Business, dan Enterprise
Di Codex, GPT-5.5 tersedia untuk paket Plus, Pro, Business, Enterprise, Edu, Go, dan memiliki 400K context window
- Fast mode juga tersedia, dengan kecepatan pembuatan token 1,5 kali lebih cepat dan biaya 2,5 kali lipat
gpt-5.5 untuk developer API akan segera tersedia di Responses API dan Chat Completions API
- Harganya tercantum sebagai 5 dolar per 1M token input, 30 dolar per 1M token output, dengan 1M context window
- Harga Batch dan Flex adalah setengah dari tarif API standar, sedangkan Priority processing tersedia dengan tarif 2,5 kali lipat
gpt-5.5-pro juga akan dirilis di API, dengan target akurasi yang lebih tinggi
- Harganya tercantum sebagai 30 dolar per 1M token input dan 180 dolar per 1M token output
- Informasi harga lengkap ditautkan ke pricing page
GPT-5.5 lebih mahal daripada GPT-5.4, tetapi juga memiliki kecerdasan dan efisiensi token yang lebih tinggi
- Di Codex, pengalaman disesuaikan agar bagi sebagian besar pengguna dapat memberikan hasil yang lebih baik dengan token lebih sedikit dibanding GPT-5.4
- Penggunaan yang longgar tetap disediakan di seluruh tingkatan langganan

Benchmark detail

Coding
- Pada SWE-Bench Pro (Public), GPT-5.5 mencatat 58.6%, GPT-5.4 57.7%, Claude Opus 4.7 64.3%, dan Gemini 3.1 Pro 54.2%
- Terminal-Bench 2.0 mencatat GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, dan Gemini 3.1 Pro 68.5%
- Expert-SWE (Internal) menunjukkan GPT-5.5 73.1% dan GPT-5.4 68.5%
Tugas profesional
- GDPval (wins or ties) mencatat GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, dan Gemini 3.1 Pro 67.3%
- FinanceAgent v1.1 mencatat GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, dan Gemini 3.1 Pro 59.7%
- Investment Banking Modeling Tasks (Internal) mencatat GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, dan GPT-5.4 Pro 83.6%
- OfficeQA Pro mencatat GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, dan Gemini 3.1 Pro 18.1%
Penggunaan komputer dan vision
- OSWorld-Verified mencatat GPT-5.5 78.7%, GPT-5.4 75.0%, dan Claude Opus 4.7 78.0%
- MMMU Pro (no tools) menunjukkan GPT-5.5 dan GPT-5.4 sama-sama 81.2%, sementara Gemini 3.1 Pro 80.5%
- MMMU Pro (with tools) mencatat GPT-5.5 83.2% dan GPT-5.4 82.1%
Penggunaan alat
- BrowseComp mencatat GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, dan Gemini 3.1 Pro 85.9%
- MCP Atlas mencatat GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, dan Gemini 3.1 Pro 78.2%
- Toolathlon mencatat GPT-5.5 55.6%, GPT-5.4 54.6%, dan Gemini 3.1 Pro 48.8%
- Tau2-bench Telecom berdasarkan prompt asli mencatat GPT-5.5 98.0% dan GPT-5.4 92.8%
- Catatan untuk MCP Atlas menyebutkan bahwa ini adalah hasil setelah pembaruan terbaru Scale AI pada April 2026
- Catatan untuk Tau2-bench Telecom menegaskan bahwa hasil ini dievaluasi tanpa prompt adjustment, dan hasil prompt adjustment dari lab lain tidak disertakan
Akademik
- GeneBench mencatat GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, dan GPT-5.4 Pro 25.6%
- FrontierMath Tier 1–3 mencatat GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, dan Gemini 3.1 Pro 36.9%
- FrontierMath Tier 4 mencatat GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, dan Gemini 3.1 Pro 16.7%
- BixBench mencatat GPT-5.5 80.5% dan GPT-5.4 74.0%
- GPQA Diamond mencatat GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, dan Gemini 3.1 Pro 94.3%
- Humanity's Last Exam (no tools) mencatat GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, dan Gemini 3.1 Pro 44.4%
- Humanity's Last Exam (with tools) mencatat GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, dan Gemini 3.1 Pro 51.4%
Keamanan siber
- Capture-the-Flags challenge tasks (Internal) mencatat GPT-5.5 88.1% dan GPT-5.4 83.7%
- CyberGym mencatat GPT-5.5 81.8%, GPT-5.4 79.0%, dan Claude Opus 4.7 73.1%
- Catatan menyebutkan bahwa hasil ini berasal dari perluasan CTF tersulit yang tertulis di system card serta penambahan challenge berkesulitan tinggi lainnya
Konteks panjang
- Graphwalks BFS 256k f1 mencatat GPT-5.5 73.7%, GPT-5.4 62.5%, dan Claude Opus 4.7 76.9%
- Graphwalks BFS 1mil f1 mencatat GPT-5.5 45.4%, GPT-5.4 9.4%, dan Claude Opus 4.6 41.2%
- Graphwalks parents 256k f1 mencatat GPT-5.5 90.1%, GPT-5.4 82.8%, dan Claude Opus 4.7 93.6%
- Graphwalks parents 1mil f1 mencatat GPT-5.5 58.5%, GPT-5.4 44.4%, dan Claude Opus 4.6 72.0%
- OpenAI MRCR v2 8-needle disajikan menurut panjang konteks: 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, dan 512K-1M 74.0%
- Pada item yang sama, GPT-5.4 masing-masing mencatat 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, dan 36.6%
- Pada rentang 128K-256K tercantum Claude Opus 4.7 59.2%, dan pada rentang 512K-1M tercantum Claude Opus 4.7 32.2%
Penalaran abstrak
- ARC-AGI-1 (Verified) mencatat GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, dan Gemini 3.1 Pro 98.0%
- ARC-AGI-2 (Verified) mencatat GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, dan Gemini 3.1 Pro 77.1%
- Disebutkan bahwa evaluasi seri GPT dilakukan dalam lingkungan riset dengan reasoning effort disetel ke xhigh, dan dalam beberapa kasus output-nya mungkin sedikit berbeda dari ChatGPT produksi

1 komentar

GN⁺ 6 hari lalu

Komentar Hacker News

Ungkapan bahwa kehilangan akses GPT-5.5 di NVIDIA terasa seperti kehilangan lengan dan kaki terdengar jauh lebih mengerikan daripada yang mungkin dimaksudkan
Rasanya ini berlaku untuk ketergantungan pada model coding frontier secara umum, dan makin bagus performanya, makin cepat orang bersandar padanya saat ngoding
Setelah mengalaminya sendiri, rasa tidak nyamannya cukup besar. Sekarang, alih-alih sabar menulis kode manual, menyelesaikannya sekaligus dengan model terasa sekitar 10 kali lebih cepat, dan peranku pun berubah
Luar biasa bahwa kita bisa membuat banyak hal berjalan, tetapi kalau token habis, pada dasarnya pekerjaan juga berhenti
Saat Claude mati, kadang jalan-jalan justru memberi leverage lebih besar daripada memaksa diri menulis kode. Jika satu jam kemudian Claude hidup lagi, kemajuannya lebih besar daripada kelelahan mencoba memecahkan masalah secara manual sambil bergulat dengan kode buatan LLM
Bagaimanapun juga, kondisi seperti ini tetap terasa agak mengkhawatirkan
- Rasanya teori tenaga kerja sendiri sedang dibalik oleh LLM
  Pasar saat ini berdiri di atas asumsi bahwa tenaga kerja teratomisasi dan daya tawarnya lemah, sehingga modal punya daya tawar jauh lebih besar dan pada praktiknya menentukan harga tenaga kerja
  Tapi bagaimana kalau tenaga kerja itu disediakan oleh perusahaan lain yang lebih besar, dan tidak seperti tenaga kerja tradisional, suplai tenaga kerja itu bisa diputus tanpa batas waktu
  Kini tenaga kerja telah menjadi bentuk lain dari modal, dan modal tidak perlu makan
  Perusahaan yang tidak memakai model sendiri tampaknya akan merasakan akibatnya secara langsung
- Ini juga bisa dilihat sebagai sesuatu yang tidak terlalu berbeda dari memakai abstraksi library
  Membangun jadi lebih cepat, jumlah kode yang ditulis langsung berkurang, dan pengelolaan state internal atau memori ditangani oleh library
  Sebagian orang mungkin tidak nyaman bergantung pada pemanggilan library alih-alih memanipulasi pointer dan malloc() secara langsung, tetapi bagi yang lain ini terasa membebaskan karena memungkinkan fokus pada arsitektur tingkat lebih tinggi tanpa tenggelam dalam perpindahan konteks level rendah
- Ada cara memakai ini dengan sengaja agar tidak menggali kuburku terlalu cepat
  Saya sering meminta dibuatkan CLI atau alat mandiri, bukan jawaban jadi terlebih dahulu
  Saya juga menanyakan bagaimana model sampai pada kesimpulan itu agar sudut pandang saya meluas, dan memintanya menjelaskan cara klasifikasinya di level metadata internalnya sendiri
  Terutama pada codebase besar yang kesulitannya bukan pada konsepnya melainkan pada ukuran graf referensi, saya mencoba memakainya ke arah yang benar-benar meningkatkan kemampuan saya memecahkan masalah
- Jika model lokal tetap hanya tertinggal secukupnya dari model hosted terbaru, misalnya sekitar 12 bulan, dan hardware lokal juga tetap terjangkau, risikonya mungkin terbatas
  Sebab meski model hosted hilang atau jadi terlalu mahal, yang hilang hanya sedikit selisih performa itu
  Tentu saja, kedua asumsi ini sama sekali tidak jelas akan terjadi, jadi ini lebih seperti harapan saja
- Kalau memikirkan kepentingan harga saham NVIDIA dan OpenAI, komentar seperti itu juga tidak aneh
  Dan terus terang masih sulit mempercayai slogan produktivitas 10x yang terus diulang
GPT-5.5 dirilis hari ini, tetapi penerapannya di ChatGPT dan Codex dilakukan bertahap selama beberapa jam
Demi stabilitas layanan, seperti rilis sebelumnya, akses dibuka secara bertahap, biasanya dimulai dari Pro/Enterprise lalu turun ke Plus
Jadi kalau belum langsung terlihat, diminta untuk cek lagi nanti
Menunggu secara acak memang bisa menjengkelkan, tetapi katanya itu dilakukan demi stabilitas
Mengaku bekerja di OpenAI
- Saya mencoba menjalankan OpenClaw dengan GPT-5.4 API xhigh, tetapi sama sekali tidak bisa membuat modelnya benar-benar bekerja
  Saya mencoba memakainya sebagai pengganti setelah OAuthgate Anthropic, tetapi bahkan sub-tugas yang cepat, aman, dan tidak berbahaya pun tidak bisa diselesaikan
  Percakapannya hanya berakhir dengan permintaan maaf tanpa henti seperti “seharusnya saya melakukan X di sini” “benar, saya gagal” “kalau begitu lakukan sekarang” “harusnya begitu, tapi tidak saya lakukan”
  Belakangan GLM, Kimi, Minimax bisa menyelesaikannya tanpa masalah, jadi rasanya makin absurd dan akhirnya OpenAI langsung saya tinggalkan
- Kalau ada dashboard rollout publik, kebingungannya pasti jauh berkurang
  Lebih bagus lagi kalau UI menunjukkan bahwa modelnya memang ada, tetapi belum dibuka untuk akun saya
  Kalau sampai ada ETA tentu ideal, walau saat rollout berjalan masalah bisa saja muncul sehingga sulit diprediksi
- Selamat atas perilisannya
  Saya penasaran apakah Images 2.0 juga dirilis bersama di dalam ChatGPT, atau untuk sementara masih tetap menjadi fitur khusus API/Playground
- Dari sudut pandang pengguna Plus, saya ragu mencoba Codex karena tidak tahu akan memakan berapa banyak batas penggunaan
- Saya juga penasaran apakah fine-tuning GPT-5.5 akan segera hadir
Memang belum ada akses API resmi, tetapi belakangan OpenAI tampak pada dasarnya membiarkan backdoor Codex API yang dipakai OpenClaw
https://twitter.com/steipete/status/2046775849769148838 dan https://twitter.com/romainhuet/status/2038699202834841962
Backdoor API itu juga sudah mencakup GPT-5.5
Jadi saya mencoba contoh pelikan, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
dengan plugin baru untuk LLM https://github.com/simonw/llm-openai-via-codex
Setelah reasoning effort dinaikkan ke xhigh, hasil pelikannya jauh lebih baik
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
- Pelikan model lokal yang saya unggah kemarin terlihat lebih bagus daripada ini
  Meski begitu, yang ini lucu juga karena posisinya menyilangkan kaki
- Terus terang ini jelek sekali
  Sudah sampai versi 5.5, masa masih tidak bisa menggambar satu rangka sepeda dasar dengan benar
  Roda depannya tidak punya struktur yang memungkinkan berbelok ke samping, tetapi gambarnya gagal menangkap itu
- Cukup mengejutkan bahwa dengan setelan default hanya memakai 39 reasoning tokens, hasilnya bisa sejauh itu
  Saya tidak tahu pasti apa itu reasoning token, tetapi jumlah tokennya tetap tampak sangat sedikit
- Saya penasaran apakah pemakaian API langsung seperti ini diperbolehkan oleh ketentuan layanan
  Setahu saya Anthropic sangat tidak suka penggunaan model seperti ini
- Saya penasaran kenapa ini jauh lebih buruk dalam menggambar dibanding beberapa hasil terbaru lainnya
  Bahkan model lokal open-weight seperti Qwen yang diunggah kemarin terlihat lebih baik
Semua orang membicarakan gating Mythos milik Anthropic dan marketing CyberGym 83%, sementara OpenAI begitu saja merilis GPT-5.5 dan skornya 82%
Fakta bahwa semua orang bisa langsung mencobanya jauh lebih penting
Kalau bekerja di bidang keamanan siber ofensif/defensif, menurut saya lebih tepat menyentuh langsung model yang benar-benar dirilis seperti ini daripada terpancing promosi berlebihan
Tidak pernah terpikir saya akan berkata begini, tetapi sekarang OpenAI justru terlihat seperti pilihan yang lebih terbuka lagi
- Hype yang sebenarnya adalah ketika Anthropic mengumumkan Mythos, semua orang langsung sadar bahwa OpenAI akan merilis model pesaing dalam beberapa minggu dan Sam tidak akan membatasi aksesnya
  Itu sebabnya industri keamanan ketakutan, karena mereka merasa hanya punya kira-kira dua minggu untuk menutup zero-day baru, lalu setelah itu bisa masuk open season di mana para black hat menemukannya massal dan mengeksploitasinya
- Dibanding Anthropic, OpenAI memang sejak awal lebih terbuka
  Anthropic tidak pernah merilis model publik, tidak pernah secara sukarela membuka source Claude Code, dan bahkan tokenizer pun tidak dirilis
- Bukankah OpenAI juga marah saat diberi pertanyaan keamanan siber, meminta unggah identitas pemerintah, lalu kalau tidak, diam-diam mengarahkan ke model yang lebih lemah
  Di dokumentasinya juga tertulis bahwa pekerjaan terkait keamanan siber bisa fallback ke GPT-5.2 jika terkena deteksi otomatis
  https://developers.openai.com/codex/concepts/cyber-safety
  https://chatgpt.com/cyber
- Saya mengabaikan semua berita hype
  Bagi saya Anthropic hampir terasa seperti perwujudan bualan
  Setelah dulu membaca Cialdini, pertunjukan gaya Anthropic jadi terasa membosankan
  Sebaliknya OpenAI sangat cerdas. Setelah Claude naik daun, mereka sempat menghilang dari headline, tetapi sekarang berkat basis pengguna yang masif, cukup mengikuti siklus rilis Anthropic saja sudah cukup untuk membuat lawannya tampak konyol
  Dari sudut pandang Anthropic, sepertinya setiap ada versi GPT baru, situasinya akan makin menyedihkan, dan ujungnya tampak seperti OpenAI akan menguasai semuanya
- Saya juga curiga OpenAI melempar pertanyaan siber ke model yang lebih bodoh
Saya ingin orang melihat bagian harga/batas penggunaan di halaman ini
https://developers.openai.com/codex/pricing?codex-usage-limi...
Lihat perbedaan Local Messages antara 5.3, 5.4, dan 5.5
Saya memang membaca klaim bahwa 5.5 lebih efisien sehingga titik impasnya mirip dengan 5.4, tetapi bagaimanapun terlihat seperti batas makin ketat dan harga makin naik
- Berdasarkan API, harga GPT-5.5 dua kali lipat GPT-5.4, sekitar empat kali GPT-5.1, dan sekitar 10 kali Kimi-2.6
  Pelajaran yang tampaknya dipetik dari kasus Anthropic adalah bahwa developer sangat cepat bergantung, bahkan kecanduan, pada coding agent, jadi untuk peningkatan kecil pun mereka akan mau membayar sebanyak itu
Prototipe arena dungeon 3D yang dibuat dengan Codex dan GPT terlihat cukup meyakinkan
Codex menangani arsitektur game, implementasi TypeScript/Three.js, sistem pertarungan, encounter musuh, dan feedback HUD, sementara tekstur lingkungan dibuat oleh GPT, dan model karakter serta animasinya dibuat dengan alat pembuat aset pihak ketiga
Kemungkinan besar alasan visualnya terlihat cukup baik juga karena mesh-nya bukan dibuat langsung oleh GPT-5.5, melainkan oleh alat terpisah
Melihat ini, rasanya kita sedang menuju masa seperti era Flash dulu, ketika gamer atau developer hobi bisa cepat membuat konsep game lalu langsung memublikasikannya di web
Khususnya Three.js bahkan bukan game engine, tetapi mulai terasa seperti alat inti de facto untuk merancang game dengan AI
- Selama 3 tahun terakhir saya terus bereksperimen dengan Three.js dan AI, dan di 5.4 saya merasakan lompatan yang sangat besar
  Kalau khusus Three.js, itu adalah loncatan generasi tunggal terbesar, terutama pada shader GLSL, dan juga membaik dalam menyusun scene yang terpecah ke banyak halaman/komponen
  Membuat shader utuh dari nol masih sulit, tetapi kemampuan memodifikasi shader yang sudah ada sekarang cukup berguna
  Di 5.2 ke bawah, model benar-benar buruk dalam pola one canvas, multiple page untuk mempertahankan satu canvas latar di banyak route, tetapi 5.4, walau masih perlu sedikit dibimbing, jauh lebih responsif terhadap prompt refactor dan optimasi
  Saya antusias untuk menguji seperti apa 5.5 dalam praktik
- Era seperti Flash sebenarnya sudah datang sejak beberapa waktu lalu, dan bottleneck-nya selalu kreativitas
- Saya sudah sangat sering menerima bantuan LLM untuk game dan proyek berbasis Three.js, dan hasilnya bagus
  Visualisasi jam aneh yang saya buat juga sangat bergantung pada ini
  Ini memang bukan game engine, tetapi untuk WebGL 3D di web, secara praktis sudah menjadi standar, dan karena sudah lama ada, data latihnya juga sangat besar
  Sebelum era LLM, saya lebih bergantung pada Babylon.js yang punya fitur level lebih tinggi
- Seorang teman sedang membuat Jamboree
  Dulu namanya Spielwerk, dan ini aplikasi iOS untuk membuat dan membagikan game
  Semuanya berbasis web, jadi mudah dibagikan
  https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
- LLM masih belum bisa penalaran spasial
  Saya belum mencoba GPT, tetapi dengan Claude, sekeras apa pun prompt engineering, tetap tidak bisa menyelesaikan Rubik's Cube, dan bahkan Opus 4.6 hanya bisa benar sekitar 70% dari puzzle sebelum mentok
  Satu percobaan bisa menelan biaya 20 dolar, jadi biayanya juga sulit ditanggung
  Kalau penalaran tiga dimensi benar-benar bisa dibuat berjalan, pendekatan yang sama mungkin bisa diperluas ke soal-soal matematika yang sekarang belum bisa diselesaikan
  Saya sedang mempertimbangkan untuk membuka server MCP Rubik's Cube saya agar orang bisa menantang diri, apakah ada yang bisa menyelesaikan kubus hanya dengan prompt
Dalam pengumuman kali ini, bagian yang lebih menarik daripada benchmark adalah bahwa Codex menganalisis pola trafik nyata selama beberapa minggu untuk meningkatkan utilisasi GPU, lalu menulis algoritma heuristik kustom untuk pembagian dan penyeimbangan pekerjaan sehingga kecepatan generasi token naik lebih dari 20%
Area di mana LLM agentik bisa melakukan optimasi efisiensi komputasi seperti ini tampaknya berdampak besar, tetapi diuji jauh lebih sedikit dibanding benchmark
Dari pengalaman saya, di bagian ini Opus masih lebih baik daripada GPT/Codex, tetapi karena OpenAI sedang mendapat manfaat nyata dari maksimalisasi performa seperti ini di bawah tekanan biaya dan kapasitas, mereka tampaknya akan terus mendorong ke arah ini
- Saat mengerjakan pemrosesan data berkinerja tinggi di Rust, saya menghadapi hambatan performa yang perlu ditingkatkan lebih dari 100x
  Saya teringat optimasi code golf FizzBuzz Intel yang dulu terkenal, lalu saya memberi gemini pro kode saya sambil meminta “tolong usulkan optimasi cerdas seperti itu”, dan sarannya benar-benar keren
  LLM terus mengejutkan saya setiap hari
- KernelBench memang sudah menguji optimasi kernel CUDA
  Dan karena tiap perusahaan juga tahu bahwa optimasi infrastruktur dan model mereka sendiri adalah jalur utama untuk menang dalam kompetisi, saya yakin bagian ini sedang mereka garap dengan sangat serius
- Masalahnya, klaim seperti ini terlalu empiris sehingga sulit direproduksi
  Menyenangkan melihat hal-hal di luar benchmark tradisional seperti MMLU, tetapi tanpa eksperimen terkontrol yang layak, angka-angka seperti ini tidak terlalu membantu
Kalau melihat angkanya, Mythos vs GPT-5.5 masih terpaut jauh di SWE-bench Pro, tetapi selain itu tampak cukup mirip
SWE-bench Pro 77.8% vs 58.6%
Terminal-bench-2.0 82.0% vs 82.7%
GPQA Diamond 94.6% vs 93.6%
H. Last Exam 56.8% vs 41.4%
H. Last Exam (tools) 64.7% vs 52.2%
BrowseComp 86.9% vs 84.4%, Pro 90.1%
OSWorld-Verified 79.6% vs 78.7%
Sumber angka Mythos adalah https://www.anthropic.com/glasswing
- Mythos hanya berarti jika benar-benar bisa dipakai
  Saat memakai Opus 4.7 sekarang, otonominya terasa sangat di-nerf, dan karena apa yang disebut keamanan, pembatasannya berat
  Jadi saya tidak begitu yakin hasil nyatanya akan sehebat yang diiklankan Anthropic
- Menurut halaman rilis Anthropic, tim Claude mengonfirmasi adanya hafalan SWE-bench, dan tes itu memang masuk ke data latih
  Ada di sini
  https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
- Saya sempat melihat lebih dekat SWE-bench Verified, dan angka Mythos menyisakan banyak pertanyaan
  Saya mengambil submission resmi di https://github.com/SWE-bench/experiments/tree/main/evaluatio..., menyaring model sejak Sonnet 4, lalu menjumlahkan seluruh 500 soal; tingkat penyelesaian gabungannya tepat 93%
  Tetapi kalau Mythos mencetak 93.7%, itu berarti ia menyelesaikan soal-soal yang tidak bisa dipecahkan model lain mana pun, dan ketika saya melihat soal-soal itu langsung, rasanya makin mencurigakan
  Sisa 7% soal tampak hampir mustahil diselesaikan tanpa lebih dulu melihat test patch, dan solusi nyatanya berjalan sangat berbeda dari deskripsi masalah hingga terasa seperti sedang menyelesaikan masalah lain sama sekali
  Saya tidak ingin langsung menuduh Mythos curang, tetapi mungkin saja ia mengingat terlalu banyak status repository sehingga dari diff di memorinya ia bisa melakukan reverse inference atas pernyataan masalah yang sebenarnya
  Kalau bukan begitu, sulit menjelaskan bagaimana ia bisa menafsirkan deskripsi masalah yang begitu ambigu dengan sangat tepat
- Satu benchmark saja tidak berarti apa-apa
  Setiap benchmark memang selalu memunculkan hasil aneh
Tetap saja mengecewakan bahwa tingkat halusinasi 86% masih setinggi itu
Sebagai pembanding, Opus ada di sekitar 36%
Sumbernya https://artificialanalysis.ai/models?omniscience=omniscience...
- Grok ada di 17% dan itu yang terendah, sementara kebanyakan model ada di atas 80%, rasanya aneh
  Tergantung pertanyaannya, halusinasi justru terasa lebih dekat ke 100%, jadi benchmark ini secara intuitif sulit diterima
- Ada yang aneh, rasanya Haiku tidak mungkin tampil sebaik itu
- Ini terbaca seperti sinyal bahwa vendor memang menginginkan perilaku seperti itu
  Orang yang bertanya kemungkinan besar tidak sepenuhnya memahami persoalannya, jadi apa pun hasilnya, mereka tampaknya tetap lebih menyukai jawaban yang terdengar penuh percaya diri
  Tujuannya seolah menjual kesan terlihat kompeten alih-alih kemampuan teknologi yang sebenarnya
  LLM bisa menghancurkan produk, jadi kalau ada yang percaya mesin pikiran miliarder bisa menggantikan karyawan dan menyuruhmu menghabiskan 75% anggaran tenaga kerja untuk itu, ya silakan saja tertipu dengan senang hati
Model ini sangat kuat untuk tugas jangka panjang, dan Codex sekarang juga punya heartbeats sehingga statusnya bisa terus dipantau
Katanya kalau diberi masalah sulit yang memakan waktu berjam-jam tetapi punya kendala yang bisa diverifikasi, baru akan terlihat seberapa bagus model ini
Mengaku bekerja di OpenAI
- Kedengarannya fitur yang bagus dan saya ingin cepat-cepat mengujinya
  Belakangan saya lelah karena model lain, terutama Opus, sering berhenti sendiri di tengah pekerjaan
- Dalam evaluasi internal Canva, GPT-5.5 berhasil menyelesaikan banyak tantangan frontier jangka panjang, dan untuk beberapa di antaranya ini pertama kalinya dari semua model AI yang kami uji
  Selamat atas peluncurannya
- Perlu penjelasan apa tepatnya yang dimaksud dengan heartbeats

GPT-5.5

Gambaran model dan cakupan peluncuran

Software engineering dan coding agentic

Contoh penggunaan coding dan pengujian awal

Pekerjaan pengetahuan umum dan penggunaan komputer

GPT-5.5 Thinking dan GPT-5.5 Pro di ChatGPT

Riset sains dan alur kerja riset teknologi

Studi kasus riset

Infrastruktur inferensi dan optimasi performa

Keamanan siber dan perlindungan

Paket yang tersedia dan harga

Benchmark detail

Coding

Tugas profesional

Penggunaan komputer dan vision

Penggunaan alat

Akademik

Keamanan siber

Konteks panjang

Penalaran abstrak

Bacaan terkait

1 komentar

Komentar Hacker News