Pratinjau GPT‑5.6 Sol: model generasi berikutnya
(openai.com)- OpenAI membuka seri GPT‑5.6 dalam pratinjau terbatas, menghadirkan Sol sebagai flagship, Terra untuk pekerjaan sehari-hari, dan Luna berbiaya rendah
- Sol memperkuat kemampuan agen dalam coding, biologi, dan keamanan siber, serta mendukung penalaran yang lebih dalam dan pemanfaatan subagen melalui
maxreasoning effort dan modeultra - Kinerja keamanan siber meningkat di ExploitBench dan ExploitGym, tetapi dalam kondisi evaluasi Chromium dan Firefox, model ini tidak mampu secara otonom menghasilkan full-chain exploit yang fungsional sehingga tidak melewati ambang Cyber Critical
- Pratinjau ini akan lebih dulu tersedia di API dan Codex untuk sejumlah mitra tepercaya dan organisasi, dengan persiapan menuju rilis yang lebih luas melalui prosedur pembatasan sesuai permintaan pemerintah AS
- Harganya per 1 juta token adalah Sol $5 input / $30 output, Terra $2.50 input / $15 output, Luna $1 input / $6 output; penulisan cache dikenai 1.25x dan pembacaan cache mendapat diskon 90%
Cakupan pratinjau seri GPT‑5.6
- OpenAI terlebih dahulu memperkenalkan keluarga produk GPT‑5.6 dalam pratinjau terbatas
- Sol: model flagship
- Terra: model seimbang untuk pekerjaan sehari-hari
- Luna: model cepat dan murah
- Terra menawarkan kinerja yang kompetitif dengan GPT‑5.5, tetapi dengan harga 2x lebih murah
- Luna memberikan kemampuan kuat dengan biaya terendah milik OpenAI
- GPT‑5.6 Sol dirilis bersama tumpukan keamanan paling kokoh yang pernah dibangun OpenAI sejauh ini
- aktivitas berisiko tinggi
- permintaan siber sensitif
- penyalahgunaan berulang
- pencarian celah dan pressure test terhadap serangan nyata
Rilis terbatas dan koordinasi dengan pemerintah
- OpenAI berencana menyediakan ketersediaan umum untuk GPT‑5.6 Sol, Terra, dan Luna dalam beberapa minggu ke depan
- Dalam proses koordinasi berkelanjutan dengan pemerintah AS, OpenAI membagikan rencana pra-rilis dan kemampuan model
- Atas permintaan pemerintah, OpenAI lebih dulu memulai pratinjau terbatas untuk sejumlah kecil mitra tepercaya yang partisipasinya dibagikan kepada pemerintah
- OpenAI menilai prosedur akses pemerintah seperti ini tidak seharusnya menjadi default jangka panjang
- karena pengguna, developer, perusahaan, pembela siber, dan mitra global bisa tidak mendapatkan akses ke alat yang mereka butuhkan
- Prosedur jangka pendek ini adalah jalur menuju rilis yang lebih luas dalam beberapa minggu ke depan
- sambil mengembangkan prosedur yang dapat diulang bersama pemerintah, kerangka kerja Executive Order siber, dan rilis model mendatang
Kemampuan model dan evaluasi
- GPT‑5.6 Sol diperkenalkan sebagai model terkuat OpenAI
- Model ini menunjukkan kemampuan agen yang meningkat dalam evaluasi coding, biologi, dan keamanan siber
- Evaluasi tambahan tentang keamanan dan kesiapan disertakan dalam GPT‑5.6 Preview system card
- OpenAI berencana membagikan paket hasil evaluasi yang diperluas saat rilis lebih luas
-
Mode penalaran
- GPT‑5.6 memperkenalkan
maxreasoning effort yang memungkinkan Sol bernalar lebih lama dan lebih dalam - Mode
ultrayang baru melampaui kemampuan agen tunggal dengan memanfaatkan subagen untuk mempercepat tugas kompleks
- GPT‑5.6 memperkenalkan
-
Coding dan biologi
- GPT‑5.6 Sol mencatat performa terbaik baru di Terminal‑Bench 2.1, yang mengevaluasi workflow command line
- Benchmark ini menguji tugas command line yang memerlukan perencanaan, iterasi, dan orkestrasi alat
- Di GeneBench v1, model ini menghasilkan hasil yang lebih kuat dibanding GPT‑5.5 sambil menggunakan token lebih sedikit
- GeneBench v1 mengevaluasi analisis genomik jarak panjang dan biologi kuantitatif
-
Keamanan siber
- GPT‑5.6 Sol adalah model OpenAI yang paling mampu untuk pekerjaan keamanan siber
- Model ini menggeser frontier performa-efisiensi pada tugas keamanan jangka panjang, termasuk riset kerentanan dan exploit
- Di ExploitBench, hasilnya kompetitif dengan Mythos Preview sambil hanya menggunakan sekitar sepertiga token output
- Di ExploitGym, Sol, Terra, dan Luna semuanya menunjukkan peningkatan kuat dalam kemampuan siber seiring bertambahnya penalaran
- ExploitGym adalah benchmark yang dibuat peneliti UC Berkeley bersama OpenAI dan frontier lab lainnya
Kemampuan siber dan perlindungan keamanan
- GPT‑5.6 Sol, Terra, dan Luna dikembangkan dengan pengaman OpenAI paling kokoh yang disesuaikan dengan kemampuan masing-masing model
- Seiring kemampuan model meningkat, pengaman dirancang agar tetap bertahan bahkan di bawah tekanan adversarial nyata
- OpenAI tetap berupaya mempertahankan akses untuk pekerjaan defensif yang sah
- code review
- riset kerentanan
- pengembangan patch
- debugging
- pelatihan keamanan
- pengujian defensif
- Tujuannya adalah membuat aktivitas ofensif yang dilarang menjadi lebih sulit, lebih tidak pasti, dan lebih mudah terdeteksi, tanpa membatasi penggunaan yang bermanfaat secara tidak perlu
- Menurut evaluasi OpenAI, ada manfaat besar untuk pekerjaan defensif yang sah, sementara penggunaan ofensif yang dilarang dibatasi secara bermakna
-
Ambang Cyber Critical
- GPT‑5.6 Sol tidak melewati ambang Cyber Critical menurut Preparedness Framework
- Dalam evaluasi terkait Chromium dan Firefox, model ini mengidentifikasi bug dan exploit primitive
- Dalam kondisi pengujian, model ini tidak mampu secara otonom membuat full-chain exploit yang fungsional
- Ambang benchmark tidak selalu dapat menangkap semua cara model digunakan atau dikombinasikan dengan alat lain
- Karena ketidakpastian ini dan peningkatan kemampuan secara umum, OpenAI menerapkan pengaman yang lebih kuat dan peluncuran bertahap secara bersamaan
Tumpukan keamanan berlapis
- Penyalahgunaan yang disengaja atau adaptif sulit dihentikan hanya dengan satu pengaman
- Di seluruh pratinjau GPT‑5.6 diterapkan pengaman berlapis dengan konfigurasi yang berbeda untuk tiap model
- perlindungan yang dilatih di dalam model
- pemeriksaan real-time selama generasi
- sinyal tingkat akun
- akses diferensial
- pemantauan
- penegakan
- pengujian berkelanjutan
-
Penolakan tingkat model dan pemeriksaan real-time
- GPT‑5.6 dilatih untuk menolak bantuan siber yang dilarang bahkan ketika pengguna menyembunyikan niat atau mencoba jailbreak
- Pengklasifikasi penyalahgunaan siber dan biologi real-time mengevaluasi output yang sedang dihasilkan
- Dalam kasus berisiko tinggi, generasi dapat dijeda jika terdeteksi potensi pelanggaran
- Model penalaran yang lebih besar meninjau percakapan dan konteks, lalu menahan output sebelum sampai ke pengguna jika dinilai terlarang
-
Tinjauan tingkat akun dan akses diferensial
- Aktivitas yang ditandai dapat memicu tinjauan tingkat akun yang mencakup percakapan terkait dan sinyal risiko
- Melihat konteks di tingkat akun, bukan hanya satu percakapan, membantu membedakan pekerjaan keamanan dual-use yang sah dari perilaku jahat yang berkelanjutan
- Akses diferensial menjaga pekerjaan defensif penting sambil memastikan kemampuan paling sensitif tidak dibuka luas secara default
-
Dampak bagi pengguna selama pratinjau
- Selama masa pratinjau, beberapa permintaan dapat diblokir atau ditolak
- Beberapa permintaan dapat memakan waktu lebih lama jika generasi dijeda untuk peninjauan tambahan
- Dalam area dual-use di mana aktivitas defensif dan ofensif pada awalnya bisa tampak mirip, pengaman dapat turut campur bahkan pada pekerjaan yang sah
- Umpan balik selama pratinjau akan digunakan untuk mengurangi pemblokiran dan keterlambatan yang tidak perlu, meningkatkan interpretasi konteks oleh pengaman, dan menyempurnakan pengalaman sebelum peluncuran lebih luas
- Pendekatan jangka panjang juga sedang dibahas dengan pelanggan enterprise
- deteksi yang menjaga privasi
- kontrol keamanan operasional pelanggan
- hak akses yang disesuaikan dengan risiko pelanggan, pengguna, dan workload
Meningkatkan ketahanan dengan red team otomatis
- Pengaman harus tetap efektif meski penyerang mengubah taktik
- OpenAI menggunakan modelnya sendiri untuk menemukan kelemahan dan memperbaiki pengaman lebih cepat
- Lebih dari 700,000 A100-equivalent GPU hours dialokasikan untuk red team otomatis
- Red team otomatis berfokus mencari universal jailbreak yang dapat bekerja di berbagai prompt atau konteks
- Dengan berfokus pada serangan yang lebih umum seperti ini, OpenAI dapat menguji pengaman melampaui daftar kasus gagal yang tetap
- Otomatisasi memungkinkan eksplorasi lebih banyak pola serangan yang sulit ditangani hanya dengan pengujian manusia, serta menemukan pola kegagalan lebih awal untuk mengurangi waktu dari penemuan kelemahan hingga perbaikan
- Bersama penguji eksternal, OpenAI juga melakukan red team pakar manusia, dan pekerjaan ini terus berlanjut selama masa pratinjau
- Jailbreak yang baru ditemukan melalui proses reproduksi, evaluasi, prioritisasi, dan perbaikan akan ditambahkan ke evaluasi berkelanjutan agar kegagalan serupa bisa diuji di masa depan
Ketersediaan dan harga
- Selama pratinjau, model GPT‑5.6 akan lebih dulu tersedia melalui API dan Codex untuk mitra tepercaya dan organisasi terpilih
- Setelah itu, OpenAI berencana menyediakannya lebih luas bagi pengguna ChatGPT, Codex, dan API
- Dalam skema penamaan baru GPT‑5.6, angka menunjukkan generasi model
- Sol, Terra, dan Luna berarti tier kemampuan berkelanjutan yang dapat berkembang dengan kecepatannya masing-masing
- Keluarga produk ini memberi pengguna dan developer pilihan yang lebih jelas antara kecerdasan, kecepatan, dan biaya
-
Harga token dan caching
- Harga GPT‑5.6 ditetapkan per 1 juta token
- Sol: input $5 / output $30
- Terra: input $2.50 / output $15
- Luna: input $1 / output $6
- GPT‑5.6 memperkenalkan prompt caching yang lebih dapat diprediksi
- dukungan explicit cache breakpoint
- masa berlaku cache minimal 30 menit
- Pada GPT‑5.6 dan model setelahnya, penulisan cache ditagihkan sebesar 1.25x dari tarif input non-cache model terkait
- Pembacaan cache tetap mendapatkan diskon 90% untuk input cache
-
Ketersediaan di Cerebras
- GPT‑5.6 Sol dijadwalkan tersedia di Cerebras pada bulan Juli dengan kecepatan hingga 750 tokens per detik
- Akses awal dibatasi untuk pelanggan terpilih selama proses peningkatan kapasitas
1 komentar
Komentar Hacker News
Bagian paling menarik dari pengumuman ini tersembunyi di paragraf kedua dari belakang: “Pada bulan Juli, kami akan meluncurkan GPT‑5.6 Sol di Cerebras dengan hingga 750 token per detik, menghadirkan kecerdasan frontier kepada pelanggan dengan kecepatan yang belum pernah ada sebelumnya. Akses akan dibatasi untuk sebagian pelanggan sampai kapasitas diperluas.”
Untuk model frontier, 750 token/detik terdengar sangat menarik. Dari sisi performa, saya ragu ini akan lebih dari sekadar kenaikan versi sederhana, tetapi kalau jawaban bisa diterima lebih cepat, itu jadi jauh lebih berguna
Misalnya pekerjaan membosankan seperti mencari fitur tertentu di dalam codebase. Bahkan sekarang pun, untuk tugas ini biasanya sulit mengalahkan harness agen AI, dan kalau modelnya 3 kali lebih cepat, peluang menang makin kecil
750 token/detik kira-kira terasa seperti ini
Kalau model terbesar bisa mencapai 750 token/detik, itu bakal luar biasa
Baru setahun lalu saya masih ingat “berlomba” dengan AI untuk memahami codebase, tetapi sekarang rasanya tidak mungkin menang. Saya tidak tahu apakah kemampuan bernalar saya yang menurun atau modelnya yang makin bagus
Spark bisa melampaui 1000 token/detik, tetapi ukuran context window-nya sangat terbatas sehingga tidak cocok untuk banyak alur kerja. Model kali ini tampaknya tetap akan sangat bagus meski relatif sedikit lebih lambat
Solusi yang diskret dan berbasis giliran seperti sekarang sangat membatasi, sampai ke cara pelatihannya. Pendekatan yang kontinu dan real-time bisa mengubah bidang ini secara mendasar
Dari sudut pandang teori informasi, laju transfer informasi nyata kita masih setara dial-up. Bahkan 750 token/detik pun hanya seperti koneksi dial-up yang lumayan buruk; bayangkan 10 juta token per detik
Terlihat pola seperti ini: GPT-5 mini harganya $0.25/$2 dan dijadwalkan dihentikan pada Desember, GPT-5.4 mini harganya $0.75/$4.5 dan disebut sebagai penggantinya, GPT-5.4 nano harganya $0.2/$1.25 dan di benchmark lebih baik daripada GPT-5 mini, tetapi dalam skenario nyata sama sekali tidak mirip
Jadi kalau sekarang memakai 5 mini, pada akhirnya akan dipaksa pindah ke GPT-5.4 mini. Di sini juga model “Luna” seharga $1/$6, jadi hal yang sama sedang terjadi
Tidak bisakah kita terus memakai model yang benar-benar kita inginkan? Kita tidak butuh GPT 5.4 mini, GPT-5 saja sudah cukup
Mungkin memang dari awal tidak pernah semurah itu, dan kita baru sadar mereka sedang mencoba memaksa kita upgrade secara lambat dan menyakitkan
Di HN orang memang sering menyebut DeepSeek V4 Flash, tetapi menurut Artificial Analysis, per Agustus 2025 performanya bolak-balik unggul tipis dengan GPT-5 high [0]
[0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
Lab besar pada dasarnya telah menyerah pada model murah, dan itu membuat frustrasi. Kemungkinan besar aplikasi tidak akan lagi banyak dibangun di atas mereka. Misalnya kami juga sedang memindahkan beban kerja dari Haiku/Sonnet ke Deepseek v4
Masalahnya tampaknya mereka harus mematok harga tinggi untuk menjaga angka pendapatan, dan mereka lebih khawatir mengkanibal pendapatan sendiri daripada dikalahkan pihak lain yang mengkanibal mereka
Wajar jika lab mencoba mencari tahu sejauh mana mereka bisa mendorong harga, dan wajar juga jika pesaing menjadikan margin itu sebagai peluang pertumbuhan. Pada akhirnya, harga tampaknya akan lebih stabil
Tingkat kecurangan yang terdeteksi pada GPT-5.6 Sol adalah yang tertinggi di antara model publik yang kami evaluasi dengan harness agen ReAct
Dalam kumpulan tugas kami, “kecurangan” didefinisikan sebagai perilaku model yang, alih-alih menyelesaikan masalah dalam batasan evaluasi yang diharapkan, justru mengeksploitasi bug di lingkungan evaluasi atau mengadopsi strategi yang dilarang dalam tugas demi meningkatkan skor evaluasi
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
Ini mengingatkan pada perilaku yang terlihat di Alibaba [0], tetapi itu terjadi saat pelatihan. Yang ini terjadi pada model yang hampir dirilis
[0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
Yang perlu mereka lakukan hanyalah mencatat permintaan itu di log dan “memperbaikinya” pada rilis model berikutnya
Saya rasa GPT paling jago menulis kode. Membayangkan seberapa bagus ia akan menulis pada versi 5.6 saja sudah bikin merinding
Baru-baru ini saya berhadapan langsung dengan GPT pada kode hampir 2.000 baris, dan solusi GPT lebih unggul serta lebih cepat. Saya mencoba sambil merujuk ke beberapa codebase GitHub, tetapi tetap tidak sebanding dengan GPT
Karena itu, memakai GPT menimbulkan rasa takut dan antusias sekaligus. Menyadari bahwa kode pada level ini kini menjadi rata-rata bagi kebanyakan orang itu menakutkan, tetapi saya juga antusias karena saya pun bisa belajar dan berkembang di level ini
Saya benar-benar menantikan seberapa jauh kode akan berkembang dengan upgrade 5.6
Sebaliknya, kombinasi pi + glm + DeepSeek sangat bagus. Fable memang monster jenis lain. RIP
Yang pertama sedikit lebih mudah ditinjau
Masa indah yang dimaksud di sini merujuk pada beberapa minggu pada Februari 2026. Sangat menarik melihat semua ini terungkap
Terasa aneh bahwa tidak ada satu pun benchmark coding dalam pengumuman itu, dan yang paling dekat justru terminal bench
Jika Anda memakai GPT-5.5 dalam sekitar 24 jam terakhir, mungkin saja Anda sudah mendapat akses ke 5.6
Kami menjalankan pengujian di harness yang sedang kami bangun, dan kemarin nilainya tiba-tiba naik beberapa poin. Saat menjalankan ulang benchmark Codex dasar, GPT-5.5 mencetak sekitar 88% pada Terminal Bench 2.1 di Codex dasar
Sinyal yang lebih besar daripada skornya adalah bahwa tiga pengujian yang di 5.5 sering terkena blokir “keamanan” tadi malam mulai berhasil tanpa pemberitahuan apa pun
Isinya mengatakan, “dimulai dari preview terbatas untuk sekelompok kecil mitra tepercaya yang keterlibatannya dibagikan kepada pemerintah, lalu dirilis lebih luas”
Komentar ini adalah contoh bagus tentang bagaimana pengguna LLM rata-rata pada dasarnya bertingkah seperti pemain mesin slot. Mereka percaya “yang ini panas, yang ini sedang hoki, yang ini lebih baik dari yang lain,” lalu terus gonta-ganti model berdasarkan pemahaman mistis yang mereka kira hanya mereka miliki
Dan memangnya benchmark 80% itu penting buat apa? Itu dilatih pada benchmark publik seperti itu demi memberi kesan pada orang-orang yang menganggapnya bermakna. Tapi lalu kenapa tingkat kelulusannya hanya 4% pada pekerjaan Upwork seharga $20~30/jam? Benchmark seperti ini pada dasarnya tampak tidak berguna
Ada juga hal yang disebut varian, jadi saya tidak paham kenapa kenaikan skor pada beberapa pengujian membuat orang yakin mereka mendapat akses ke model yang bahkan dikatakan tidak bisa mereka akses
https://labs.scale.com/leaderboard/rli
Numpang tanya di thread populer: bagaimana batas penggunaan Codex dan Claude sekarang?
Dulu saya memberi pekerjaan yang sama ke keduanya, dan Codex memakai 20 kali lebih sedikit dari batas 5 jam saya. Keduanya sama-sama paket $20 per bulan
Sebenarnya saya lebih suka Claude, jadi itu bikin kesal, tetapi saat itu saya tidak bisa memakainya untuk pekerjaan serius karena batasannya
Sejak itu kedua penyedia sama-sama memangkas kapasitas penggunaan secara besar-besaran, dan setidaknya salah satu dari mereka bahkan digugat karenanya
Sekarang saya tidak berlangganan keduanya dan sedang menimbang pilihan. GPT tampaknya sedikit lebih baik daripada Opus, dan dulu menawarkan batas yang jauh lebih tinggi, jadi saya cenderung ke langganan OpenAI. Hanya saja saya ingin tahu apakah kondisi sekarang masih sesuai dengan ingatan saya dari 2~3 bulan lalu. Keduanya tampak sangat agresif dalam pemangkasan biaya
Saya lebih suka jawaban dari orang yang pernah memakai keduanya, tetapi anekdot juga diterima
Kalau mau, saya bisa menjalankan xhigh dan sub-agent nyaris terus-menerus sepanjang jam bangun. Kalau opsi kecepatan 1.5x dinyalakan, kadang saya menyentuh batas 5 jam
Saya lebih suka nuansa Claude dibanding 5.5, tetapi 5.5 tampaknya jauh lebih tidak malas. Tentu banyak bergantung pada tugas dan strategi prompt
Kalau memakai 5.5 high atau Opus 4.8 high, sejujurnya levelnya cukup mirip
Sepertinya mereka menghapus jatah Sonnet terpisah di paket Max, mungkin karena sedang menyiapkan Sonnet 5. Itu agak disayangkan karena sebelumnya alur kerja sub-agent terasa nyaris tanpa batas
Mereka bilang juga akan memperkenalkan mode
ultrabaru yang memanfaatkan subagen untuk mempercepat tugas kompleks melampaui kemampuan agen tunggal, dan aku penasaran bagaimana cara kerjanyaApakah subagen juga bisa memakai alat yang sama? Apakah klien akan kebanjiran pemanggilan alat? Hal yang sama sebenarnya bisa dilakukan di sisi klien dengan kontrol yang lebih besar, jadi kenapa ini dikenai biaya tambahan sebagai “model” baru?
Dan kalau ini pasukan subagen, aku juga penasaran kenapa dibandingkannya dengan Fable dan Mythos. Rasanya kalau dipasangi harness serupa, model-model itu mungkin akan menghasilkan benchmark yang lebih baik
Pada dasarnya, thread model utama menulis skrip deterministik yang memanggil banyak subagen, lalu masing-masing menghabiskan banyak token, setelah itu agen orkestrator menggabungkan outputnya
Kalau diarahkan secara eksplisit, jelas mereka memakainya, dan setidaknya untuk pi aku pernah melihatnya dijalankan bahkan tanpa instruksi eksplisit
Sama seperti saat Mythos, aku sama sekali tidak antusias terhadap model yang tidak bisa kupakai
“Ya, kami punya model terbaik yang ada saat ini. Percayalah. Seram banget.”
“Oh, ya? Boleh lihat?”
“Pergi sana. Buat rakyat jelata seperti kalian kami kasih versi yang lebih buruk.”
“Hmm, terima kasih?”
“Wkwk, sebenarnya itu juga bukan. Pemerintahan yang sekarang termakan pemasaran ketakutan kami. Kami akan kasih penghisap token yang lebih buruk dan sangat mahal. Batasan hardware makin parah setiap minggu.”
Apa pun yang mau dibilang soal OpenAI, strategi perusahaannya terlihat jauh lebih solid
Kalimat “Terra menunjukkan performa yang kompetitif dengan GPT‑5.5 dan 2x lebih murah” terdengar bagiku seperti “ini produk yang lebih inferior, tapi mereka mencoba menutupinya lewat pemasaran”
Dan frasa seperti “stack keamanan paling tangguh sejauh ini, perlindungan yang diperkuat terhadap aktivitas berisiko tinggi, permintaan siber sensitif, dan penyalahgunaan berulang, serta penguatan lewat pencarian kelemahan, pressure test, dan kesiapan menghadapi serangan dunia nyata selama beberapa minggu” paling banter tidak ada nilainya bagiku, dan sering kali justru berpotensi merugikan. Soalnya penolakan bisa makin sering atau utilitasnya menurun
Kenapa para penyedia terus menonjolkan stack keamanan? Apakah benar ada pelanggan yang meminta ini? Selain pengguna chatbot ChatGPT untuk dukungan, aku tidak terpikir siapa lagi