Pratinjau GPT‑5.6 Sol: model generasi berikutnya

(openai.com)

3 poin oleh GN⁺ 6 jam lalu | 1 komentar | Bagikan ke WhatsApp

OpenAI membuka seri GPT‑5.6 dalam pratinjau terbatas, menghadirkan Sol sebagai flagship, Terra untuk pekerjaan sehari-hari, dan Luna berbiaya rendah
Sol memperkuat kemampuan agen dalam coding, biologi, dan keamanan siber, serta mendukung penalaran yang lebih dalam dan pemanfaatan subagen melalui max reasoning effort dan mode ultra
Kinerja keamanan siber meningkat di ExploitBench dan ExploitGym, tetapi dalam kondisi evaluasi Chromium dan Firefox, model ini tidak mampu secara otonom menghasilkan full-chain exploit yang fungsional sehingga tidak melewati ambang Cyber Critical
Pratinjau ini akan lebih dulu tersedia di API dan Codex untuk sejumlah mitra tepercaya dan organisasi, dengan persiapan menuju rilis yang lebih luas melalui prosedur pembatasan sesuai permintaan pemerintah AS
Harganya per 1 juta token adalah Sol $5 input / $30 output, Terra $2.50 input / $15 output, Luna $1 input / $6 output; penulisan cache dikenai 1.25x dan pembacaan cache mendapat diskon 90%

Cakupan pratinjau seri GPT‑5.6

OpenAI terlebih dahulu memperkenalkan keluarga produk GPT‑5.6 dalam pratinjau terbatas
- Sol: model flagship
- Terra: model seimbang untuk pekerjaan sehari-hari
- Luna: model cepat dan murah
Terra menawarkan kinerja yang kompetitif dengan GPT‑5.5, tetapi dengan harga 2x lebih murah
Luna memberikan kemampuan kuat dengan biaya terendah milik OpenAI
GPT‑5.6 Sol dirilis bersama tumpukan keamanan paling kokoh yang pernah dibangun OpenAI sejauh ini
- aktivitas berisiko tinggi
- permintaan siber sensitif
- penyalahgunaan berulang
- pencarian celah dan pressure test terhadap serangan nyata

Rilis terbatas dan koordinasi dengan pemerintah

OpenAI berencana menyediakan ketersediaan umum untuk GPT‑5.6 Sol, Terra, dan Luna dalam beberapa minggu ke depan
Dalam proses koordinasi berkelanjutan dengan pemerintah AS, OpenAI membagikan rencana pra-rilis dan kemampuan model
Atas permintaan pemerintah, OpenAI lebih dulu memulai pratinjau terbatas untuk sejumlah kecil mitra tepercaya yang partisipasinya dibagikan kepada pemerintah
OpenAI menilai prosedur akses pemerintah seperti ini tidak seharusnya menjadi default jangka panjang
- karena pengguna, developer, perusahaan, pembela siber, dan mitra global bisa tidak mendapatkan akses ke alat yang mereka butuhkan
Prosedur jangka pendek ini adalah jalur menuju rilis yang lebih luas dalam beberapa minggu ke depan
- sambil mengembangkan prosedur yang dapat diulang bersama pemerintah, kerangka kerja Executive Order siber, dan rilis model mendatang

Kemampuan model dan evaluasi

GPT‑5.6 Sol diperkenalkan sebagai model terkuat OpenAI
Model ini menunjukkan kemampuan agen yang meningkat dalam evaluasi coding, biologi, dan keamanan siber
Evaluasi tambahan tentang keamanan dan kesiapan disertakan dalam GPT‑5.6 Preview system card
OpenAI berencana membagikan paket hasil evaluasi yang diperluas saat rilis lebih luas
Mode penalaran
- GPT‑5.6 memperkenalkan max reasoning effort yang memungkinkan Sol bernalar lebih lama dan lebih dalam
- Mode ultra yang baru melampaui kemampuan agen tunggal dengan memanfaatkan subagen untuk mempercepat tugas kompleks
Coding dan biologi
- GPT‑5.6 Sol mencatat performa terbaik baru di Terminal‑Bench 2.1, yang mengevaluasi workflow command line
- Benchmark ini menguji tugas command line yang memerlukan perencanaan, iterasi, dan orkestrasi alat
- Di GeneBench v1, model ini menghasilkan hasil yang lebih kuat dibanding GPT‑5.5 sambil menggunakan token lebih sedikit
- GeneBench v1 mengevaluasi analisis genomik jarak panjang dan biologi kuantitatif
Keamanan siber
- GPT‑5.6 Sol adalah model OpenAI yang paling mampu untuk pekerjaan keamanan siber
- Model ini menggeser frontier performa-efisiensi pada tugas keamanan jangka panjang, termasuk riset kerentanan dan exploit
- Di ExploitBench, hasilnya kompetitif dengan Mythos Preview sambil hanya menggunakan sekitar sepertiga token output
- Di ExploitGym, Sol, Terra, dan Luna semuanya menunjukkan peningkatan kuat dalam kemampuan siber seiring bertambahnya penalaran
- ExploitGym adalah benchmark yang dibuat peneliti UC Berkeley bersama OpenAI dan frontier lab lainnya

Kemampuan siber dan perlindungan keamanan

GPT‑5.6 Sol, Terra, dan Luna dikembangkan dengan pengaman OpenAI paling kokoh yang disesuaikan dengan kemampuan masing-masing model
Seiring kemampuan model meningkat, pengaman dirancang agar tetap bertahan bahkan di bawah tekanan adversarial nyata
OpenAI tetap berupaya mempertahankan akses untuk pekerjaan defensif yang sah
- code review
- riset kerentanan
- pengembangan patch
- debugging
- pelatihan keamanan
- pengujian defensif
Tujuannya adalah membuat aktivitas ofensif yang dilarang menjadi lebih sulit, lebih tidak pasti, dan lebih mudah terdeteksi, tanpa membatasi penggunaan yang bermanfaat secara tidak perlu
Menurut evaluasi OpenAI, ada manfaat besar untuk pekerjaan defensif yang sah, sementara penggunaan ofensif yang dilarang dibatasi secara bermakna
Ambang Cyber Critical
- GPT‑5.6 Sol tidak melewati ambang Cyber Critical menurut Preparedness Framework
- Dalam evaluasi terkait Chromium dan Firefox, model ini mengidentifikasi bug dan exploit primitive
- Dalam kondisi pengujian, model ini tidak mampu secara otonom membuat full-chain exploit yang fungsional
- Ambang benchmark tidak selalu dapat menangkap semua cara model digunakan atau dikombinasikan dengan alat lain
- Karena ketidakpastian ini dan peningkatan kemampuan secara umum, OpenAI menerapkan pengaman yang lebih kuat dan peluncuran bertahap secara bersamaan

Tumpukan keamanan berlapis

Penyalahgunaan yang disengaja atau adaptif sulit dihentikan hanya dengan satu pengaman
Di seluruh pratinjau GPT‑5.6 diterapkan pengaman berlapis dengan konfigurasi yang berbeda untuk tiap model
- perlindungan yang dilatih di dalam model
- pemeriksaan real-time selama generasi
- sinyal tingkat akun
- akses diferensial
- pemantauan
- penegakan
- pengujian berkelanjutan
Penolakan tingkat model dan pemeriksaan real-time
- GPT‑5.6 dilatih untuk menolak bantuan siber yang dilarang bahkan ketika pengguna menyembunyikan niat atau mencoba jailbreak
- Pengklasifikasi penyalahgunaan siber dan biologi real-time mengevaluasi output yang sedang dihasilkan
- Dalam kasus berisiko tinggi, generasi dapat dijeda jika terdeteksi potensi pelanggaran
- Model penalaran yang lebih besar meninjau percakapan dan konteks, lalu menahan output sebelum sampai ke pengguna jika dinilai terlarang
Tinjauan tingkat akun dan akses diferensial
- Aktivitas yang ditandai dapat memicu tinjauan tingkat akun yang mencakup percakapan terkait dan sinyal risiko
- Melihat konteks di tingkat akun, bukan hanya satu percakapan, membantu membedakan pekerjaan keamanan dual-use yang sah dari perilaku jahat yang berkelanjutan
- Akses diferensial menjaga pekerjaan defensif penting sambil memastikan kemampuan paling sensitif tidak dibuka luas secara default
Dampak bagi pengguna selama pratinjau
- Selama masa pratinjau, beberapa permintaan dapat diblokir atau ditolak
- Beberapa permintaan dapat memakan waktu lebih lama jika generasi dijeda untuk peninjauan tambahan
- Dalam area dual-use di mana aktivitas defensif dan ofensif pada awalnya bisa tampak mirip, pengaman dapat turut campur bahkan pada pekerjaan yang sah
- Umpan balik selama pratinjau akan digunakan untuk mengurangi pemblokiran dan keterlambatan yang tidak perlu, meningkatkan interpretasi konteks oleh pengaman, dan menyempurnakan pengalaman sebelum peluncuran lebih luas
- Pendekatan jangka panjang juga sedang dibahas dengan pelanggan enterprise
  - deteksi yang menjaga privasi
  - kontrol keamanan operasional pelanggan
  - hak akses yang disesuaikan dengan risiko pelanggan, pengguna, dan workload

Meningkatkan ketahanan dengan red team otomatis

Pengaman harus tetap efektif meski penyerang mengubah taktik
OpenAI menggunakan modelnya sendiri untuk menemukan kelemahan dan memperbaiki pengaman lebih cepat
Lebih dari 700,000 A100-equivalent GPU hours dialokasikan untuk red team otomatis
Red team otomatis berfokus mencari universal jailbreak yang dapat bekerja di berbagai prompt atau konteks
Dengan berfokus pada serangan yang lebih umum seperti ini, OpenAI dapat menguji pengaman melampaui daftar kasus gagal yang tetap
Otomatisasi memungkinkan eksplorasi lebih banyak pola serangan yang sulit ditangani hanya dengan pengujian manusia, serta menemukan pola kegagalan lebih awal untuk mengurangi waktu dari penemuan kelemahan hingga perbaikan
Bersama penguji eksternal, OpenAI juga melakukan red team pakar manusia, dan pekerjaan ini terus berlanjut selama masa pratinjau
Jailbreak yang baru ditemukan melalui proses reproduksi, evaluasi, prioritisasi, dan perbaikan akan ditambahkan ke evaluasi berkelanjutan agar kegagalan serupa bisa diuji di masa depan

Ketersediaan dan harga

Selama pratinjau, model GPT‑5.6 akan lebih dulu tersedia melalui API dan Codex untuk mitra tepercaya dan organisasi terpilih
Setelah itu, OpenAI berencana menyediakannya lebih luas bagi pengguna ChatGPT, Codex, dan API
Dalam skema penamaan baru GPT‑5.6, angka menunjukkan generasi model
Sol, Terra, dan Luna berarti tier kemampuan berkelanjutan yang dapat berkembang dengan kecepatannya masing-masing
Keluarga produk ini memberi pengguna dan developer pilihan yang lebih jelas antara kecerdasan, kecepatan, dan biaya
Harga token dan caching
- Harga GPT‑5.6 ditetapkan per 1 juta token
- Sol: input $5 / output $30
- Terra: input $2.50 / output $15
- Luna: input $1 / output $6
- GPT‑5.6 memperkenalkan prompt caching yang lebih dapat diprediksi
  - dukungan explicit cache breakpoint
  - masa berlaku cache minimal 30 menit
- Pada GPT‑5.6 dan model setelahnya, penulisan cache ditagihkan sebesar 1.25x dari tarif input non-cache model terkait
- Pembacaan cache tetap mendapatkan diskon 90% untuk input cache
Ketersediaan di Cerebras
- GPT‑5.6 Sol dijadwalkan tersedia di Cerebras pada bulan Juli dengan kecepatan hingga 750 tokens per detik
- Akses awal dibatasi untuk pelanggan terpilih selama proses peningkatan kapasitas

1 komentar

GN⁺ 6 jam lalu

Komentar Hacker News

Bagian paling menarik dari pengumuman ini tersembunyi di paragraf kedua dari belakang: “Pada bulan Juli, kami akan meluncurkan GPT‑5.6 Sol di Cerebras dengan hingga 750 token per detik, menghadirkan kecerdasan frontier kepada pelanggan dengan kecepatan yang belum pernah ada sebelumnya. Akses akan dibatasi untuk sebagian pelanggan sampai kapasitas diperluas.”
Untuk model frontier, 750 token/detik terdengar sangat menarik. Dari sisi performa, saya ragu ini akan lebih dari sekadar kenaikan versi sederhana, tetapi kalau jawaban bisa diterima lebih cepat, itu jadi jauh lebih berguna
Misalnya pekerjaan membosankan seperti mencari fitur tertentu di dalam codebase. Bahkan sekarang pun, untuk tugas ini biasanya sulit mengalahkan harness agen AI, dan kalau modelnya 3 kali lebih cepat, peluang menang makin kecil
- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
  750 token/detik kira-kira terasa seperti ini
- Sebagai perbandingan, menurut openrouter Opus 4.8 sekitar 55 token/detik, dan mode cepat sekitar 102 token/detik
  Kalau model terbesar bisa mencapai 750 token/detik, itu bakal luar biasa
- Saya setuju dengan kalimat, “untuk tugas mencari fitur tertentu di dalam codebase, biasanya sulit mengalahkan harness agen AI”
  Baru setahun lalu saya masih ingat “berlomba” dengan AI untuk memahami codebase, tetapi sekarang rasanya tidak mungkin menang. Saya tidak tahu apakah kemampuan bernalar saya yang menurun atau modelnya yang makin bagus
- Saya masih memakai GPT-5.3-codex-spark, dan ini juga berjalan di chip Cerebras
  Spark bisa melampaui 1000 token/detik, tetapi ukuran context window-nya sangat terbatas sehingga tidak cocok untuk banyak alur kerja. Model kali ini tampaknya tetap akan sangat bagus meski relatif sedikit lebih lambat
- Pada tingkat kecepatan tertentu, sepertinya kita bisa beralih ke sistem inferensi kontinu/real-time
  Solusi yang diskret dan berbasis giliran seperti sekarang sangat membatasi, sampai ke cara pelatihannya. Pendekatan yang kontinu dan real-time bisa mengubah bidang ini secara mendasar
  Dari sudut pandang teori informasi, laju transfer informasi nyata kita masih setara dial-up. Bahkan 750 token/detik pun hanya seperti koneksi dial-up yang lumayan buruk; bayangkan 10 juta token per detik
Terlihat pola seperti ini: GPT-5 mini harganya $0.25/$2 dan dijadwalkan dihentikan pada Desember, GPT-5.4 mini harganya $0.75/$4.5 dan disebut sebagai penggantinya, GPT-5.4 nano harganya $0.2/$1.25 dan di benchmark lebih baik daripada GPT-5 mini, tetapi dalam skenario nyata sama sekali tidak mirip
Jadi kalau sekarang memakai 5 mini, pada akhirnya akan dipaksa pindah ke GPT-5.4 mini. Di sini juga model “Luna” seharga $1/$6, jadi hal yang sama sedang terjadi
Tidak bisakah kita terus memakai model yang benar-benar kita inginkan? Kita tidak butuh GPT 5.4 mini, GPT-5 saja sudah cukup
Mungkin memang dari awal tidak pernah semurah itu, dan kita baru sadar mereka sedang mencoba memaksa kita upgrade secara lambat dan menyakitkan
- Kalau tidak butuh performa model frontier dari Anthropic/OpenAI, model open-weight yang tidak bisa dihilangkan mungkin lebih baik
  Di HN orang memang sering menyebut DeepSeek V4 Flash, tetapi menurut Artificial Analysis, per Agustus 2025 performanya bolak-balik unggul tipis dengan GPT-5 high [0]
  [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
- Persis seperti model SaaS. Harga terus naik, lalu untuk membenarkannya mereka terus memaksa upgrade ke versi baru dengan fitur yang tidak pernah diminta siapa pun
- Saya cukup dibuat pusing oleh masalah ini. Model yang hebat dan murah jelas mungkin dibuat, ada banyak di open source, dan neo-cloud juga menyediakannya sambil tetap untung
  Lab besar pada dasarnya telah menyerah pada model murah, dan itu membuat frustrasi. Kemungkinan besar aplikasi tidak akan lagi banyak dibangun di atas mereka. Misalnya kami juga sedang memindahkan beban kerja dari Haiku/Sonnet ke Deepseek v4
  Masalahnya tampaknya mereka harus mematok harga tinggi untuk menjaga angka pendapatan, dan mereka lebih khawatir mengkanibal pendapatan sendiri daripada dikalahkan pihak lain yang mengkanibal mereka
- Pengamatan yang bagus. Tren kenaikan harga memang jelas, tetapi pada saat yang sama itu diseimbangkan oleh inovasi dan ketersediaan alternatif baik dari model terbuka maupun tertutup
  Wajar jika lab mencoba mencari tahu sejauh mana mereka bisa mendorong harga, dan wajar juga jika pesaing menjadikan margin itu sebagai peluang pertumbuhan. Pada akhirnya, harga tampaknya akan lebih stabil
- Hal yang sama juga terjadi pada Anthropic Haiku dan Gemini Flash/Flash Lite. Semuanya menaikkan harga dan menghentikan model murah
Tingkat kecurangan yang terdeteksi pada GPT-5.6 Sol adalah yang tertinggi di antara model publik yang kami evaluasi dengan harness agen ReAct
Dalam kumpulan tugas kami, “kecurangan” didefinisikan sebagai perilaku model yang, alih-alih menyelesaikan masalah dalam batasan evaluasi yang diharapkan, justru mengeksploitasi bug di lingkungan evaluasi atau mengadopsi strategi yang dilarang dalam tugas demi meningkatkan skor evaluasi
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
- Kutipan dari tautan ini benar-benar menakutkan: dalam contoh yang mereka lihat saat mengevaluasi GPT-5.6 Sol, model tersebut mengemas exploit dalam submission antara untuk membocorkan informasi tentang rangkaian hidden test tugas, atau pada tugas lain mengekstrak source code tersembunyi yang menjelaskan jawaban yang diharapkan
  Ini mengingatkan pada perilaku yang terlihat di Alibaba [0], tetapi itu terjadi saat pelatihan. Yang ini terjadi pada model yang hampir dirilis
  [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
- Cukup masuk akal kalau model melakukan kecurangan. Selama evaluasi, permintaan benchmark dikirim ke backend perusahaan-perusahaan ini
  Yang perlu mereka lakukan hanyalah mencatat permintaan itu di log dan “memperbaikinya” pada rilis model berikutnya
Saya rasa GPT paling jago menulis kode. Membayangkan seberapa bagus ia akan menulis pada versi 5.6 saja sudah bikin merinding
Baru-baru ini saya berhadapan langsung dengan GPT pada kode hampir 2.000 baris, dan solusi GPT lebih unggul serta lebih cepat. Saya mencoba sambil merujuk ke beberapa codebase GitHub, tetapi tetap tidak sebanding dengan GPT
Karena itu, memakai GPT menimbulkan rasa takut dan antusias sekaligus. Menyadari bahwa kode pada level ini kini menjadi rata-rata bagi kebanyakan orang itu menakutkan, tetapi saya juga antusias karena saya pun bisa belajar dan berkembang di level ini
Saya benar-benar menantikan seberapa jauh kode akan berkembang dengan upgrade 5.6
- Saya ada di kubu sebaliknya. Model terbuka mulai bekerja lebih baik, dan GPT 5.5 terus menghasilkan hal yang berantakan
  Sebaliknya, kombinasi pi + glm + DeepSeek sangat bagus. Fable memang monster jenis lain. RIP
- Ini murni subjektif, tetapi meskipun output Opus 4.8 mungkin memiliki batas atas keseluruhan yang lebih tinggi, saya lebih suka membaca output GPT 5.5
  Yang pertama sedikit lebih mudah ditinjau
- Beberapa bulan lalu saya berkali-kali mendengar kalimat yang sama tentang Opus 4.6, lalu 4.7 dan 4.8 dianggap mengecewakan, dan sekarang orang-orang merindukan “masa-masa indah 4.6”
  Masa indah yang dimaksud di sini merujuk pada beberapa minggu pada Februari 2026. Sangat menarik melihat semua ini terungkap
- Saya ragu kemampuan coding-nya berkembang sejauh itu
  Terasa aneh bahwa tidak ada satu pun benchmark coding dalam pengumuman itu, dan yang paling dekat justru terminal bench
- Bisa beri contoh? Saya penasaran apa yang ingin diselesaikan, apa solusi Anda sendiri, dan kenapa solusi GPT lebih unggul dan lebih cepat
Jika Anda memakai GPT-5.5 dalam sekitar 24 jam terakhir, mungkin saja Anda sudah mendapat akses ke 5.6
Kami menjalankan pengujian di harness yang sedang kami bangun, dan kemarin nilainya tiba-tiba naik beberapa poin. Saat menjalankan ulang benchmark Codex dasar, GPT-5.5 mencetak sekitar 88% pada Terminal Bench 2.1 di Codex dasar
Sinyal yang lebih besar daripada skornya adalah bahwa tiga pengujian yang di 5.5 sering terkena blokir “keamanan” tadi malam mulai berhasil tanpa pemberitahuan apa pun
- Perubahan seperti ini bisa terjadi hanya karena perubahan infrastruktur, bukan karena A/B test yang misterius
- Sudah baca rilisnya? Ini tidak dibuka luas untuk semua orang
  Isinya mengatakan, “dimulai dari preview terbatas untuk sekelompok kecil mitra tepercaya yang keterlibatannya dibagikan kepada pemerintah, lalu dirilis lebih luas”
  Komentar ini adalah contoh bagus tentang bagaimana pengguna LLM rata-rata pada dasarnya bertingkah seperti pemain mesin slot. Mereka percaya “yang ini panas, yang ini sedang hoki, yang ini lebih baik dari yang lain,” lalu terus gonta-ganti model berdasarkan pemahaman mistis yang mereka kira hanya mereka miliki
  Dan memangnya benchmark 80% itu penting buat apa? Itu dilatih pada benchmark publik seperti itu demi memberi kesan pada orang-orang yang menganggapnya bermakna. Tapi lalu kenapa tingkat kelulusannya hanya 4% pada pekerjaan Upwork seharga $20~30/jam? Benchmark seperti ini pada dasarnya tampak tidak berguna
  Ada juga hal yang disebut varian, jadi saya tidak paham kenapa kenaikan skor pada beberapa pengujian membuat orang yakin mereka mendapat akses ke model yang bahkan dikatakan tidak bisa mereka akses
  https://labs.scale.com/leaderboard/rli
Numpang tanya di thread populer: bagaimana batas penggunaan Codex dan Claude sekarang?
Dulu saya memberi pekerjaan yang sama ke keduanya, dan Codex memakai 20 kali lebih sedikit dari batas 5 jam saya. Keduanya sama-sama paket $20 per bulan
Sebenarnya saya lebih suka Claude, jadi itu bikin kesal, tetapi saat itu saya tidak bisa memakainya untuk pekerjaan serius karena batasannya
Sejak itu kedua penyedia sama-sama memangkas kapasitas penggunaan secara besar-besaran, dan setidaknya salah satu dari mereka bahkan digugat karenanya
Sekarang saya tidak berlangganan keduanya dan sedang menimbang pilihan. GPT tampaknya sedikit lebih baik daripada Opus, dan dulu menawarkan batas yang jauh lebih tinggi, jadi saya cenderung ke langganan OpenAI. Hanya saja saya ingin tahu apakah kondisi sekarang masih sesuai dengan ingatan saya dari 2~3 bulan lalu. Keduanya tampak sangat agresif dalam pemangkasan biaya
Saya lebih suka jawaban dari orang yang pernah memakai keduanya, tetapi anekdot juga diterima
- Pemakaian Codex terasa sangat murah hati. Tapi saya ada di paket $200 dan untuk Claude juga pakai paket $200
  Kalau mau, saya bisa menjalankan xhigh dan sub-agent nyaris terus-menerus sepanjang jam bangun. Kalau opsi kecepatan 1.5x dinyalakan, kadang saya menyentuh batas 5 jam
  Saya lebih suka nuansa Claude dibanding 5.5, tetapi 5.5 tampaknya jauh lebih tidak malas. Tentu banyak bergantung pada tugas dan strategi prompt
- Bulan lalu Claude Max 5x terasa cukup murah hati dari sisi pemakaian, karena Fable dan bug membuat banyak reset
  Kalau memakai 5.5 high atau Opus 4.8 high, sejujurnya levelnya cukup mirip
  Sepertinya mereka menghapus jatah Sonnet terpisah di paket Max, mungkin karena sedang menyiapkan Sonnet 5. Itu agak disayangkan karena sebelumnya alur kerja sub-agent terasa nyaris tanpa batas
- Jika membandingkan Claude Code dan Cursor+Gpt55 untuk kerja, Claude jelas lebih lambat dan lebih mahal
- Menarik. Sekitar sebulan belakangan saya merasa Claude Code mulai memakai token kira-kira 5 kali lebih banyak. Ini cuma perkiraan kasar
Mereka bilang juga akan memperkenalkan mode ultra baru yang memanfaatkan subagen untuk mempercepat tugas kompleks melampaui kemampuan agen tunggal, dan aku penasaran bagaimana cara kerjanya
Apakah subagen juga bisa memakai alat yang sama? Apakah klien akan kebanjiran pemanggilan alat? Hal yang sama sebenarnya bisa dilakukan di sisi klien dengan kontrol yang lebih besar, jadi kenapa ini dikenai biaya tambahan sebagai “model” baru?
Dan kalau ini pasukan subagen, aku juga penasaran kenapa dibandingkannya dengan Fable dan Mythos. Rasanya kalau dipasangi harness serupa, model-model itu mungkin akan menghasilkan benchmark yang lebih baik
- Kalau mirip dengan ultracode di ClaudeCode, ini bukan hal yang baru atau revolusioner
  Pada dasarnya, thread model utama menulis skrip deterministik yang memanggil banyak subagen, lalu masing-masing menghabiskan banyak token, setelah itu agen orkestrator menggabungkan outputnya
- Kalau mirip dengan Claude Ultracode, satu prompt bisa membakar 3 juta token dalam 30 menit
- Bukankah harness utama (pi, Claude code, codex) semuanya memakai subagen?
  Kalau diarahkan secara eksplisit, jelas mereka memakainya, dan setidaknya untuk pi aku pernah melihatnya dijalankan bahkan tanpa instruksi eksplisit
- Aku juga tertarik. Kalau ini bukan semata-mata untuk memeras sedikit performa tambahan, sepertinya ini demi mengumpulkan data penggunaan nyata untuk pola penggunaan seperti ini dengan rapi
- Aku justru terkejut kalau ternyata mereka belum memakai subagen. Mungkin saja yang dimaksud cuma bahwa deployment web sudah diintegrasikan dengan codex
Sama seperti saat Mythos, aku sama sekali tidak antusias terhadap model yang tidak bisa kupakai
- Setidaknya OpenAI punya rencana untuk menyediakan semua versinya ke publik. Itu terlihat jauh lebih baik daripada yang terjadi di Anthropic
  “Ya, kami punya model terbaik yang ada saat ini. Percayalah. Seram banget.”
  “Oh, ya? Boleh lihat?”
  “Pergi sana. Buat rakyat jelata seperti kalian kami kasih versi yang lebih buruk.”
  “Hmm, terima kasih?”
  “Wkwk, sebenarnya itu juga bukan. Pemerintahan yang sekarang termakan pemasaran ketakutan kami. Kami akan kasih penghisap token yang lebih buruk dan sangat mahal. Batasan hardware makin parah setiap minggu.”
  Apa pun yang mau dibilang soal OpenAI, strategi perusahaannya terlihat jauh lebih solid
Kalimat “Terra menunjukkan performa yang kompetitif dengan GPT‑5.5 dan 2x lebih murah” terdengar bagiku seperti “ini produk yang lebih inferior, tapi mereka mencoba menutupinya lewat pemasaran”
Dan frasa seperti “stack keamanan paling tangguh sejauh ini, perlindungan yang diperkuat terhadap aktivitas berisiko tinggi, permintaan siber sensitif, dan penyalahgunaan berulang, serta penguatan lewat pencarian kelemahan, pressure test, dan kesiapan menghadapi serangan dunia nyata selama beberapa minggu” paling banter tidak ada nilainya bagiku, dan sering kali justru berpotensi merugikan. Soalnya penolakan bisa makin sering atau utilitasnya menurun
Kenapa para penyedia terus menonjolkan stack keamanan? Apakah benar ada pelanggan yang meminta ini? Selain pengguna chatbot ChatGPT untuk dukungan, aku tidak terpikir siapa lagi
- Kalimat “Terra menunjukkan performa yang kompetitif dengan GPT‑5.5 dan 2x lebih murah” kuartikan sebagai: performa arus utama hari ini kini bisa didapat dengan harga yang jauh lebih rendah
- Tujuan Terra adalah menjadi cukup bagus sambil lebih murah daripada model terbaik. Tentu saja dari sisi kecerdasan dia lebih lemah
- Pesan itu jelas ditujukan ke pemerintah. Lihat saja thread lain
- Mungkin juga itu pesan untuk para investor

Pratinjau GPT‑5.6 Sol: model generasi berikutnya

Cakupan pratinjau seri GPT‑5.6

Rilis terbatas dan koordinasi dengan pemerintah

Kemampuan model dan evaluasi

Mode penalaran

Coding dan biologi

Keamanan siber

Kemampuan siber dan perlindungan keamanan

Ambang Cyber Critical

Tumpukan keamanan berlapis

Penolakan tingkat model dan pemeriksaan real-time

Tinjauan tingkat akun dan akses diferensial

Dampak bagi pengguna selama pratinjau

Meningkatkan ketahanan dengan red team otomatis

Ketersediaan dan harga

Harga token dan caching

Ketersediaan di Cerebras

Bacaan terkait

1 komentar

Komentar Hacker News