- Versi kecil dari GPT‑5.3‑Codex yang dirancang untuk coding real-time, menawarkan kecepatan lebih dari 1000 token/detik
- Model khusus teks berbasis context window 128k, dioptimalkan untuk perbaikan kode instan dan tugas berulang
- Pengenalan jalur respons berbasis WebSocket menghasilkan penurunan latensi respons 80%, pengurangan overhead per token 30%, dan waktu keluaran token pertama 50% lebih singkat
- Dikembangkan melalui kolaborasi dengan Cerebras, berjalan pada lingkungan inferensi berkecepatan tinggi yang memanfaatkan Wafer Scale Engine 3
- Model tahap pertama dari strategi Codex dua mode yang menggabungkan pekerjaan otonom jangka panjang dan kolaborasi real-time
Ikhtisar GPT‑5.3‑Codex‑Spark
- GPT‑5.3‑Codex‑Spark adalah versi kecil dari GPT‑5.3‑Codex dan model pertama yang dirancang untuk pekerjaan coding real-time
- Mencapai kecepatan generasi lebih dari 1000 token/detik pada hardware berlatensi sangat rendah
- Memberikan respons instan dalam pekerjaan coding nyata
- Model pertama yang dikembangkan melalui kolaborasi dengan Cerebras, sekaligus milestone pertama dari kemitraan OpenAI dan Cerebras
- Tersedia sebagai research preview untuk pengguna ChatGPT Pro, dengan tujuan eksperimen awal dan pengumpulan feedback
Fitur utama dan performa
- Mendukung context window 128k dan saat ini tersedia sebagai model khusus teks
- Pada benchmark SWE‑Bench Pro dan Terminal‑Bench 2.0, menunjukkan performa lebih tinggi dalam waktu yang lebih singkat dibanding GPT‑5.3‑Codex
- Dengan optimasi berfokus pada kecepatan, cara kerja dasarnya ringan dan berorientasi tujuan, serta tidak menjalankan pengujian otomatis kecuali diminta
- Mendukung kolaborasi real-time, sehingga pengguna bisa menghentikan dan memberi arahan ulang pada proses model sambil langsung melihat hasilnya
Optimasi latensi dan infrastruktur
- Selain kecepatan model, juga dilakukan peningkatan untuk mengurangi latensi pada seluruh pipeline request-response
- Overhead bolak-balik client-server berkurang 80%
- Overhead per token berkurang 30%, waktu keluaran token pertama 50% lebih singkat
- Untuk itu diterapkan koneksi persisten berbasis WebSocket dan optimasi internal Responses API
- Peningkatan ini direncanakan akan diterapkan tidak hanya pada Codex‑Spark tetapi juga ke semua model
Integrasi hardware Cerebras
- Codex‑Spark berjalan di atas Cerebras Wafer Scale Engine 3, menyediakan lapisan inferensi yang berfokus pada latensi
- OpenAI bekerja sama dengan Cerebras untuk mengintegrasikan jalur ini ke production serving stack yang sudah ada, sehingga menghadirkan lingkungan operasional yang konsisten di seluruh Codex
- Infrastruktur GPU tetap menjadi fondasi untuk training dan inferensi, sementara Cerebras berperan saling melengkapi dengan spesialisasi pada workload ultra-low-latency
- GPU dan Cerebras dapat digabungkan dalam satu workload untuk mencapai performa optimal
Distribusi dan akses
- Codex‑Spark mulai tersedia sebagai research preview di aplikasi Codex, CLI, dan ekstensi VS Code untuk pengguna ChatGPT Pro
- Diterapkan rate limit khusus yang dapat disesuaikan berdasarkan permintaan
- Sejumlah design partner diberi akses API untuk mengumpulkan feedback tentang cara integrasi ke produk
- Dalam beberapa minggu ke depan, cakupan akses akan diperluas dan integrasi akan disesuaikan berdasarkan workload nyata
Keamanan dan arah berikutnya
- Codex‑Spark mencakup pelatihan keamanan yang sama seperti model mainline yang sudah ada, dan telah lulus evaluasi terkait siber
- Hasil evaluasi mengonfirmasi bahwa model ini belum mencapai ambang kapabilitas berisiko tinggi di ranah keamanan siber dan biologi
- Codex sedang berkembang ke arah yang menggabungkan dua mode: penalaran eksekusi jangka panjang dan tugas iteratif kolaboratif real-time
- Ke depannya direncanakan perluasan fitur seperti input multimodal, model yang lebih besar, dan context yang lebih panjang
- Inferensi super cepat mempercepat proses mengubah ide menjadi software yang bisa langsung dijalankan, sekaligus menghadirkan pengalaman interaksi yang natural
1 komentar
Komentar Hacker News
Akan bagus jika bisa mengunggah gambar ke HN. Chip WSE-3 benar-benar raksasa
Chip ini berukuran 46.255mm², berisi 4 triliun transistor, dan memberikan komputasi 125 petaflops dengan 900 ribu core yang dioptimalkan untuk AI. Ini berarti memiliki transistor 19x lebih banyak dan daya komputasi 28x lebih besar dibanding NVIDIA B200
Lihat detailnya di halaman resmi Cerebras, gambar1, dan gambar2
Saya memakai coding agent untuk membuat slide deck berbasis web secara otomatis. “Master slide” didefinisikan sebagai komponen, lalu aturan branding dan aset perusahaan diterapkan. Tinggal masukkan konten dan prompt, presentasi yang rapi langsung jadi
Yang benar-benar saya inginkan adalah improv mode. Saat presentasi berlangsung, berdasarkan pertanyaan audiens atau ide spontan, sistem akan menyarankan 3 kandidat slide berikutnya, lalu setelah dipilih bisa kembali ke alur utama.
Misalnya saat menyebut artikel berita atau paper, sistem otomatis membuat slide yang berisi screenshot dan QR code, lalu kembali lagi ke alur presentasi. Jika audio real-time digabung dengan pembuatan kode, alat presentasi akan jadi jauh lebih berguna
Saya sudah mencoba gpt-5.3-codex-spark di Codex CLI, dan meski kecepatannya sangat tinggi, terasa seperti model yang kecil.
Saya mengukur performanya dengan tes buatan saya sendiri, ‘bluey bench’ (benchmark file system). Pada model yang lebih kecil, efisiensi konteks menurun dan compaction jadi sering terjadi.
Meski begitu, dari sisi kecepatan jelas jauh lebih cepat daripada generasi sebelumnya
Saya rasa Cerebras masih perusahaan yang diremehkan. Chip sebesar piring yang benar-benar berfungsi, dan dalam penggunaan nyata lebih cepat daripada apa pun yang lain. Teknologinya luar biasa
Infrastruktur listrik adalah bottleneck, dan di AS tidak mungkin membangun pembangkit listrik besar dalam waktu singkat. Pada akhirnya, setelah TPUv8, sepertinya Google yang akan memimpin pasar
Benchmark Pelican buatan saya secara visual menunjukkan perbedaan kualitas antara GPT-5.3-Codex-Spark dan GPT-5.3-Codex penuh
Untuk detailnya, lihat postingan blog
Ide priority queue / tiered workload offload dengan coding agent terasa menarik.
Jika 60% pekerjaan hanya edit sederhana atau refactoring, maka latensi rendah dan throughput token tinggi jadi penting.
Baru-baru ini muncul plugin Batch API untuk Claude, dan Nvidia serta Google juga sedang menyiapkan custom silicon untuk inferensi (artikel)
Baru 20 menit jadi standar industri, tapi ternyata masih ada orang yang memakai GPT-5.3-Codex
Mungkin OpenAI sedang menguji ini di Openrouter dengan nama Aurora Alpha.
Saya menjalankan proyek kecil dengan Aider, dan model itu memproses 10 ribu token input dan 1 ribu token output dengan kecepatan 500 token per detik
Saya melihat kalimat “model terbaru dapat bekerja secara mandiri selama beberapa jam hingga beberapa hari”, tetapi sejauh ini saya belum melihat hasil yang benar-benar berguna
Akhirnya saya melihat salah satu dari tiga pemain besar memakai Cerebras. Sudah lama menunggu hari ini