3 poin oleh GN⁺ 2026-02-13 | 1 komentar | Bagikan ke WhatsApp
  • Versi kecil dari GPT‑5.3‑Codex yang dirancang untuk coding real-time, menawarkan kecepatan lebih dari 1000 token/detik
  • Model khusus teks berbasis context window 128k, dioptimalkan untuk perbaikan kode instan dan tugas berulang
  • Pengenalan jalur respons berbasis WebSocket menghasilkan penurunan latensi respons 80%, pengurangan overhead per token 30%, dan waktu keluaran token pertama 50% lebih singkat
  • Dikembangkan melalui kolaborasi dengan Cerebras, berjalan pada lingkungan inferensi berkecepatan tinggi yang memanfaatkan Wafer Scale Engine 3
  • Model tahap pertama dari strategi Codex dua mode yang menggabungkan pekerjaan otonom jangka panjang dan kolaborasi real-time

Ikhtisar GPT‑5.3‑Codex‑Spark

  • GPT‑5.3‑Codex‑Spark adalah versi kecil dari GPT‑5.3‑Codex dan model pertama yang dirancang untuk pekerjaan coding real-time
    • Mencapai kecepatan generasi lebih dari 1000 token/detik pada hardware berlatensi sangat rendah
    • Memberikan respons instan dalam pekerjaan coding nyata
  • Model pertama yang dikembangkan melalui kolaborasi dengan Cerebras, sekaligus milestone pertama dari kemitraan OpenAI dan Cerebras
  • Tersedia sebagai research preview untuk pengguna ChatGPT Pro, dengan tujuan eksperimen awal dan pengumpulan feedback

Fitur utama dan performa

  • Mendukung context window 128k dan saat ini tersedia sebagai model khusus teks
  • Pada benchmark SWE‑Bench Pro dan Terminal‑Bench 2.0, menunjukkan performa lebih tinggi dalam waktu yang lebih singkat dibanding GPT‑5.3‑Codex
  • Dengan optimasi berfokus pada kecepatan, cara kerja dasarnya ringan dan berorientasi tujuan, serta tidak menjalankan pengujian otomatis kecuali diminta
  • Mendukung kolaborasi real-time, sehingga pengguna bisa menghentikan dan memberi arahan ulang pada proses model sambil langsung melihat hasilnya

Optimasi latensi dan infrastruktur

  • Selain kecepatan model, juga dilakukan peningkatan untuk mengurangi latensi pada seluruh pipeline request-response
    • Overhead bolak-balik client-server berkurang 80%
    • Overhead per token berkurang 30%, waktu keluaran token pertama 50% lebih singkat
  • Untuk itu diterapkan koneksi persisten berbasis WebSocket dan optimasi internal Responses API
  • Peningkatan ini direncanakan akan diterapkan tidak hanya pada Codex‑Spark tetapi juga ke semua model

Integrasi hardware Cerebras

  • Codex‑Spark berjalan di atas Cerebras Wafer Scale Engine 3, menyediakan lapisan inferensi yang berfokus pada latensi
  • OpenAI bekerja sama dengan Cerebras untuk mengintegrasikan jalur ini ke production serving stack yang sudah ada, sehingga menghadirkan lingkungan operasional yang konsisten di seluruh Codex
  • Infrastruktur GPU tetap menjadi fondasi untuk training dan inferensi, sementara Cerebras berperan saling melengkapi dengan spesialisasi pada workload ultra-low-latency
  • GPU dan Cerebras dapat digabungkan dalam satu workload untuk mencapai performa optimal

Distribusi dan akses

  • Codex‑Spark mulai tersedia sebagai research preview di aplikasi Codex, CLI, dan ekstensi VS Code untuk pengguna ChatGPT Pro
  • Diterapkan rate limit khusus yang dapat disesuaikan berdasarkan permintaan
  • Sejumlah design partner diberi akses API untuk mengumpulkan feedback tentang cara integrasi ke produk
  • Dalam beberapa minggu ke depan, cakupan akses akan diperluas dan integrasi akan disesuaikan berdasarkan workload nyata

Keamanan dan arah berikutnya

  • Codex‑Spark mencakup pelatihan keamanan yang sama seperti model mainline yang sudah ada, dan telah lulus evaluasi terkait siber
  • Hasil evaluasi mengonfirmasi bahwa model ini belum mencapai ambang kapabilitas berisiko tinggi di ranah keamanan siber dan biologi
  • Codex sedang berkembang ke arah yang menggabungkan dua mode: penalaran eksekusi jangka panjang dan tugas iteratif kolaboratif real-time
    • Ke depannya direncanakan perluasan fitur seperti input multimodal, model yang lebih besar, dan context yang lebih panjang
  • Inferensi super cepat mempercepat proses mengubah ide menjadi software yang bisa langsung dijalankan, sekaligus menghadirkan pengalaman interaksi yang natural

1 komentar

 
GN⁺ 2026-02-13
Komentar Hacker News
  • Akan bagus jika bisa mengunggah gambar ke HN. Chip WSE-3 benar-benar raksasa
    Chip ini berukuran 46.255mm², berisi 4 triliun transistor, dan memberikan komputasi 125 petaflops dengan 900 ribu core yang dioptimalkan untuk AI. Ini berarti memiliki transistor 19x lebih banyak dan daya komputasi 28x lebih besar dibanding NVIDIA B200
    Lihat detailnya di halaman resmi Cerebras, gambar1, dan gambar2

    • Kelihatannya panas yang dihasilkan bakal luar biasa, jadi sistem pendingin akan sangat penting. Semoga dayanya berasal dari energi terbarukan
  • Saya memakai coding agent untuk membuat slide deck berbasis web secara otomatis. “Master slide” didefinisikan sebagai komponen, lalu aturan branding dan aset perusahaan diterapkan. Tinggal masukkan konten dan prompt, presentasi yang rapi langsung jadi
    Yang benar-benar saya inginkan adalah improv mode. Saat presentasi berlangsung, berdasarkan pertanyaan audiens atau ide spontan, sistem akan menyarankan 3 kandidat slide berikutnya, lalu setelah dipilih bisa kembali ke alur utama.
    Misalnya saat menyebut artikel berita atau paper, sistem otomatis membuat slide yang berisi screenshot dan QR code, lalu kembali lagi ke alur presentasi. Jika audio real-time digabung dengan pembuatan kode, alat presentasi akan jadi jauh lebih berguna

    • Saya rasa presentasi probabilistik seperti ini keren. Hasilnya bisa mengejutkan, atau malah lucu
    • Kami di Octigen sedang membuat sesuatu yang hampir sama. Saya bisa memberi akses ke demo atau versi alpha
    • Saya pernah membuat sesuatu yang mirip di hackathon. Itu sistem yang menyesuaikan kecepatan teleprompter berdasarkan nada suara dan kecepatan bicara presenter. Akan sangat menarik jika ini diperluas ke improv mode
    • Sebagai profesor yang menghabiskan terlalu banyak waktu menyiapkan kuliah, saya ingin mencoba membawa sistem seperti ini ke kelas
    • Penasaran apakah bisa ditunjukkan contoh nyata
  • Saya sudah mencoba gpt-5.3-codex-spark di Codex CLI, dan meski kecepatannya sangat tinggi, terasa seperti model yang kecil.
    Saya mengukur performanya dengan tes buatan saya sendiri, ‘bluey bench’ (benchmark file system). Pada model yang lebih kecil, efisiensi konteks menurun dan compaction jadi sering terjadi.
    Meski begitu, dari sisi kecepatan jelas jauh lebih cepat daripada generasi sebelumnya

    • Saya harap ke depan bluey bench jadi benchmark standar untuk semua model
    • Penasaran apakah sudah dibandingkan dengan Opus 4.6 (dengan fitur thinking dimatikan). Model itu juga cukup cepat
    • Namanya mirip Codex lama, tapi performanya jauh lebih rendah, itu terasa aneh
  • Saya rasa Cerebras masih perusahaan yang diremehkan. Chip sebesar piring yang benar-benar berfungsi, dan dalam penggunaan nyata lebih cepat daripada apa pun yang lain. Teknologinya luar biasa

    • Rasanya era Nvidia sudah berakhir. Google berencana meningkatkan efisiensi inferensi 4x dengan TPUv9, dan Cerebras jauh lebih cepat untuk workload agent. Dari sisi efisiensi daya dan biaya pun Google unggul.
      Infrastruktur listrik adalah bottleneck, dan di AS tidak mungkin membangun pembangkit listrik besar dalam waktu singkat. Pada akhirnya, setelah TPUv8, sepertinya Google yang akan memimpin pasar
    • Sebenarnya alasan chip ini berukuran ‘sebesar piring’ adalah karena seluruh wafer dipakai sebagai satu chip. Integrasi wafer-scale sudah diteliti selama beberapa dekade
    • Kekurangannya adalah harganya terlalu mahal
    • Meski begitu, para investor masih terus menaruh uang di Nvidia
    • Tapi chip ini harganya lebih dari 1 juta dolar per unit, dan hanya bisa menaruh 1 di setiap rack. Kepadatan dan kapasitas memorinya kurang. Pada akhirnya Nvidia sudah menghabiskan 20 miliar dolar untuk mengakuisisi Groq, jadi kemungkinan Cerebras diakuisisi juga rendah
  • Benchmark Pelican buatan saya secara visual menunjukkan perbedaan kualitas antara GPT-5.3-Codex-Spark dan GPT-5.3-Codex penuh
    Untuk detailnya, lihat postingan blog

    • Saya selalu menunggu benchmark seperti ini setiap kali model baru keluar. Sangat berguna karena menampilkan banyak faktor sekaligus. Blog-nya juga top
  • Ide priority queue / tiered workload offload dengan coding agent terasa menarik.
    Jika 60% pekerjaan hanya edit sederhana atau refactoring, maka latensi rendah dan throughput token tinggi jadi penting.
    Baru-baru ini muncul plugin Batch API untuk Claude, dan Nvidia serta Google juga sedang menyiapkan custom silicon untuk inferensi (artikel)

    • Hanya saja Batch API punya latensi yang jauh lebih tinggi. Bagus untuk pekerjaan massal, tetapi satu kali round trip bisa memakan waktu sampai 24 jam. Selain itu, Codex maupun model Pro tidak didukung di Batch API
    • Saya membuat MCP yang memungkinkan Claude mengalihdayakan pekerjaan development ke GLM 4.7 on Cerebras. Saya membuat Claude bisa menentukan system prompt, file output, dan file konteks, dan kecepatan development meningkat pesat
  • Baru 20 menit jadi standar industri, tapi ternyata masih ada orang yang memakai GPT-5.3-Codex

    • Saya juga waktu baca judul sempat berpikir, “Kalau ada pengumuman GPT, berarti Google atau Anthropic juga pasti merilis sesuatu,” dan benar saja, ada Gemini
  • Mungkin OpenAI sedang menguji ini di Openrouter dengan nama Aurora Alpha.
    Saya menjalankan proyek kecil dengan Aider, dan model itu memproses 10 ribu token input dan 1 ribu token output dengan kecepatan 500 token per detik

  • Saya melihat kalimat “model terbaru dapat bekerja secara mandiri selama beberapa jam hingga beberapa hari”, tetapi sejauh ini saya belum melihat hasil yang benar-benar berguna

    • Saya ingin bertanya sudah seberapa banyak itu dicoba. Opus 4.6 atau GPT-5.3 jelas membaik dalam tugas jangka panjang. Misalnya proyek ini dan halaman demo selesai hanya dengan satu prompt (tautan prompt)
    • Saya sering membiarkan Codex berjalan semalaman untuk mencari bug. Ini benar-benar ideal untuk otomatisasi debugging
    • Kemampuan model untuk tidak berhenti dan terus membakar token terasa mengesankan
    • Kalimat “model kami sangat lambat sampai pekerjaannya butuh beberapa jam” itu lucu. Rasanya itu bukan sesuatu yang layak dibanggakan
    • Beberapa hari lalu Codex sendirian menangani upgrade Vite 8 di situs perusahaan saya selama lebih dari 3 jam. Sekarang hasilnya sudah diterapkan di produksi
  • Akhirnya saya melihat salah satu dari tiga pemain besar memakai Cerebras. Sudah lama menunggu hari ini

    • Awalnya saya ragu karena teknologinya belum terbukti, tetapi sekarang tampaknya memang sudah mencapai lompatan besar dari sisi kecepatan