- Anthropic dan OpenAI masing-masing merilis
fast mode untuk model coding terbaik mereka, sehingga kecepatan inferensi meningkat drastis
- Anthropic memberikan hingga 2,5x kecepatan pemrosesan token dengan tetap memakai model Opus 4.6 yang sama sambil mengurangi ukuran batch
- OpenAI memperkenalkan model baru GPT-5.3-Codex-Spark berbasis chip Cerebras yang menghasilkan lebih dari 1000 token per detik, tetapi akurasi relatif lebih rendah
- Kedua pendekatan ini memakai prinsip teknis yang sepenuhnya berbeda: inferensi dengan batch kecil dan inferensi in-memory berbasis chip raksasa
- Inferensi cepat memang mengesankan secara teknis, tetapi ada pandangan bahwa akurasi lebih penting daripada kecepatan, dan nilai ekonomis serta kegunaannya masih belum pasti
Struktur Fast Mode milik Anthropic
- Pendekatan Anthropic berbentuk meminimalkan latensi dengan mengurangi ukuran batch
- Bottleneck utama GPU adalah transfer memori, dan batching yang menggabungkan permintaan dari banyak pengguna meningkatkan throughput tetapi menambah waktu tunggu
- Fast mode ini mirip “bus yang langsung berangkat” begitu pengguna mengirim permintaan
- Pendekatan ini memberi kecepatan 2,5x lebih cepat dengan biaya 6x lebih tinggi
- Waktu tunggu batch hilang sehingga latensi hingga token pertama berkurang
- Namun throughput keseluruhan GPU menurun
- Sejumlah pengguna menyoroti bahwa setelah token pertama, latensinya tidak terlalu besar, dan efek batch kecil lebih dekat ke peningkatan kecepatan eksekusi akibat berkurangnya jumlah komputasi
Struktur Fast Mode milik OpenAI
- OpenAI mengambil pendekatan yang sepenuhnya berbeda dengan memanfaatkan chip Cerebras
- Alih-alih model yang ada, OpenAI memakai model ringan (distilled) bernama GPT-5.3-Codex-Spark
- Spark kurang canggih dibanding model asli, tetapi mencapai kecepatan inferensi lebih dari 15x lebih cepat
- Chip Cerebras adalah chip wafer-scale raksasa berukuran 70 inci persegi dengan SRAM 44GB terintegrasi
- Seluruh model dimuat ke dalam SRAM sehingga memungkinkan inferensi in-memory tanpa akses ke memori eksternal
- Ini sangat berbeda dibanding SRAM GPU yang biasanya hanya berada di kisaran puluhan MB
- Model Spark diperkirakan di-shard dan ditempatkan di beberapa chip Cerebras, dan konfigurasi ini menjadi faktor utama peningkatan kecepatan
Perbandingan teknis dan evaluasi
- Anthropic mempertahankan model yang ada apa adanya dan hanya menyesuaikan kebijakan batching
- OpenAI mencapai peningkatan performa yang lebih mendasar dengan menggabungkan arsitektur hardware baru dan desain model baru
- Menjalankan model di atas chip Cerebras adalah tantangan teknis yang kompleks, dan pelatihan model Spark juga bukan pekerjaan mudah
- Pendekatan dua perusahaan ini menunjukkan bagaimana tujuan yang sama, yaitu peningkatan kecepatan, bisa dicapai lewat jalur teknis yang berbeda, dan pendekatan OpenAI terlihat lebih mengesankan secara teknis
Makna dan batasan inferensi cepat
- Dengan pengumuman dari kedua perusahaan, “inferensi AI cepat” tampak seperti poros kompetisi berikutnya, tetapi pada praktiknya nuansa respons strategis masih sangat kuat
- Anthropic tampak bergerak cepat untuk merespons pengumuman OpenAI
- OpenAI masih berada pada tahap mempublikasikan hasil eksperimental dari kolaborasi dengan Cerebras
- Model yang cepat tetapi kurang canggih memiliki keterbatasan dalam pemakaian nyata
- Pengguna justru bisa menghabiskan lebih banyak waktu untuk menangani kesalahan model, sehingga akurasi lebih penting daripada kecepatan
- Meski begitu, model “akurasi rendah, inferensi cepat” seperti ini tetap berpotensi dipakai sebagai komponen bawahan dalam sistem AI
- Contoh: use case Haiku di Claude Code, dan kemungkinan internalisasi Spark oleh OpenAI
Diskusi komunitas dan pengamatan tambahan
- Di Hacker News, muncul beragam pendapat tentang karakteristik performa batching dan bottleneck komunikasi antarchip
- Sebagian berpendapat bahwa continuous batching membuat waktu tunggu hampir tidak ada
- Yang lain membantah dengan mengatakan bahwa konektivitas antarchip memengaruhi kecepatan inferensi
- Trade-off antara ukuran batch dan latensi tetap ada
- Anthropic secara eksplisit menyebut bahwa latensi token pertama masih bisa lambat, sementara OpenAI mencoba meminimalkannya lewat koneksi persisten berbasis WebSocket
- Secara keseluruhan, struktur inferensi LLM cepat bersifat kompleks dan sulit dijelaskan dengan model sederhana
1 komentar
Komentar Hacker News
Banyak orang salah paham soal fast mode milik Anthropic. Mungkin karena namanya.
Sebenarnya ini justru lebih mahal, dan bekerja lebih cerdas pada masalah yang sulit.
Pendekatan parallel distill and refine pada paper ini sangat cocok dengan penjelasan tersebut.
Strukturnya adalah menghasilkan beberapa jalur secara paralel, lalu dengan cepat melakukan distill dan refine sebelum mengeluarkan hasil.
Metode ini menghabiskan lebih banyak token, tetapi memungkinkan output yang lebih cepat dan lebih cerdas
speculative decoding tidak terkait dengan peningkatan kualitas, sementara batching biasa meningkatkan kecepatan tetapi menurunkan biaya
Gemini Deepthink dan GPT-5.2-pro juga melakukan inferensi paralel serupa, tetapi menghitung seluruh jalur sampai selesai lalu memurnikan hasilnya
Ide menjalankan inferensi dengan memuat seluruh model ke memori menggunakan chip Cerebras dengan SRAM 44GB cukup menarik
Ukuran GPT-5.3-Codex-Spark tampaknya dibatasi bukan oleh memori satu chip, melainkan oleh jumlah chip yang bisa dihubungkan
Cerebras mendukung model yang lebih besar dari 40B dengan kecepatan lebih tinggi, jadi kemungkinan Spark lebih dekat ke GLM 4.7 (355B parameter, 32B aktif)
Lihat halaman harga Cerebras
Solusi Groq, TPU, dan Nvidia lebih baik dari sisi efisiensi daya
Anthropic kemungkinan besar merutekan permintaan fast ke hardware terbaru
Mereka mengoperasikan berbagai generasi TPU, GPU, dan perangkat lain, dan fast mode diduga hanya diproses di perangkat tercepat
Teknik seperti speculative decoding kemungkinan sudah dipakai, jadi rasanya bukan karena perbaikan batching
Seperti klaim di akhir artikel, pernyataan bahwa akurasi lebih penting daripada kecepatan mungkin benar untuk saat ini
Namun jika lewat kolaborasi OpenAI–Cerebras model besar seperti Codex-5.3 bisa dijalankan langsung di atas chip,
model yang cepat sekaligus akurat bisa menjadi mungkin dan cukup baik untuk menggantikan pekerjaan layanan pelanggan
Jika nanti muncul silikon khusus LLM, eranya bisa jauh lebih efisien
Masalah harus menunggu batching sebenarnya sudah diatasi lewat continuous batching
Berkat teknologi ini, Claude Code bisa ditawarkan dengan harga murah
Tulisan terkait
Analogi bus terasa agak aneh. Dalam praktiknya, fast mode justru bekerja dengan mengambil porsi batch yang lebih besar untuk meningkatkan throughput
Melihat skala trafik Anthropic, batch kemungkinan akan terisi hampir seketika
Menarik juga kenapa ChatGPT bisa merespons segera setelah pesan dikirim
Kalau tidak perlu menunggu batch, mungkin karena trafiknya sangat besar, atau karena input sudah di-streaming lebih dulu ke GPU lewat WebSocket
Banyak yang mencampuradukkan perbedaan SRAM dan HBM
HBM berbasis DRAM, kapasitasnya besar tetapi lebih lambat, sedangkan SRAM jauh lebih cepat namun mahal
Cerebras mengintegrasikan 44GB SRAM raksasa dalam satu chip untuk mendapatkan kecepatan ekstrem
Tetapi desainnya tidak sederhana, jadi performa nyata tetap ditentukan oleh banyak faktor
OpenAI mungkin merancang modelnya agar muat dalam 44GB, atau menghubungkan beberapa chip dalam bentuk rantai
Dalam AI suara real-time, latency adalah faktor kunci
Manusia mulai merasa aneh jika waktu tunggu melebihi 800ms, jadi waktu yang tersedia untuk inferensi LLM hanya sekitar 400~500ms
Dengan kecepatan Sonnet (80 tok/s), satu kalimat pun sulit, tetapi dengan kecepatan Cerebras atau Groq (1000 tok/s ke atas), lebih dari 400 token dimungkinkan
Karena itu, model kecil yang di-tuning secara spesifik domain bisa lebih efisien daripada model besar
Pendekatan council yang menggabungkan beberapa agen kecil adalah cara untuk mendapatkan kecepatan dan kualitas sekaligus
Selain itu, dengan speculative decoding, respons yang sering dipakai bisa diprediksi lebih dulu untuk menyiapkan TTS, sehingga pada 60% percakapan respons di bawah 200ms menjadi mungkin