Dua pendekatan berbeda untuk inferensi LLM yang cepat

(seangoedecke.com)

6 poin oleh GN⁺ 2026-02-16 | 1 komentar | Bagikan ke WhatsApp

Anthropic dan OpenAI masing-masing merilis fast mode untuk model coding terbaik mereka, sehingga kecepatan inferensi meningkat drastis
Anthropic memberikan hingga 2,5x kecepatan pemrosesan token dengan tetap memakai model Opus 4.6 yang sama sambil mengurangi ukuran batch
OpenAI memperkenalkan model baru GPT-5.3-Codex-Spark berbasis chip Cerebras yang menghasilkan lebih dari 1000 token per detik, tetapi akurasi relatif lebih rendah
Kedua pendekatan ini memakai prinsip teknis yang sepenuhnya berbeda: inferensi dengan batch kecil dan inferensi in-memory berbasis chip raksasa
Inferensi cepat memang mengesankan secara teknis, tetapi ada pandangan bahwa akurasi lebih penting daripada kecepatan, dan nilai ekonomis serta kegunaannya masih belum pasti

Struktur Fast Mode milik Anthropic

Pendekatan Anthropic berbentuk meminimalkan latensi dengan mengurangi ukuran batch
- Bottleneck utama GPU adalah transfer memori, dan batching yang menggabungkan permintaan dari banyak pengguna meningkatkan throughput tetapi menambah waktu tunggu
- Fast mode ini mirip “bus yang langsung berangkat” begitu pengguna mengirim permintaan
Pendekatan ini memberi kecepatan 2,5x lebih cepat dengan biaya 6x lebih tinggi
- Waktu tunggu batch hilang sehingga latensi hingga token pertama berkurang
- Namun throughput keseluruhan GPU menurun
Sejumlah pengguna menyoroti bahwa setelah token pertama, latensinya tidak terlalu besar, dan efek batch kecil lebih dekat ke peningkatan kecepatan eksekusi akibat berkurangnya jumlah komputasi

Struktur Fast Mode milik OpenAI

OpenAI mengambil pendekatan yang sepenuhnya berbeda dengan memanfaatkan chip Cerebras
- Alih-alih model yang ada, OpenAI memakai model ringan (distilled) bernama GPT-5.3-Codex-Spark
- Spark kurang canggih dibanding model asli, tetapi mencapai kecepatan inferensi lebih dari 15x lebih cepat
Chip Cerebras adalah chip wafer-scale raksasa berukuran 70 inci persegi dengan SRAM 44GB terintegrasi
- Seluruh model dimuat ke dalam SRAM sehingga memungkinkan inferensi in-memory tanpa akses ke memori eksternal
- Ini sangat berbeda dibanding SRAM GPU yang biasanya hanya berada di kisaran puluhan MB
Model Spark diperkirakan di-shard dan ditempatkan di beberapa chip Cerebras, dan konfigurasi ini menjadi faktor utama peningkatan kecepatan

Perbandingan teknis dan evaluasi

Anthropic mempertahankan model yang ada apa adanya dan hanya menyesuaikan kebijakan batching
OpenAI mencapai peningkatan performa yang lebih mendasar dengan menggabungkan arsitektur hardware baru dan desain model baru
Menjalankan model di atas chip Cerebras adalah tantangan teknis yang kompleks, dan pelatihan model Spark juga bukan pekerjaan mudah
Pendekatan dua perusahaan ini menunjukkan bagaimana tujuan yang sama, yaitu peningkatan kecepatan, bisa dicapai lewat jalur teknis yang berbeda, dan pendekatan OpenAI terlihat lebih mengesankan secara teknis

Makna dan batasan inferensi cepat

Dengan pengumuman dari kedua perusahaan, “inferensi AI cepat” tampak seperti poros kompetisi berikutnya, tetapi pada praktiknya nuansa respons strategis masih sangat kuat
- Anthropic tampak bergerak cepat untuk merespons pengumuman OpenAI
- OpenAI masih berada pada tahap mempublikasikan hasil eksperimental dari kolaborasi dengan Cerebras
Model yang cepat tetapi kurang canggih memiliki keterbatasan dalam pemakaian nyata
- Pengguna justru bisa menghabiskan lebih banyak waktu untuk menangani kesalahan model, sehingga akurasi lebih penting daripada kecepatan
Meski begitu, model “akurasi rendah, inferensi cepat” seperti ini tetap berpotensi dipakai sebagai komponen bawahan dalam sistem AI
- Contoh: use case Haiku di Claude Code, dan kemungkinan internalisasi Spark oleh OpenAI

Diskusi komunitas dan pengamatan tambahan

Di Hacker News, muncul beragam pendapat tentang karakteristik performa batching dan bottleneck komunikasi antarchip
- Sebagian berpendapat bahwa continuous batching membuat waktu tunggu hampir tidak ada
- Yang lain membantah dengan mengatakan bahwa konektivitas antarchip memengaruhi kecepatan inferensi
Trade-off antara ukuran batch dan latensi tetap ada
Anthropic secara eksplisit menyebut bahwa latensi token pertama masih bisa lambat, sementara OpenAI mencoba meminimalkannya lewat koneksi persisten berbasis WebSocket
Secara keseluruhan, struktur inferensi LLM cepat bersifat kompleks dan sulit dijelaskan dengan model sederhana

1 komentar

GN⁺ 2026-02-16

Komentar Hacker News

Banyak orang salah paham soal fast mode milik Anthropic. Mungkin karena namanya.
Sebenarnya ini justru lebih mahal, dan bekerja lebih cerdas pada masalah yang sulit.
Pendekatan parallel distill and refine pada paper ini sangat cocok dengan penjelasan tersebut.
Strukturnya adalah menghasilkan beberapa jalur secara paralel, lalu dengan cepat melakukan distill dan refine sebelum mengeluarkan hasil.
Metode ini menghabiskan lebih banyak token, tetapi memungkinkan output yang lebih cepat dan lebih cerdas
speculative decoding tidak terkait dengan peningkatan kualitas, sementara batching biasa meningkatkan kecepatan tetapi menurunkan biaya
Gemini Deepthink dan GPT-5.2-pro juga melakukan inferensi paralel serupa, tetapi menghitung seluruh jalur sampai selesai lalu memurnikan hasilnya
- Menurut dokumentasi resmi Anthropic, fast mode adalah model Opus 4.6 yang sama persis, hanya pengaturan API-nya yang berbeda untuk memprioritaskan kecepatan. Kualitasnya tetap sama
Ide menjalankan inferensi dengan memuat seluruh model ke memori menggunakan chip Cerebras dengan SRAM 44GB cukup menarik
Ukuran GPT-5.3-Codex-Spark tampaknya dibatasi bukan oleh memori satu chip, melainkan oleh jumlah chip yang bisa dihubungkan
Cerebras mendukung model yang lebih besar dari 40B dengan kecepatan lebih tinggi, jadi kemungkinan Spark lebih dekat ke GLM 4.7 (355B parameter, 32B aktif)
Lihat halaman harga Cerebras
- Jika model di-shard, kecepatannya turun sangat jauh. Kelebihan chip wafer-scale adalah bandwidth memori on-chip; kalau itu dikorbankan, keunggulannya hilang
  Solusi Groq, TPU, dan Nvidia lebih baik dari sisi efisiensi daya
- Karena Cerebras bisa menjalankan model yang lebih besar dari 40B dengan lebih cepat, klaim di tulisan aslinya terasa sulit dipercaya
- Jika chip dihubungkan secara serial, yang bertambah hanya latency, sedangkan throughput tidak turun
- Seperti chip Groq, meski SRAM kecil tetap bisa menjalankan model besar. Jadi menghubungkan chip tidak otomatis berarti kecepatan turun
Anthropic kemungkinan besar merutekan permintaan fast ke hardware terbaru
Mereka mengoperasikan berbagai generasi TPU, GPU, dan perangkat lain, dan fast mode diduga hanya diproses di perangkat tercepat
- Bandwidth memori GB200 2,4 kali lebih cepat daripada H100. Jadi fast mode sangat mungkin hanya perbedaan hardware
  Teknik seperti speculative decoding kemungkinan sudah dipakai, jadi rasanya bukan karena perbaikan batching
Seperti klaim di akhir artikel, pernyataan bahwa akurasi lebih penting daripada kecepatan mungkin benar untuk saat ini
Namun jika lewat kolaborasi OpenAI–Cerebras model besar seperti Codex-5.3 bisa dijalankan langsung di atas chip,
model yang cepat sekaligus akurat bisa menjadi mungkin dan cukup baik untuk menggantikan pekerjaan layanan pelanggan
- Namun untuk menjalankan model kelas 5~7TB dengan SRAM 40GB diperlukan daya setingkat beberapa megawatt. Konsumsi daya Cerebras sangat besar
  Jika nanti muncul silikon khusus LLM, eranya bisa jauh lebih efisien
- Jika masalah penurunan kualitas saat melatih dengan data buatan AI masih belum terselesaikan, memperbarui model akan makin sulit
Masalah harus menunggu batching sebenarnya sudah diatasi lewat continuous batching
Berkat teknologi ini, Claude Code bisa ditawarkan dengan harga murah
Tulisan terkait
Analogi bus terasa agak aneh. Dalam praktiknya, fast mode justru bekerja dengan mengambil porsi batch yang lebih besar untuk meningkatkan throughput
Melihat skala trafik Anthropic, batch kemungkinan akan terisi hampir seketika
Menarik juga kenapa ChatGPT bisa merespons segera setelah pesan dikirim
Kalau tidak perlu menunggu batch, mungkin karena trafiknya sangat besar, atau karena input sudah di-streaming lebih dulu ke GPU lewat WebSocket
Banyak yang mencampuradukkan perbedaan SRAM dan HBM
HBM berbasis DRAM, kapasitasnya besar tetapi lebih lambat, sedangkan SRAM jauh lebih cepat namun mahal
Cerebras mengintegrasikan 44GB SRAM raksasa dalam satu chip untuk mendapatkan kecepatan ekstrem
Tetapi desainnya tidak sederhana, jadi performa nyata tetap ditentukan oleh banyak faktor
- HBM 80GB milik Nvidia adalah memori eksternal, sedangkan 44GB milik Cerebras adalah SRAM internal
  OpenAI mungkin merancang modelnya agar muat dalam 44GB, atau menghubungkan beberapa chip dalam bentuk rantai
Dalam AI suara real-time, latency adalah faktor kunci
Manusia mulai merasa aneh jika waktu tunggu melebihi 800ms, jadi waktu yang tersedia untuk inferensi LLM hanya sekitar 400~500ms
Dengan kecepatan Sonnet (80 tok/s), satu kalimat pun sulit, tetapi dengan kecepatan Cerebras atau Groq (1000 tok/s ke atas), lebih dari 400 token dimungkinkan
Karena itu, model kecil yang di-tuning secara spesifik domain bisa lebih efisien daripada model besar
Pendekatan council yang menggabungkan beberapa agen kecil adalah cara untuk mendapatkan kecepatan dan kualitas sekaligus
Selain itu, dengan speculative decoding, respons yang sering dipakai bisa diprediksi lebih dulu untuk menyiapkan TTS, sehingga pada 60% percakapan respons di bawah 200ms menjadi mungkin
- OpenAI tampaknya satu-satunya lab riset besar yang fokus pada model suara, jadi arah ini kemungkinan akan berkembang lebih jauh

Dua pendekatan berbeda untuk inferensi LLM yang cepat

Struktur Fast Mode milik Anthropic

Struktur Fast Mode milik OpenAI

Perbandingan teknis dan evaluasi

Makna dan batasan inferensi cepat

Diskusi komunitas dan pengamatan tambahan

Bacaan terkait

1 komentar

Komentar Hacker News