DSpark: Mempercepat inferensi LLM dengan speculative decoding [pdf]

(github.com/deepseek-ai)

1 poin oleh GN⁺ 7 jam lalu | 1 komentar | Bagikan ke WhatsApp

DSpark: framework speculative decoding yang menggabungkan generasi semi-autoregressive dan penjadwalan kepercayaan
Parallel drafter mengusulkan blok token panjang dalam satu forward pass, tetapi ketiadaan dependensi antartoken menyebabkan penurunan tajam tingkat penerimaan di bagian akhir (acceptance decay); masalah ini diatasi sekaligus dengan struktur semi-autoregressive dan verifikasi sadar beban
Menggabungkan backbone paralel yang berat dengan modul sekuensial ringan untuk menyuntikkan dependensi di dalam blok, mempertahankan kecepatan drafting sekaligus meredakan keruntuhan sufiks (suffix decay)
Confidence head memperkirakan probabilitas kelangsungan prefix per posisi, dan scheduler sadar hardware menyesuaikan panjang verifikasi secara dinamis untuk tiap request sesuai kurva throughput engine
Pada benchmark offline, secara konsisten meningkatkan accepted length dibanding baseline autoregressive (Eagle3) dan baseline paralel (DFlash), serta menekan pemborosan verifikasi saat deployment layanan nyata DeepSeek-V4
Dibanding baseline production yang ada, MTP-1, mempercepat kecepatan generasi per pengguna sebesar 60–85% pada throughput yang sama, membuka rentang performa yang sebelumnya tidak tercapai di bawah batasan interaksi ketat dan memperluas Pareto frontier

Definisi masalah — dua bottleneck pada parallel drafter

LLM menghasilkan token secara autoregressive; tiap token membutuhkan forward pass yang dikondisikan pada seluruh token sebelumnya, sehingga latensi inferensi sebanding dengan panjang output, dan utilisasi GPU yang rendah serta waktu tunggu tinggi menjadi bottleneck utama dalam serving production
Speculative decoding mempercepat tanpa kehilangan kualitas: model draft ringan mengusulkan blok kandidat, model target memverifikasi dengan satu forward pass, lalu prefix terpanjang yang cocok dengan distribusi target diterima melalui rejection sampling
Keterbatasan drafter autoregressive
- Memiliki kemampuan pemodelan kuat karena tiap posisi dikondisikan pada token sebelumnya, tetapi biaya drafting berbanding linear dengan ukuran blok (𝑇draft ∝ 𝛾), sehingga dibatasi pada blok kecil dan struktur dangkal
Keterbatasan drafter paralel
- Menghasilkan semua posisi sekaligus, sehingga latensi draft nyaris tidak bergantung pada ukuran blok dan memungkinkan penggunaan blok besar (mis. 𝛾=16)
- Memprediksi tiap posisi secara independen sehingga tidak dapat memodelkan dependensi antartoken, memicu multi-modal collision dan penurunan tajam tingkat penerimaan di bagian akhir
- Memverifikasi seluruh blok panjang secara sembarangan menurunkan throughput, terutama di lingkungan dengan konkurensi tinggi, ketika token berisiko penolakan tinggi mengisi kapasitas batch
- Panjang verifikasi ideal berubah pada dua sumbu — sisi data (request terstruktur seperti kode memiliki tingkat penerimaan tinggi, chat terbuka rendah) dan sisi sistem (pada beban rendah verifikasi tambahan hampir gratis, pada beban tinggi menggerus kapasitas request aktif lain)

Arsitektur — dua komponen yang saling melengkapi

Latensi per token adalah 𝐿 = (𝑇draft + 𝑇verify)/𝜏, dan akselerasi direduksi menjadi tiga tuas: mengurangi 𝑇draft, meningkatkan 𝜏, dan mengurangi 𝑇verify efektif
Siklus decoding: dari prompt ABC, model target menghasilkan token berikutnya D (berperan sebagai anchor) → backbone paralel dan head sekuensial menghasilkan draft EFGH serta skor kepercayaan c1–c4 → scheduler mempertahankan prefix EFG dan menghapus token H berkepercayaan rendah → model target memverifikasi secara paralel, menerima E·F, menolak G, lalu menghasilkan token koreksi G*
Generasi semi-autoregressive (Semi-Autoregressive Generation)
- Parallel drafter dapat menghasilkan kombinasi tidak konsisten seperti “of problem” dari banyak kemungkinan lanjutan seperti “of course”/“no problem”, karena tiap posisi melakukan marginalisasi atas semua token pendahulu yang mungkin, bukan atas token pendahulu yang benar-benar disampel
- Tahap paralel (Parallel stage): backbone paralel (mengadopsi DFlash) melakukan satu forward pass atas seluruh blok, menghasilkan hidden state dan logit dasar; anchor sendiri diperlakukan sebagai posisi prediksi pertama sehingga 𝛾 input menghasilkan 𝛾 logit, mengurangi komputasi draft
- Tahap sekuensial (Sequential stage): menambahkan bias transisi bergantung prefix 𝐵𝑘 ke logit dasar, sehingga tiap posisi dikondisikan pada token sampel sebelumnya di dalam blok; memicu distribusi blok kausal melalui faktorisasi autoregressive, dan karena diproses sekuensial, harus cukup ringan dibanding tahap paralel (𝑇sequential ≪ 𝑇parallel)
  - Markov head: disederhanakan menjadi transisi orde-1 yang hanya bergantung pada token tepat sebelumnya; matriks penuh 𝑉×𝑉 diaproksimasi dengan dekomposisi low-rank 𝐵 = 𝑊1𝑊2 (default 𝑟=256), meminimalkan penyimpanan dan komputasi per langkah; setelah “of” disampel, memperkuat “course” dan menekan “problem” untuk meredakan collision lintas mode
  - RNN head: mengakumulasi seluruh riwayat prefix di dalam blok lewat state rekuren 𝑠𝑘; pembaruan gate memberi akses ke informasi sebelum token tepat sebelumnya, tetapi kompleksitas implementasi lebih tinggi dan karakteristik deployment kurang menguntungkan
Verifikasi dengan penjadwalan kepercayaan (Confidence-Scheduled Verification)
- Karena tingkat penerimaan draft bervariasi menurut domain (kode tinggi, chat terbuka rendah), dan biaya verifikasi token tambahan bergantung pada beban engine, diperlukan mekanisme terpadu yang merutekan komputasi target hanya ke token dengan expected return positif
- Confidence Head: untuk tiap posisi 𝑘, mengeluarkan estimasi skalar 𝑐𝑘 ∈ (0,1), memodelkan probabilitas kondisional bahwa token di posisi 𝑘 lolos verifikasi dengan syarat semua token sebelumnya diterima; strukturnya berupa proyeksi linear ringan + sigmoid
  - Dilatih secara terarah dengan tingkat penerimaan analitis per langkah 𝑐*𝑘 = 1 − ½‖𝑝𝑑𝑘 − 𝑝𝑡𝑘‖1 (jarak total variation antara distribusi draft dan target)
- Kalibrasi pascaproses — Sequential Temperature Scaling (STS): penjadwalan sadar hardware membutuhkan nilai absolut probabilitas penerimaan kumulatif, tetapi kepercayaan neural network cenderung overconfident; karena tiap 𝑐𝑖 adalah probabilitas kondisional, difaktorkan sebagai hasil kali kumulatif prefix, lalu dilakukan 1D grid search dari kiri ke kanan pada validation set held-out untuk meminimalkan ECE; transformasinya mempertahankan urutan, sehingga ranking token tetap terjaga
- Hardware-Aware Prefix Scheduler: memformalkan pemilihan panjang verifikasi sebagai masalah pemaksimalan throughput global; untuk 𝑅 request aktif, memanfaatkan SPS(𝐵) (tabel biaya yang diprofilkan sekali saat inisialisasi engine) untuk memaksimalkan 𝛩 = 𝜏·SPS(𝐵)
  - Karena probabilitas kelangsungan 𝑎𝑟,𝑗 menurun monoton terhadap 𝑗, pengurutan global dan pemilihan greedy secara alami mematuhi dependensi prefix di dalam blok; admisi bertahap dilakukan dengan lookup tabel biaya 𝑂(1)
  - Speculative decoding lossless membutuhkan sifat non-anticipating; karena fitur Markov bergantung pada token sampel sebelumnya, pencarian global pascafakta akan membocorkan informasi 𝑥𝑟,𝑘 dan menyebabkan bias seleksi
  - Mekanisme early-stopping langsung berhenti ketika throughput menurun, memaksa keputusan admit hanya bergantung pada prefix yang telah diproses hingga langkah tersebut; jaminan optimum global hanya berlaku ketika objektif 𝛩 bersifat unimodal

Pelatihan (Training)

Dari sequence target, banyak posisi anchor disampel acak untuk membentuk blok 𝛾-token sebagai data pelatihan
Model target dibekukan (frozen) selama seluruh proses; model draft berbagi embedding layer dan LM head serta dibekukan, sementara hanya backbone drafter, blok sekuensial, dan confidence head yang diperbarui
Tujuan pelatihan adalah jumlah berbobot dari tiga komponen — cross-entropy loss Lce, distribution matching loss Ltv, dan confidence loss Lconf
- Semua komponen diberi bobot posisi 𝑤𝑘 = exp(−(𝑘−1)/𝛾), menekankan posisi awal yang berkontribusi lebih besar pada expected accepted length dalam verifikasi berbasis prefix
- Ltv memberi penalti pada jarak total variation; karena probabilitas penerimaan per langkah sama dengan 1 − ½‖𝑝𝑑 − 𝑝𝑡‖1, meminimalkan Ltv berarti memaksimalkan expected acceptance rate
- Bobot default: 𝛼ce = 0.1, 𝛼tv = 0.9, 𝛼conf = 1.0

Eksperimen — benchmark offline

Setup
- Model target: Qwen3-{4B, 8B, 14B}, Gemma4-12B / drafter pembanding: drafter paralel SOTA DFlash, drafter autoregressive Eagle3
- Seluruhnya dilatih ulang dengan framework dan data yang sama; TTT horizon Eagle3 (7) diselaraskan dengan ukuran blok DFlash·DSpark (7), jumlah layer draft Eagle3 adalah 1, sedangkan DSpark dan DFlash 5
- Data pelatihan: Open-PerfectBlend 1,3 juta sampel (chat 17,6%, math 39,4%, code 38,9%, instruction-following 4,1%); hanya prompt yang digunakan dan respons diregenerasi oleh tiap model target; dilatih 10 epoch
- Domain evaluasi: matematika (GSM8K, MATH500, AIME25), kode (MBPP, HumanEval, LiveCodeBench), chat sehari-hari (MT-Bench, Alpaca, Arena-Hard), sampling temperature 1.0, melaporkan accepted length 𝜏 per ronde
Hasil utama
- Evaluasi offline menonaktifkan confidence scheduler untuk memisahkan kualitas draft murni dengan blok tetap
- Pada Qwen3-4B·8B·14B, macro-average accepted length meningkat 30,9%·26,7%·30,0% dibanding Eagle3, dan 16,3%·18,4%·18,3% dibanding DFlash; pada Gemma4-12B juga menunjukkan keuntungan konsisten, mengonfirmasi generalisasi lintas keluarga model
- Accepted length pada tugas terstruktur lebih tinggi daripada chat terbuka (untuk Qwen3-4B: matematika 5,57·kode 5,12 vs chat 3,49); variasi prediktabilitas data menyebabkan pemborosan pada panjang verifikasi statis dan menjadi motivasi confidence scheduling

Analisis eksperimen

Mengapa generasi paralel mengungguli autoregressive
- Pengamatan kontraintuitif bahwa drafter paralel·semi-autoregressive menghasilkan accepted length lebih panjang daripada Eagle3 yang sepenuhnya autoregressive dianalisis dengan tingkat penerimaan kondisional per posisi (penyebut hanya menghitung kasus ketika semua posisi sebelumnya diterima)
- Keunggulan kapasitas posisi 1: posisi pertama hanya bergantung pada konteks target; Eagle3 dibatasi jaringan dangkal karena latensi 𝑂(𝛾), sedangkan drafter paralel 𝑂(1) dapat memakai jaringan dalam; DFlash memulai lebih tinggi daripada Eagle3 (matematika 0,88 vs 0,81, chat 0,72 vs 0,53), dan karena penolakan token pertama membatalkan seluruh blok, keunggulan awal berdampak besar pada accepted length akhir
- Batas independensi pada posisi akhir: pada posisi 2–7, Eagle3 memanfaatkan kepastian kondisional untuk mempertahankan/menaikkan tingkatnya (chat 0,53→0,74), sedangkan DFlash turun tajam (kode 0,87→0,78, chat 0,72→0,63), menghasilkan sufiks tidak konsisten akibat multi-modal collision
- Semi-autoregressive meredakan keruntuhan sufiks: DSpark mewarisi acceptance awal yang tinggi dari backbone paralel dalam (mulai 0,93 pada matematika), sambil menekan keruntuhan akhir dengan head sekuensial ringan, sehingga mempertahankan tingkat penerimaan kondisional yang tinggi dan stabil di seluruh blok
Sedikit autoregression sudah memberi efek besar
- Kedalaman drafter: dengan ukuran blok 7 tetap, performa meningkat monoton saat jumlah layer DSpark naik 1→5; marginal gain terbesar pada 1→2 layer, dan DSpark 2-layer mengungguli DFlash 5-layer di semua domain, membuktikan efisiensi parameter head sekuensial
- Panjang proposal: dengan kedalaman 5 tetap, saat panjang draft diperluas {4,8,12,16}, DSpark mengungguli DFlash pada setiap panjang; selisih melebar seiring kenaikan 𝛾 (pada 𝛾=7: matematika 16%·kode 15%·chat 18%, pada 𝛾=15: 30%·26%·22%); RNN head hanya memberi tambahan kecil pada panjang besar, sehingga Markov head dipilih sebagai default
- Overhead latensi: berdasarkan rata-rata batch 128 dan panjang konteks {512,1024,2048,4096}, latensi blok sekuensial dapat diabaikan; memperluas panjang draft 4→16 hanya menambah 0,2–1,3% pada latensi ronde total, sambil meningkatkan accepted length hingga 30%
Peran confidence head — bukan memverifikasi lebih panjang, melainkan lebih cerdas
- Diagnosis sweep threshold statis dengan Qwen3-4B: ketika threshold naik, token yang akan ditolak tersaring sehingga acceptance rate meningkat; efek paling besar pada chat (45,7%→95,7%), sedangkan matematika (76,9%→92,5%) dan kode (67,6%→92,0%) lebih landai
- Threshold statis mengabaikan beban sistem sehingga tidak optimal dalam serving dinamis; model kepercayaan memiliki daya diskriminatif kuat (ROC-AUC 0,81–0,90) tetapi overconfident (ECE 3–8%); setelah STS diterapkan, ECE rata-rata turun menjadi sekitar 1%, memberikan estimasi kelangsungan yang dapat dipercaya

Deployment layanan nyata

Pelatihan yang skalabel
- Dideploy bersama DeepSeek-V4-Flash·Pro preview; backbone paralel terdiri dari 3 layer MoE dengan mHC dan sliding window attention 128, ukuran blok maksimum 𝛾=5, menggunakan Markov head, dan confidence head dilatih end-to-end lalu dikalibrasi dengan STS
- Komunikasi hidden state (Hidden state communication): alih-alih mengirim logit seluruh vocabulary (𝑉≈10⁵), hanya hidden state tepat sebelum LM head yang dikomunikasikan, lalu LM head dijalankan secara lokal pada worker draft hanya untuk posisi sampel; kompleksitas komunikasi per token diperkecil menjadi 𝑂(𝑑)
- Anchor-bounded sequence packing: men-sampling sejumlah tetap anchor draft dan mengemas blok prediksi terisolasi ke batch padat; causal masking antar-sequence independen dijaga dengan indeks attention level token, sambil menghindari overhead padding
Penerapan scheduler di praktik
- Dua konflik — algoritme mengasumsikan kurva kapasitas halus dan unimodal, tetapi SPS(𝐵) nyata bersifat diskret dengan penurunan bertangga; penjadwalan token dinamis per langkah bertentangan dengan replay CUDA graph berkelanjutan dan Zero-Overhead Scheduling (ZOS)
- Diadaptasi dengan penjadwalan asinkron: karena ZOS membutuhkan ukuran batch berikutnya sebelum langkah saat ini selesai, kapasitas verifikasi diaproksimasi dari output kepercayaan dua langkah sebelumnya; kandidat langkah saat ini diurutkan berdasarkan kepercayaan kumulatif terbaru, sedangkan prediksi lama hanya digunakan untuk menentukan panjang pemotongan dinamis (𝐾), lalu dicasting sebagai pemilihan top-𝐾 dinamis
- Early stopping dihapus untuk mengaktifkan pencarian global tanpa batas; karena hanya mengevaluasi riwayat dua langkah sebelumnya, mekanisme ini terisolasi dari realisasi token saat ini 𝑥𝑟,𝑘 dan membentuk batas kausal, sehingga memaksimalkan throughput fisik melintasi hardware cliff sekaligus mempertahankan distribusi target yang tepat
Inferensi throughput tinggi dan latensi rendah
- Serving production mengoptimalkan latensi per request dan throughput total secara bersamaan; dalam deployment ini, karena batasan kapasitas KV-cache dan trafik pengguna membuat ukuran batch efektif tetap di bawah ambang saturasi GPU, kedua tujuan tersederhanakan menjadi berkorelasi tinggi alih-alih saling bersaing
- Tantangannya adalah mendukung query berdurasi variabel; jika ditangani sederhana pada decode kernel panjang tetap, padding dan beban tak merata membuat utilisasi GPU rendah; semua token request diratakan dan diproses sebagai elemen independen, sementara dependensi internal sequence disampaikan melalui marker tensor pada sparse attention; pada DeepSeek-V4, hanya kernel index-attention dan compress yang dimodifikasi untuk mendukung routing panjang variabel
Performa trafik pengguna nyata
- DSpark-5 (𝛾=5) dibandingkan dengan baseline MTP-1 pada engine production V4-Flash·Pro; MTP-1 adalah konfigurasi token tunggal yang dipertahankan karena drafter multi-token statis (MTP-3/5) menurunkan throughput pada konkurensi tinggi, dan diganti oleh DSpark dua minggu setelah rilis DeepSeek-V4-preview
- V4-Flash: pada SLA 80 tok/s/user, throughput meningkat 51%; pada 120 tok/s/user, MTP-1 mendekati batas operasional sehingga DSpark unggul nominal 661% (ditafsirkan sebagai bukti perluasan frontier interaksi, bukan kelipatan absolut); pada throughput yang sama, generasi per pengguna dipercepat 60–85%
- V4-Pro: pada 35 tok/s/user meningkat 52%; pada 50 tok/s/user unggul nominal 406%; pada kapasitas yang sama dipercepat 57–78%, secara keseluruhan menggeser throughput–interactivity frontier ke luar
- Perilaku adaptif terhadap beban: pada konkurensi menengah (V4-Flash di bawah 200 request, V4-Pro di bawah 150 request), scheduler memperluas 2 token statis MTP-1 menjadi sekitar 4–6 token per request untuk meningkatkan token yang diterima per forward pass; saat konkurensi jenuh, panjang verifikasi diperkecil secara halus untuk memangkas token berkepercayaan rendah sebelum menggerus kapasitas batch
Keterbatasan
- Prefix scheduler meminimalkan pemborosan verifikasi target, tetapi tetap ada biaya draft tetap untuk menghasilkan blok awal 𝛾-token dari backbone paralel; pada query kompleks dengan acceptance rate yang secara inheren rendah, komputasi awal ini tidak dapat dipulihkan
- Ke depan, hal ini dapat diperbaiki dengan difficulty-aware early exiting di dalam model draft agar request tersebut dapat melewati pembuatan seluruh blok

Kesimpulan

Dari sisi struktural, paradigma semi-autoregressive yang menggabungkan backbone paralel berat dan head sekuensial ringan meredakan keruntuhan sufiks tajam pada independent parallel drafter
Dari sisi sistem, pemilihan panjang verifikasi diformalkan sebagai masalah pemaksimalan throughput global, dengan hardware-aware prefix scheduler berbasis probabilitas kelangsungan terkalibrasi dan beban engine real-time untuk menyesuaikan anggaran verifikasi secara dinamis
Evaluasi offline luas mengungguli baseline autoregressive dan paralel SOTA; deployment nyata DeepSeek-V4 membuktikan nilai praktis melalui pemeliharaan konkurensi beban tinggi, akselerasi generasi per pengguna, dan perluasan Pareto frontier serving LLM

1 komentar

GN⁺ 7 jam lalu

Opini Hacker News

DeepSeek tidak hanya mendorong batas, tetapi juga merilis makalah yang sangat bagus yang menjelaskan bagaimana mereka mencapai peningkatan performa tersebut
Sayangnya, lab-lab AS tidak lagi banyak melakukan keterbukaan seperti ini, dan tampaknya pekerjaan paling menarik di AI saat ini dilakukan oleh lab-lab Tiongkok
- Google juga masih banyak memublikasikan riset arsitektur LLM
  Mereka memperkenalkan speculative decoding untuk LLM pada 2022[1], dan tahun ini juga merilis kode untuk melakukan speculative decoding pada model Gemma 4[2]
  
  [1] https://arxiv.org/abs/2211.17192
  
  [2] https://github.com/google-gemma/cookbook/blob/main/docs/mtp/...
- Perusahaan AI AS harus mempertanggungjawabkan dana investasi yang sangat besar, jadi tampaknya mereka mencari moat ajaib untuk membenarkan valuasi mereka
  Jika optimasi seperti ini dibuka, keunggulan kompetitif mereka akan berkurang cukup besar
- Bisa jadi keterbukaan itu lahir dari kebutuhan
  Karena lab-lab AS sedang membuka jalan di garis depan, dugaan saya DeepSeek membuka apa yang mereka miliki sebagai open source untuk meratakan arena persaingan
- DeepSeek sedang mengomoditisasi peningkatan performa yang diandalkan lab-lab AS untuk menghasilkan uang bagi investor mereka
- Kini sudah waktunya dunia Barat meninggalkan pandangan bahwa orang Tiongkok hanyalah “orang-orang yang sangat buruk di bawah kediktatoran”
Model Hugging Face-nya sudah tersedia, dan terlihat cukup keren karena tampaknya modul speculative decoding tertanam di model aslinya

Flash: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark

Pro: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark

Saya menantikan apakah ini juga akan masuk ke DwarfStar untuk inferensi lokal
Sejak antirez merilis kuantisasi 2-bit, saya banyak memakai model Flash
- Mungkinkah ini juga diterapkan ke Qwen 27B?
Saat ini rasanya DeepSeek adalah hampir satu-satunya perusahaan AI yang benar-benar berusaha berinovasi, bukan sekadar mengejar peringkat pertama benchmark
Tempat seperti OpenAI, Anthropic, dan Google tampaknya lebih sibuk bersaing satu sama lain daripada terus berinovasi
- Menurut saya, lab Tiongkok lain seperti Moonshot(pengembang Kimi) dan Z.ai(pengembang GLM) juga perlu disertakan
  Mereka juga berinovasi dan terus membagikan riset secara terbuka
  Seingat saya, pendiri Moonshot bahkan mengunggah video 40 menit di Twitter yang menjelaskan teknik yang menopang Kimi
- Banyak perusahaan AS sudah sejak lama menjadikan mengunci pengguna dengan cara apa pun sebagai strategi mereka
  Kualitas dan inovasi adalah faktor kedua; mereka ingin menguasai pasar, mengurung pengguna, lalu mempertahankan kekuasaan dengan memengaruhi regulasi dan lobi
- Perusahaan-perusahaan itu juga saling bersaing lewat inovasi
  Inovasi memberi manfaat lebih besar bagi pelanggan, hanya saja teknologinya tidak dipublikasikan
  Rahasia dagang dirahasiakan karena ada alasannya
  
  Alasan DeepSeek terlihat “paling inovatif” mungkin karena itulah yang bisa diamati dari luar
  Ini mirip kekeliruan menyimpulkan bahwa model-model yang fotonya dipublikasikan adalah yang paling cantik dari seluruh populasi, hanya karena tidak semua orang memublikasikan foto mereka ke publik
- Lab-lab besar sudah melakukan hal seperti ini setidaknya sejak setahun lalu
- Qwen juga sama
Saya sudah sebulan memakai DeepSeek v4 pro di Kilo Code, dan hasilnya luar biasa
Cepat, stabil, punya context window besar, dan benar-benar murah
Bulan ini saya memakai 1,5 miliar token dan biayanya 40 dolar; memang sebagian besar di-cache, tetapi tetap murah
- Di omp, saya memakai DeepSeek sebagai agen task dan quicktask, lalu Sonnet untuk sisanya
  Pengeluaran AI saya turun drastis, dari 40 dolar per hari menjadi 10 dolar per hari
- Saya penasaran penyedia mana yang Anda pakai
  Di OpenRouter, 40 dolar cepat sekali habis
  Tidak banyak percakapan bolak-balik, konteksnya sekitar 300 ribu, dan output sekitar 15 ribu baris
  Saya memakai opencode, tetapi tidak yakin apakah total jumlah token bisa ditampilkan
- Saya penasaran apakah Anda sudah membandingkan Kilo dengan Pi atau OpenCode
  Saya sudah akrab dengan keduanya, tetapi selalu mencari alternatif
- Apakah ada cara untuk melihat berapa banyak token yang sudah dipakai di Claude Code Pro?
Apakah ini lebih baru atau lebih baik daripada speculative decoding dari 2022? https://arxiv.org/abs/2211.17192
- Makalah itu dikutip di bagian ‘introduction’ dan ‘background’ makalah ini
  Makalah ini membahas peningkatan dengan menghilangkan beberapa bottleneck
- Sepertinya fokusnya adalah memperbaiki draft model dan kebijakan verifikasi agar pada skala DeepSeek, spekulasi menghasilkan peningkatan kecepatan murni, bukan kerja verifikasi yang terbuang
Waktunya sepertinya bukan kebetulan
Tampaknya ini dipamerkan sebagai kontras antara keterbukaan dan regulasi yang ketat
- Tiongkok = terbuka, AS = regulasi ketat; timeline yang aneh
  Namun ini mungkin terjadi karena selaras dengan tujuan Xi
- Tidak ada yang memaksa Anthropic melakukan serangan media yang membesar-besarkan risiko model AI baru
  Jujur saja, itu akibat perbuatan sendiri
Judulnya kurang bagus
Itu bukan judul makalah, melainkan baris pertama abstrak
Speculative decoding untuk inferensi LLM sudah dipublikasikan pada 2022: https://arxiv.org/abs/2211.17192

Makalah ini tampaknya merupakan peningkatan atas speculative decoding, tetapi saya belum membacanya
Karena namanya, awalnya saya kira ini terkait dengan DGX Spark
Kebetulan belakangan ini ada banyak pekerjaan untuk meningkatkan performa inferensi DGX Spark, dan karena MTP memberi peningkatan kecepatan 50–100%, DSpark tampaknya juga akan cukup membantu untuk tujuan itu
Mungkin ini sudah dipakai di produksi selama beberapa waktu, dan kemungkinan menjadi salah satu alasan mereka bisa menurunkan harga secara besar-besaran sebulan lalu
- Betul
  Bab 5 membahas deployment nyata
  Di 5.1 tertulis “DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro”, dan di 5.4 tertulis “MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release”
- Lookahead Sparse Attention juga mungkin berperan besar
  Karena itu sangat mengurangi penggunaan memori
- Pengamatan yang tepat
  Mereka menurunkan harga 75%, dan itu tampaknya persis cocok dengan keuntungan dari optimasi kecepatan dan inferensi
Sepertinya sebentar lagi akan ada dunia dengan sangat banyak model kecil untuk speculative decoding yang unik bagi tiap use case, perusahaan, bahkan individu
- Saya berharap begitu, dan semoga hardware tidak menjadi mustahil didapat
- Benar
  Bentuknya akan sangat dibatasi oleh guardrail yang canggih
  
  Arahnya jelas ke sana
  Model-model raksasa yang ingin melahap seluruh dunia mengalami diminishing returns yang sangat parah dibandingkan itu
- Sepertinya Anda jelas belum membaca makalah-makalah speculative decoding terbaru
  Sudah cukup lama model apa pun bisa digunakan untuk berspekulasi bagi model lain
  Masalah tokenisasi yang dulu menghalangi hal ini sudah terpecahkan

DSpark: Mempercepat inferensi LLM dengan speculative decoding [pdf]

Definisi masalah — dua bottleneck pada parallel drafter

Keterbatasan drafter autoregressive

Keterbatasan drafter paralel

Arsitektur — dua komponen yang saling melengkapi

Generasi semi-autoregressive (Semi-Autoregressive Generation)

Verifikasi dengan penjadwalan kepercayaan (Confidence-Scheduled Verification)

Pelatihan (Training)

Eksperimen — benchmark offline

Setup

Hasil utama

Analisis eksperimen

Mengapa generasi paralel mengungguli autoregressive

Sedikit autoregression sudah memberi efek besar

Peran confidence head — bukan memverifikasi lebih panjang, melainkan lebih cerdas

Deployment layanan nyata

Pelatihan yang skalabel

Penerapan scheduler di praktik

Inferensi throughput tinggi dan latensi rendah

Performa trafik pengguna nyata

Keterbatasan

Kesimpulan

Bacaan terkait

1 komentar

Opini Hacker News