- I-DLM adalah kasus pertama di mana model bahasa berbasis difusi mencapai kualitas setara model AR (Autoregressive) sekaligus kecepatan generasi paralel
- Melalui Introspective Strided Decoding (ISD), model ini membuat token baru dan memverifikasi token sebelumnya dalam satu forward pass
- I-DLM-8B meningkatkan performa +26 poin di AIME-24 dan +15 poin di LiveCodeBench-v6 dibanding LLaDA-2.1-mini (16B), dengan setengah jumlah parameter
- Dengan Gated LoRA, model ini mewujudkan akselerasi lossless pada tingkat bit (bitwise) dan sepenuhnya kompatibel dengan infrastruktur SGLang
- Model bahasa difusi membuktikan potensi deployment skala besar yang praktis melalui pembelajaran self-consistency dan optimisasi decoding paralel
Ikhtisar
- I-DLM (Introspective Diffusion Language Model) adalah model yang mempertahankan kemampuan generasi token paralel dari diffusion language model (DLM) yang ada, sambil menyelesaikan masalah introspective consistency untuk mencapai kualitas setara model AR
- Melalui Introspective Strided Decoding (ISD), model ini menghasilkan token baru sekaligus memverifikasi token sebelumnya dalam satu forward pass
- I-DLM-8B adalah DLM pertama yang mencapai kualitas setara model AR pada skala sekelasnya; dibanding LLaDA-2.1-mini (16B), model ini meningkatkan +26 poin di AIME-24 dan +15 poin di LiveCodeBench-v6 dengan setengah parameter
- Pada lingkungan dengan konkurensi tinggi (C=64), model ini mencapai throughput 2.9~4.1x, serta mendukung akselerasi lossless pada tingkat bit (bitwise) melalui Gated LoRA
Mengapa Introspective Consistency Dibutuhkan
- Model AR melakukan generasi dan verifikasi diri sekaligus dalam satu forward pass, sedangkan DLM sebelumnya hanya dilatih untuk denoising, sehingga kekurangan self-consistency
- Tiga bottleneck utama pada DLM sebelumnya
- Self-consistency rendah: SDAR 0.699 vs I-DLM 0.984
- Komputasi tidak efisien: TiDAR sekitar 7.8x overhead vs I-DLM sekitar 2.5x
- Ketidakcocokan infrastruktur: SDAR slope=84 vs I-DLM=549
Metodologi I-DLM
-
Introspective-Consistency Training
- Mengonversi model AR yang telah dipretrain melalui causal attention, logit shift, dan all-masked objective
-
Introspective Strided Decoding (ISD)
- Menjalankan generasi N token dan verifikasi token sebelumnya secara bersamaan dalam satu forward pass
- Memverifikasi hasil generasi menggunakan acceptance criterion p/q
-
AR-Compatible Serving
- Dapat diintegrasikan langsung ke infrastruktur SGLang dengan struktur causal attention yang ketat
- Berjalan pada lingkungan serving yang sama dengan model AR tanpa infrastruktur kustom tambahan
Hasil Performa
- I-DLM adalah DLM pertama yang setara kualitasnya dengan model AR berukuran sama, dan melampaui DLM sebelumnya pada 15 benchmark
-
Hasil benchmark utama
- Pengetahuan & penalaran: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Matematika: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Kode: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Eksekusi instruksi: IFEval 84.7
- I-DLM-32B mencatat performa lebih tinggi daripada LLaDA-2.1-flash (100B)
Throughput
- Pada batch size 1~64, model ini mencapai throughput 2.9~4.1x lebih tinggi dibanding LLaDA-2.1-mini dan SDAR
- Dalam lingkungan memory-bound, TPF (Token Per Forward) mendekati peningkatan kecepatan aktual
- I-DLM(N=4, p=0.9): TPF≈2.9, efisiensi 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, efisiensi 0.31
- Efisiensi di atas 1 berarti decoding paralel mengurangi total komputasi dibanding AR
Speedup Factor Explorer
- Acceptance rate p=0.9, R-ISD LoRA overhead α=1.12
-
Rumus pendekatan speedup:
- Memory-bound:
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD (lossless):
Speedup ≈ TPF/α
- Gated LoRA hanya aktif pada posisi MASK untuk menjamin identitas bitwise dengan output AR
Dokumen dan Sumber Daya
- Seluruh alur instalasi, training, inferensi, serving, R-ISD lossless, model, benchmark disediakan dalam dokumentasi web
-
Installation
- Clone repositori GitHub lalu jalankan
install.sh
-
Quick Start
- Setelah menjalankan server SGLang, permintaan chat completion dapat dikirim melalui REST API
-
Training
- Training dilakukan dengan menggabungkan full-mask sequence dan clean sequence
- 4.5B token, 8×H100 GPU, 2 epoch, stride curriculum(N=2→3)
-
Inference & ISD
- Mengusulkan token baru (q) pada posisi MASK, dan memverifikasi (p) pada posisi clean
- Menjamin distribusi AR dengan acceptance criterion
min(1, p(x)/q(x))
- Pada stride N=4, TPF=2.96, sekitar 3x speedup
-
Serving (SGLang)
-
Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)
- Seluruh sistem meningkatkan throughput 2.1~2.5x dibanding baseline
-
Lossless R-ISD
- Gated LoRA(rank=128) hanya diterapkan pada posisi MASK
- Output sepenuhnya identik dengan model AR dasar
- Overhead sekitar 1.12x
-
Model Zoo
- I-DLM-8B: berbasis Qwen3-8B, setara kualitas AR
- I-DLM-32B: berbasis Qwen3-32B, melampaui LLaDA-2.1-flash(100B)
- I-DLM-8B-LoRA: menerapkan Gated LoRA(rank=128)
-
Benchmarks
- Dievaluasi pada 15 benchmark (pengetahuan, matematika, kode, eksekusi instruksi)
- Skrip reproduksi disediakan
Informasi Sitasi
- Makalah: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- Institusi riset: Together AI, UIUC, Princeton, Stanford, UT Austin
- Penulis: Yifan Yu dan 14 penulis lainnya
Kesimpulan
- I-DLM adalah kasus pertama di mana model bahasa berbasis difusi mencapai kualitas dan kecepatan model AR sekaligus
- Melalui pembelajaran self-consistency dan decoding ISD, model ini mengatasi keterbatasan generasi paralel
- Kompatibilitas SGLang, akselerasi lossless, dan skalabilitas throughput tinggi menunjukkan kelayakannya untuk deployment praktis
1 komentar
Komentar Hacker News
Kalau pemahaman saya benar, ini adalah pendekatan yang cukup mengejutkan
Mereka memodifikasi autoregressor Qwen dengan berbagai teknik agar bekerja seperti diffuser, dan hasilnya jauh lebih baik daripada diffuser yang sudah ada
Melalui adaptor LoRA, output bisa disejajarkan dengan distribusi model dasar, sehingga dengan seed yang sama bisa diperoleh hasil yang identik di tingkat byte sambil tetap hampir dua kali lebih cepat
Saya bukan ahli, lebih ke eksperimentator yang antusias, tapi ini tampak seperti perkembangan yang benar-benar menarik
Tidak ada proses denoising, dan tetap mempertahankan struktur kausal
Secara spesifik, model dilatih menggunakan beberapa token MASK untuk memprediksi banyak token sekaligus, lalu saat inferensi token-token itu dihasilkan secara paralel untuk meningkatkan kecepatan
Misalnya, setelah “what is 2+2” ditambahkan 5 MASK untuk memprediksi 5 token berikutnya sekaligus
Dengan cara ini, dilakukan operasi matrix-matrix alih-alih matrix-vector sehingga efisiensi memori lebih tinggi
Namun, semakin besar k (jumlah token yang diprediksi), kualitas turun tajam, dan dalam makalah pun penurunan sudah terlihat pada k=8
Pada akhirnya ini adalah self-speculative decoding berbasis prediksi 4 token, jadi belum sepenuhnya menghilangkan keterbatasan yang ada, tetapi tetap merupakan metode pelatihan yang menarik
Penjelasan terkait ada di postingan sebelumnya
Saya penasaran apa bedanya jika dibandingkan dengan DFlash atau DDTree
Tahun lalu saya sempat melihat respons Gemini muncul bertahap seolah-olah memakai diffusion
Entah itu sedang eksperimen atau hanya efek visual, tapi fenomenanya menarik
Saya penasaran apakah ada orang di sini yang benar-benar sedang bereksperimen serius dengan Diffusion untuk generasi teks
Kecepatannya mengesankan, tetapi latensi token pertama dan kualitas output masih menjadi tantangan
Kalau kecepatan dan akurasi naik sedikit lagi, sepertinya ini sudah cukup praktis untuk model berbiaya rendah atau pekerjaan asinkron
Selain itu, eksperimen untuk mendifusikan teks yang lebih panjang sekaligus demi memaksa peningkatan kemampuan inferensi juga terdengar menarik
Lihat juga artikel Emergent Mind
Dibanding Gemini Flash Lite lama, model ini bekerja jauh lebih mulus sehingga cocok untuk tugas seperti auto-tagging atau pembuatan tautan
Namun, performa pemanggilan tool-nya masih belum setara Haiku 3.5
Untuk tugas dengan input yang cukup dan output pendek, dLLM sangat cocok, dan tampaknya juga punya potensi di area seperti tab autocomplete
Generasinya tetap dari kiri ke kanan, tetapi diffusion hanya terjadi di dalam sliding window. Karena jendelanya hanya sekitar 16 token, perbedaannya tidak terlalu besar
Saya bukan ahli, tetapi kalau ini Diffusion, bukankah seharusnya seluruh output dihasilkan sekaligus?
Namun, model I-LDM tampaknya menggunakan konteks sebelumnya untuk menghasilkan blok berikutnya
Misalnya, kalau menghasilkan dua token sekaligus, kecepatannya bisa naik hampir 2x
Semakin besar ukuran blok, semakin cepat keseluruhan generasi, sampai perbedaannya dengan menghasilkan semuanya sekaligus menjadi kecil
Pada akhirnya yang penting adalah seberapa kecil penurunan kualitasnya, dan makalah ini tampaknya menyelesaikan bagian itu dengan baik
Saya penasaran apakah untuk memakai model seperti ini harus pindah ke sglang, atau vLLM juga sudah mendukungnya
Sejak dulu saya merasa arsitektur diffusion berbasis blok adalah masa depan LLM
Struktur yang bisa menyesuaikan kecepatan generasi secara dinamis dan melakukan koreksi diri selama proses generasi — rasanya bisa menjadi sistem mirip memori jangka pendek pada manusia
Saya tidak begitu paham prinsip matematikanya, tetapi saya berharap arahnya berkembang ke sana
Saya melihat di catatan rilis tertulis
Saya penasaran apakah model ini sudah bisa langsung dipakai sekarang
Saya penasaran apakah model diffusion bisa melakukan penalaran iteratif dengan cara menghasilkan blok, lalu meninjau dirinya sendiri (introspection), kemudian menghasilkan ulang berdasarkan hasil itu