I-DLM - Model Bahasa Difusi Introspektif (Introspective Diffusion Language Models)

(introspective-diffusion.github.io)

1 poin oleh GN⁺ 6 hari lalu | 1 komentar | Bagikan ke WhatsApp

I-DLM adalah kasus pertama di mana model bahasa berbasis difusi mencapai kualitas setara model AR (Autoregressive) sekaligus kecepatan generasi paralel
Melalui Introspective Strided Decoding (ISD), model ini membuat token baru dan memverifikasi token sebelumnya dalam satu forward pass
I-DLM-8B meningkatkan performa +26 poin di AIME-24 dan +15 poin di LiveCodeBench-v6 dibanding LLaDA-2.1-mini (16B), dengan setengah jumlah parameter
Dengan Gated LoRA, model ini mewujudkan akselerasi lossless pada tingkat bit (bitwise) dan sepenuhnya kompatibel dengan infrastruktur SGLang
Model bahasa difusi membuktikan potensi deployment skala besar yang praktis melalui pembelajaran self-consistency dan optimisasi decoding paralel

Ikhtisar

I-DLM (Introspective Diffusion Language Model) adalah model yang mempertahankan kemampuan generasi token paralel dari diffusion language model (DLM) yang ada, sambil menyelesaikan masalah introspective consistency untuk mencapai kualitas setara model AR
Melalui Introspective Strided Decoding (ISD), model ini menghasilkan token baru sekaligus memverifikasi token sebelumnya dalam satu forward pass
I-DLM-8B adalah DLM pertama yang mencapai kualitas setara model AR pada skala sekelasnya; dibanding LLaDA-2.1-mini (16B), model ini meningkatkan +26 poin di AIME-24 dan +15 poin di LiveCodeBench-v6 dengan setengah parameter
Pada lingkungan dengan konkurensi tinggi (C=64), model ini mencapai throughput 2.9~4.1x, serta mendukung akselerasi lossless pada tingkat bit (bitwise) melalui Gated LoRA

Mengapa Introspective Consistency Dibutuhkan

Model AR melakukan generasi dan verifikasi diri sekaligus dalam satu forward pass, sedangkan DLM sebelumnya hanya dilatih untuk denoising, sehingga kekurangan self-consistency
Tiga bottleneck utama pada DLM sebelumnya
- Self-consistency rendah: SDAR 0.699 vs I-DLM 0.984
- Komputasi tidak efisien: TiDAR sekitar 7.8x overhead vs I-DLM sekitar 2.5x
- Ketidakcocokan infrastruktur: SDAR slope=84 vs I-DLM=549

Metodologi I-DLM

Introspective-Consistency Training
- Mengonversi model AR yang telah dipretrain melalui causal attention, logit shift, dan all-masked objective
Introspective Strided Decoding (ISD)
- Menjalankan generasi N token dan verifikasi token sebelumnya secara bersamaan dalam satu forward pass
- Memverifikasi hasil generasi menggunakan acceptance criterion p/q
AR-Compatible Serving
- Dapat diintegrasikan langsung ke infrastruktur SGLang dengan struktur causal attention yang ketat
- Berjalan pada lingkungan serving yang sama dengan model AR tanpa infrastruktur kustom tambahan

Hasil Performa

I-DLM adalah DLM pertama yang setara kualitasnya dengan model AR berukuran sama, dan melampaui DLM sebelumnya pada 15 benchmark
Hasil benchmark utama
- Pengetahuan & penalaran: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Matematika: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Kode: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Eksekusi instruksi: IFEval 84.7
- I-DLM-32B mencatat performa lebih tinggi daripada LLaDA-2.1-flash (100B)

Throughput

Pada batch size 1~64, model ini mencapai throughput 2.9~4.1x lebih tinggi dibanding LLaDA-2.1-mini dan SDAR
Dalam lingkungan memory-bound, TPF (Token Per Forward) mendekati peningkatan kecepatan aktual
- I-DLM(N=4, p=0.9): TPF≈2.9, efisiensi 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, efisiensi 0.31
Efisiensi di atas 1 berarti decoding paralel mengurangi total komputasi dibanding AR

Speedup Factor Explorer

Acceptance rate p=0.9, R-ISD LoRA overhead α=1.12
Rumus pendekatan speedup:
- Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD (lossless): Speedup ≈ TPF/α
- Gated LoRA hanya aktif pada posisi MASK untuk menjamin identitas bitwise dengan output AR

Dokumen dan Sumber Daya

Seluruh alur instalasi, training, inferensi, serving, R-ISD lossless, model, benchmark disediakan dalam dokumentasi web
Installation
- Clone repositori GitHub lalu jalankan install.sh
Quick Start
- Setelah menjalankan server SGLang, permintaan chat completion dapat dikirim melalui REST API
Training
- Training dilakukan dengan menggabungkan full-mask sequence dan clean sequence
- 4.5B token, 8×H100 GPU, 2 epoch, stride curriculum(N=2→3)
Inference & ISD
- Mengusulkan token baru (q) pada posisi MASK, dan memverifikasi (p) pada posisi clean
- Menjamin distribusi AR dengan acceptance criterion min(1, p(x)/q(x))
- Pada stride N=4, TPF=2.96, sekitar 3x speedup
Serving (SGLang)
- Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)
  - Seluruh sistem meningkatkan throughput 2.1~2.5x dibanding baseline
Lossless R-ISD
- Gated LoRA(rank=128) hanya diterapkan pada posisi MASK
- Output sepenuhnya identik dengan model AR dasar
- Overhead sekitar 1.12x
Model Zoo
- I-DLM-8B: berbasis Qwen3-8B, setara kualitas AR
- I-DLM-32B: berbasis Qwen3-32B, melampaui LLaDA-2.1-flash(100B)
- I-DLM-8B-LoRA: menerapkan Gated LoRA(rank=128)
Benchmarks
- Dievaluasi pada 15 benchmark (pengetahuan, matematika, kode, eksekusi instruksi)
- Skrip reproduksi disediakan

Informasi Sitasi

Makalah: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
Institusi riset: Together AI, UIUC, Princeton, Stanford, UT Austin
Penulis: Yifan Yu dan 14 penulis lainnya

Kesimpulan

I-DLM adalah kasus pertama di mana model bahasa berbasis difusi mencapai kualitas dan kecepatan model AR sekaligus
Melalui pembelajaran self-consistency dan decoding ISD, model ini mengatasi keterbatasan generasi paralel
Kompatibilitas SGLang, akselerasi lossless, dan skalabilitas throughput tinggi menunjukkan kelayakannya untuk deployment praktis

1 komentar

GN⁺ 6 hari lalu

Komentar Hacker News

Kalau pemahaman saya benar, ini adalah pendekatan yang cukup mengejutkan
Mereka memodifikasi autoregressor Qwen dengan berbagai teknik agar bekerja seperti diffuser, dan hasilnya jauh lebih baik daripada diffuser yang sudah ada
Melalui adaptor LoRA, output bisa disejajarkan dengan distribusi model dasar, sehingga dengan seed yang sama bisa diperoleh hasil yang identik di tingkat byte sambil tetap hampir dua kali lebih cepat
Saya bukan ahli, lebih ke eksperimentator yang antusias, tapi ini tampak seperti perkembangan yang benar-benar menarik
- Memang layak untuk antusias. Makalah ini mengklaim telah menjembatani kualitas AR dan decoding paralel. Secara khusus, mode bantu LoRA tanpa loss adalah bagian yang paling mengesankan
- Saya tidak paham bagaimana output model dasar bisa dibandingkan tanpa langsung dihasilkan. Kalau begitu, saya penasaran apa makna dari perbandingan itu
- Sebenarnya ini lebih merupakan variasi dari multi-token prediction dan speculative decoding daripada diffusion
  Tidak ada proses denoising, dan tetap mempertahankan struktur kausal
  Secara spesifik, model dilatih menggunakan beberapa token MASK untuk memprediksi banyak token sekaligus, lalu saat inferensi token-token itu dihasilkan secara paralel untuk meningkatkan kecepatan
  Misalnya, setelah “what is 2+2” ditambahkan 5 MASK untuk memprediksi 5 token berikutnya sekaligus
  Dengan cara ini, dilakukan operasi matrix-matrix alih-alih matrix-vector sehingga efisiensi memori lebih tinggi
  Namun, semakin besar k (jumlah token yang diprediksi), kualitas turun tajam, dan dalam makalah pun penurunan sudah terlihat pada k=8
  Pada akhirnya ini adalah self-speculative decoding berbasis prediksi 4 token, jadi belum sepenuhnya menghilangkan keterbatasan yang ada, tetapi tetap merupakan metode pelatihan yang menarik
  Penjelasan terkait ada di postingan sebelumnya
Saya penasaran apa bedanya jika dibandingkan dengan DFlash atau DDTree
Tahun lalu saya sempat melihat respons Gemini muncul bertahap seolah-olah memakai diffusion
Entah itu sedang eksperimen atau hanya efek visual, tapi fenomenanya menarik
Saya penasaran apakah ada orang di sini yang benar-benar sedang bereksperimen serius dengan Diffusion untuk generasi teks
- Inception Labs tampaknya sudah cukup lama meneliti bidang ini
  Kecepatannya mengesankan, tetapi latensi token pertama dan kualitas output masih menjadi tantangan
  Kalau kecepatan dan akurasi naik sedikit lagi, sepertinya ini sudah cukup praktis untuk model berbiaya rendah atau pekerjaan asinkron
  Selain itu, eksperimen untuk mendifusikan teks yang lebih panjang sekaligus demi memaksa peningkatan kemampuan inferensi juga terdengar menarik
- Saat ini pendekatan ini sedang dieksplorasi di ranah local LLM untuk speculative decoding
  Lihat juga artikel Emergent Mind
- Mercury 2 sangat menarik untuk eksperimen UX dari sisi latensi dan harga
  Dibanding Gemini Flash Lite lama, model ini bekerja jauh lebih mulus sehingga cocok untuk tugas seperti auto-tagging atau pembuatan tautan
  Namun, performa pemanggilan tool-nya masih belum setara Haiku 3.5
  Untuk tugas dengan input yang cukup dan output pendek, dLLM sangat cocok, dan tampaknya juga punya potensi di area seperti tab autocomplete
- Saya juga sudah mencobanya, dan pendekatan intuitif yang dibutuhkan berbeda dari LLM biasa. Untuk masalah tertentu, model seperti ini sangat cocok
- Saya sedang mengimplementasikan WeDLM dengan Swift, tetapi performanya masih kurang
  Generasinya tetap dari kiri ke kanan, tetapi diffusion hanya terjadi di dalam sliding window. Karena jendelanya hanya sekitar 16 token, perbedaannya tidak terlalu besar
Saya bukan ahli, tetapi kalau ini Diffusion, bukankah seharusnya seluruh output dihasilkan sekaligus?
Namun, model I-LDM tampaknya menggunakan konteks sebelumnya untuk menghasilkan blok berikutnya
- Generasi per blok memberi peningkatan kecepatan yang besar
  Misalnya, kalau menghasilkan dua token sekaligus, kecepatannya bisa naik hampir 2x
  Semakin besar ukuran blok, semakin cepat keseluruhan generasi, sampai perbedaannya dengan menghasilkan semuanya sekaligus menjadi kecil
  Pada akhirnya yang penting adalah seberapa kecil penurunan kualitasnya, dan makalah ini tampaknya menyelesaikan bagian itu dengan baik
Saya penasaran apakah untuk memakai model seperti ini harus pindah ke sglang, atau vLLM juga sudah mendukungnya
Sejak dulu saya merasa arsitektur diffusion berbasis blok adalah masa depan LLM
Struktur yang bisa menyesuaikan kecepatan generasi secara dinamis dan melakukan koreksi diri selama proses generasi — rasanya bisa menjadi sistem mirip memori jangka pendek pada manusia
Saya tidak begitu paham prinsip matematikanya, tetapi saya berharap arahnya berkembang ke sana
Saya melihat di catatan rilis tertulis

2025-04-12: kode dirilis dan I-DLM-8B, 32B, 8B-LoRA dirilis
Tanggalnya terlihat sudah lama, jadi saya penasaran apakah ini versi lama
- Itu hanya salah ketik pada tahun. Saya cek modelnya memang baru diunggah ke HuggingFace beberapa hari lalu
Saya penasaran apakah model ini sudah bisa langsung dipakai sekarang
Saya penasaran apakah model diffusion bisa melakukan penalaran iteratif dengan cara menghasilkan blok, lalu meninjau dirinya sendiri (introspection), kemudian menghasilkan ulang berdasarkan hasil itu
- Bisa. Itu dapat diimplementasikan dengan memasukkan output pertama kembali ke model untuk dievaluasi ulang seperti model inferensi AR

I-DLM - Model Bahasa Difusi Introspektif (Introspective Diffusion Language Models)

Ikhtisar

Mengapa Introspective Consistency Dibutuhkan

Metodologi I-DLM

Introspective-Consistency Training

Introspective Strided Decoding (ISD)

AR-Compatible Serving

Hasil Performa

Hasil benchmark utama

Throughput

Speedup Factor Explorer

Rumus pendekatan speedup:

Dokumen dan Sumber Daya

Installation

Quick Start

Training

Inference & ISD

Serving (SGLang)

Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)

Lossless R-ISD

Model Zoo

Benchmarks

Informasi Sitasi

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News

Paged KV cache, CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)