1 poin oleh GN⁺ 6 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • I-DLM adalah kasus pertama di mana model bahasa berbasis difusi mencapai kualitas setara model AR (Autoregressive) sekaligus kecepatan generasi paralel
  • Melalui Introspective Strided Decoding (ISD), model ini membuat token baru dan memverifikasi token sebelumnya dalam satu forward pass
  • I-DLM-8B meningkatkan performa +26 poin di AIME-24 dan +15 poin di LiveCodeBench-v6 dibanding LLaDA-2.1-mini (16B), dengan setengah jumlah parameter
  • Dengan Gated LoRA, model ini mewujudkan akselerasi lossless pada tingkat bit (bitwise) dan sepenuhnya kompatibel dengan infrastruktur SGLang
  • Model bahasa difusi membuktikan potensi deployment skala besar yang praktis melalui pembelajaran self-consistency dan optimisasi decoding paralel

Ikhtisar

  • I-DLM (Introspective Diffusion Language Model) adalah model yang mempertahankan kemampuan generasi token paralel dari diffusion language model (DLM) yang ada, sambil menyelesaikan masalah introspective consistency untuk mencapai kualitas setara model AR
  • Melalui Introspective Strided Decoding (ISD), model ini menghasilkan token baru sekaligus memverifikasi token sebelumnya dalam satu forward pass
  • I-DLM-8B adalah DLM pertama yang mencapai kualitas setara model AR pada skala sekelasnya; dibanding LLaDA-2.1-mini (16B), model ini meningkatkan +26 poin di AIME-24 dan +15 poin di LiveCodeBench-v6 dengan setengah parameter
  • Pada lingkungan dengan konkurensi tinggi (C=64), model ini mencapai throughput 2.9~4.1x, serta mendukung akselerasi lossless pada tingkat bit (bitwise) melalui Gated LoRA

Mengapa Introspective Consistency Dibutuhkan

  • Model AR melakukan generasi dan verifikasi diri sekaligus dalam satu forward pass, sedangkan DLM sebelumnya hanya dilatih untuk denoising, sehingga kekurangan self-consistency
  • Tiga bottleneck utama pada DLM sebelumnya
    • Self-consistency rendah: SDAR 0.699 vs I-DLM 0.984
    • Komputasi tidak efisien: TiDAR sekitar 7.8x overhead vs I-DLM sekitar 2.5x
    • Ketidakcocokan infrastruktur: SDAR slope=84 vs I-DLM=549

Metodologi I-DLM

  • Introspective-Consistency Training

    • Mengonversi model AR yang telah dipretrain melalui causal attention, logit shift, dan all-masked objective
  • Introspective Strided Decoding (ISD)

    • Menjalankan generasi N token dan verifikasi token sebelumnya secara bersamaan dalam satu forward pass
    • Memverifikasi hasil generasi menggunakan acceptance criterion p/q
  • AR-Compatible Serving

    • Dapat diintegrasikan langsung ke infrastruktur SGLang dengan struktur causal attention yang ketat
    • Berjalan pada lingkungan serving yang sama dengan model AR tanpa infrastruktur kustom tambahan

Hasil Performa

  • I-DLM adalah DLM pertama yang setara kualitasnya dengan model AR berukuran sama, dan melampaui DLM sebelumnya pada 15 benchmark
  • Hasil benchmark utama

    • Pengetahuan & penalaran: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • Matematika: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • Kode: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • Eksekusi instruksi: IFEval 84.7
    • I-DLM-32B mencatat performa lebih tinggi daripada LLaDA-2.1-flash (100B)

Throughput

  • Pada batch size 1~64, model ini mencapai throughput 2.9~4.1x lebih tinggi dibanding LLaDA-2.1-mini dan SDAR
  • Dalam lingkungan memory-bound, TPF (Token Per Forward) mendekati peningkatan kecepatan aktual
    • I-DLM(N=4, p=0.9): TPF≈2.9, efisiensi 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, efisiensi 0.31
  • Efisiensi di atas 1 berarti decoding paralel mengurangi total komputasi dibanding AR

Speedup Factor Explorer

  • Acceptance rate p=0.9, R-ISD LoRA overhead α=1.12
  • Rumus pendekatan speedup:

    • Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD (lossless): Speedup ≈ TPF/α
    • Gated LoRA hanya aktif pada posisi MASK untuk menjamin identitas bitwise dengan output AR

Dokumen dan Sumber Daya

  • Seluruh alur instalasi, training, inferensi, serving, R-ISD lossless, model, benchmark disediakan dalam dokumentasi web
  • Installation

    • Clone repositori GitHub lalu jalankan install.sh
  • Quick Start

    • Setelah menjalankan server SGLang, permintaan chat completion dapat dikirim melalui REST API
  • Training

    • Training dilakukan dengan menggabungkan full-mask sequence dan clean sequence
    • 4.5B token, 8×H100 GPU, 2 epoch, stride curriculum(N=2→3)
  • Inference & ISD

    • Mengusulkan token baru (q) pada posisi MASK, dan memverifikasi (p) pada posisi clean
    • Menjamin distribusi AR dengan acceptance criterion min(1, p(x)/q(x))
    • Pada stride N=4, TPF=2.96, sekitar 3x speedup
  • Serving (SGLang)

    • Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)

      • Seluruh sistem meningkatkan throughput 2.1~2.5x dibanding baseline
  • Lossless R-ISD

    • Gated LoRA(rank=128) hanya diterapkan pada posisi MASK
    • Output sepenuhnya identik dengan model AR dasar
    • Overhead sekitar 1.12x
  • Model Zoo

    • I-DLM-8B: berbasis Qwen3-8B, setara kualitas AR
    • I-DLM-32B: berbasis Qwen3-32B, melampaui LLaDA-2.1-flash(100B)
    • I-DLM-8B-LoRA: menerapkan Gated LoRA(rank=128)
  • Benchmarks

    • Dievaluasi pada 15 benchmark (pengetahuan, matematika, kode, eksekusi instruksi)
    • Skrip reproduksi disediakan

Informasi Sitasi

  • Makalah: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • Institusi riset: Together AI, UIUC, Princeton, Stanford, UT Austin
  • Penulis: Yifan Yu dan 14 penulis lainnya

Kesimpulan

  • I-DLM adalah kasus pertama di mana model bahasa berbasis difusi mencapai kualitas dan kecepatan model AR sekaligus
  • Melalui pembelajaran self-consistency dan decoding ISD, model ini mengatasi keterbatasan generasi paralel
  • Kompatibilitas SGLang, akselerasi lossless, dan skalabilitas throughput tinggi menunjukkan kelayakannya untuk deployment praktis

1 komentar

 
GN⁺ 6 hari lalu
Komentar Hacker News
  • Kalau pemahaman saya benar, ini adalah pendekatan yang cukup mengejutkan
    Mereka memodifikasi autoregressor Qwen dengan berbagai teknik agar bekerja seperti diffuser, dan hasilnya jauh lebih baik daripada diffuser yang sudah ada
    Melalui adaptor LoRA, output bisa disejajarkan dengan distribusi model dasar, sehingga dengan seed yang sama bisa diperoleh hasil yang identik di tingkat byte sambil tetap hampir dua kali lebih cepat
    Saya bukan ahli, lebih ke eksperimentator yang antusias, tapi ini tampak seperti perkembangan yang benar-benar menarik

    • Memang layak untuk antusias. Makalah ini mengklaim telah menjembatani kualitas AR dan decoding paralel. Secara khusus, mode bantu LoRA tanpa loss adalah bagian yang paling mengesankan
    • Saya tidak paham bagaimana output model dasar bisa dibandingkan tanpa langsung dihasilkan. Kalau begitu, saya penasaran apa makna dari perbandingan itu
    • Sebenarnya ini lebih merupakan variasi dari multi-token prediction dan speculative decoding daripada diffusion
      Tidak ada proses denoising, dan tetap mempertahankan struktur kausal
      Secara spesifik, model dilatih menggunakan beberapa token MASK untuk memprediksi banyak token sekaligus, lalu saat inferensi token-token itu dihasilkan secara paralel untuk meningkatkan kecepatan
      Misalnya, setelah “what is 2+2” ditambahkan 5 MASK untuk memprediksi 5 token berikutnya sekaligus
      Dengan cara ini, dilakukan operasi matrix-matrix alih-alih matrix-vector sehingga efisiensi memori lebih tinggi
      Namun, semakin besar k (jumlah token yang diprediksi), kualitas turun tajam, dan dalam makalah pun penurunan sudah terlihat pada k=8
      Pada akhirnya ini adalah self-speculative decoding berbasis prediksi 4 token, jadi belum sepenuhnya menghilangkan keterbatasan yang ada, tetapi tetap merupakan metode pelatihan yang menarik
      Penjelasan terkait ada di postingan sebelumnya
  • Saya penasaran apa bedanya jika dibandingkan dengan DFlash atau DDTree

  • Tahun lalu saya sempat melihat respons Gemini muncul bertahap seolah-olah memakai diffusion
    Entah itu sedang eksperimen atau hanya efek visual, tapi fenomenanya menarik

  • Saya penasaran apakah ada orang di sini yang benar-benar sedang bereksperimen serius dengan Diffusion untuk generasi teks

    • Inception Labs tampaknya sudah cukup lama meneliti bidang ini
      Kecepatannya mengesankan, tetapi latensi token pertama dan kualitas output masih menjadi tantangan
      Kalau kecepatan dan akurasi naik sedikit lagi, sepertinya ini sudah cukup praktis untuk model berbiaya rendah atau pekerjaan asinkron
      Selain itu, eksperimen untuk mendifusikan teks yang lebih panjang sekaligus demi memaksa peningkatan kemampuan inferensi juga terdengar menarik
    • Saat ini pendekatan ini sedang dieksplorasi di ranah local LLM untuk speculative decoding
      Lihat juga artikel Emergent Mind
    • Mercury 2 sangat menarik untuk eksperimen UX dari sisi latensi dan harga
      Dibanding Gemini Flash Lite lama, model ini bekerja jauh lebih mulus sehingga cocok untuk tugas seperti auto-tagging atau pembuatan tautan
      Namun, performa pemanggilan tool-nya masih belum setara Haiku 3.5
      Untuk tugas dengan input yang cukup dan output pendek, dLLM sangat cocok, dan tampaknya juga punya potensi di area seperti tab autocomplete
    • Saya juga sudah mencobanya, dan pendekatan intuitif yang dibutuhkan berbeda dari LLM biasa. Untuk masalah tertentu, model seperti ini sangat cocok
    • Saya sedang mengimplementasikan WeDLM dengan Swift, tetapi performanya masih kurang
      Generasinya tetap dari kiri ke kanan, tetapi diffusion hanya terjadi di dalam sliding window. Karena jendelanya hanya sekitar 16 token, perbedaannya tidak terlalu besar
  • Saya bukan ahli, tetapi kalau ini Diffusion, bukankah seharusnya seluruh output dihasilkan sekaligus?
    Namun, model I-LDM tampaknya menggunakan konteks sebelumnya untuk menghasilkan blok berikutnya

    • Generasi per blok memberi peningkatan kecepatan yang besar
      Misalnya, kalau menghasilkan dua token sekaligus, kecepatannya bisa naik hampir 2x
      Semakin besar ukuran blok, semakin cepat keseluruhan generasi, sampai perbedaannya dengan menghasilkan semuanya sekaligus menjadi kecil
      Pada akhirnya yang penting adalah seberapa kecil penurunan kualitasnya, dan makalah ini tampaknya menyelesaikan bagian itu dengan baik
  • Saya penasaran apakah untuk memakai model seperti ini harus pindah ke sglang, atau vLLM juga sudah mendukungnya

  • Sejak dulu saya merasa arsitektur diffusion berbasis blok adalah masa depan LLM
    Struktur yang bisa menyesuaikan kecepatan generasi secara dinamis dan melakukan koreksi diri selama proses generasi — rasanya bisa menjadi sistem mirip memori jangka pendek pada manusia
    Saya tidak begitu paham prinsip matematikanya, tetapi saya berharap arahnya berkembang ke sana

  • Saya melihat di catatan rilis tertulis

    2025-04-12: kode dirilis dan I-DLM-8B, 32B, 8B-LoRA dirilis
    Tanggalnya terlihat sudah lama, jadi saya penasaran apakah ini versi lama

    • Itu hanya salah ketik pada tahun. Saya cek modelnya memang baru diunggah ke HuggingFace beberapa hari lalu
  • Saya penasaran apakah model ini sudah bisa langsung dipakai sekarang

  • Saya penasaran apakah model diffusion bisa melakukan penalaran iteratif dengan cara menghasilkan blok, lalu meninjau dirinya sendiri (introspection), kemudian menghasilkan ulang berdasarkan hasil itu

    • Bisa. Itu dapat diimplementasikan dengan memasukkan output pertama kembali ke model untuk dievaluasi ulang seperti model inferensi AR