1 poin oleh GN⁺ 2024-10-04 | 1 komentar | Bagikan ke WhatsApp
  • Transformer telah membentuk ulang deep learning sejak 2017, tetapi pada sekuens panjang biaya self-attention meningkat, sehingga model rekuren yang dapat dilatih secara paralel kembali mendapat perhatian
  • LSTM dan GRU, yang banyak digunakan untuk pemodelan sekuens selama 20 tahun sebelum Transformer, membuka kemungkinan pelatihan paralel jika ketergantungan gate pada state sebelumnya dikurangi
  • minLSTM dan minGRU yang disederhanakan memiliki parameter lebih sedikit daripada LSTM·GRU konvensional, sepenuhnya dapat diparalelkan saat pelatihan, dan menunjukkan performa kompetitif di berbagai tugas dibandingkan model terbaru termasuk Transformer
  • Upaya meningkatkan efisiensi Transformer berkembang ke sparsity, aproksimasi low-rank, dan tiling; belakangan model rekuren alternatif seperti state-space model, attention terlinearisasi, dan RNN linear juga menunjukkan performa kuat
  • Berkat implementasi plain PyTorch yang hanya beberapa baris di lampiran, minGRU dan minLSTM dapat dilihat sebagai model ringan yang mudah dieksperimenkan oleh pemula, praktisi, dan peneliti

Model rekuren kembali mendapat perhatian setelah Transformer

  • RNN telah banyak digunakan sejak 1990-an untuk tugas pemodelan sekuens seperti penerjemahan mesin dan pembuatan teks
    • Model representatifnya adalah LSTM (1997) dan GRU (2014)
    • Karena strukturnya pada dasarnya bersifat sekuensial, paralelisasi terbatas, dan efisiensi komputasi mudah menurun saat melatih sekuens panjang
  • Transformer pada 2017 memperkenalkan mekanisme pelatihan paralel melalui self-attention dan cepat berhasil dalam pemodelan sekuens
    • Setelah itu meluas bukan hanya ke large language model, tetapi juga computer vision, reinforcement learning, dan bioinformatika
    • Self-attention memodelkan interaksi antar-token, tetapi kompleksitas komputasinya meningkat secara kuadratik terhadap panjang sekuens
    • Pada sekuens panjang atau lingkungan dengan sumber daya terbatas, biayanya dapat meningkat tajam
  • Riset untuk meningkatkan efisiensi Transformer telah berjalan ke beberapa arah
    • Sparsity
    • Aproksimasi low-rank
    • Tiling
  • Belakangan, model rekuren yang dapat diparalelkan dan diskalakan lebih efisien kembali muncul
    • State-space model
    • Attention terlinearisasi
    • RNN linear
    • Model rekuren terbaru seperti ini memanfaatkan transisi yang bergantung pada input dan menunjukkan performa kuat yang mirip Transformer
    • Diterapkan tidak hanya pada large language model, tetapi juga pada data berbasis gambar dan graf

Ide utama minLSTM dan minGRU

  • Studi ini meninjau kembali LSTM dan GRU, yang lama digunakan sebelum Transformer, dari perspektif historis
  • Kedua model dapat dilihat sebagai contoh awal model rekuren yang bergantung pada input
  • Jika bagian gate yang bergantung pada state sebelumnya dihilangkan, LSTM dan GRU juga dapat menjalani pelatihan paralel
  • Melalui penyederhanaan tambahan, diturunkan versi minimal bernama minLSTM dan minGRU
    • Memiliki jumlah parameter lebih sedikit daripada LSTM·GRU konvensional
    • Sepenuhnya dapat diparalelkan selama pelatihan
    • Meski strukturnya sederhana, menunjukkan performa kompetitif di berbagai tugas
    • Pembandingnya mencakup model-model terbaru termasuk Transformer
  • Hasil ini mempertanyakan tren yang terus memperbesar struktur model dan kompleksitas algoritme
  • Lampiran menyertakan implementasi plain PyTorch untuk minGRU dan minLSTM dalam beberapa baris kode
    • Modelnya ringan dan mudah diadaptasi
    • Bentuknya mudah dimanfaatkan oleh pemula, praktisi, dan peneliti

1 komentar

 
GN⁺ 2024-10-04
Komentar Hacker News
  • Jika melihat struktur rekuren sebagai filter IIR dan struktur khusus feedforward sebagai filter FIR, tampaknya ada banyak kemiripan dengan pemrosesan sinyal digital
    Filter IIR sering kali membutuhkan jauh lebih sedikit elemen daripada filter FIR yang menghasilkan respons yang sama, sementara filter FIR cenderung lebih mudah diimplementasikan, dikendalikan, dan diukur
    Rasanya mirip dengan bagaimana perangkat keras aritmetika fixed-point cocok dengan arsitektur machine learning yang berjalan baik di GPU, dan agar AI benar-benar masuk ke tahap eksponensial yang menakutkan, tampaknya diperlukan struktur yang pada dasarnya rekuren
    Dalam analogi ini, LSTM lebih dekat ke semacam hack perantara seperti FIR dengan koefisien dinamis, dan dalam jangka panjang pendekatan neuromorfik tampaknya paling baik dari sisi efisiensi

    • Dari sudut pandang pemrosesan sinyal, bergantung pada posisi pole dari fungsi transfer filter yang ditransformasi-z, keluaran IIR memiliki wilayah stabilitas yang sempit sehingga biasanya harus dirancang dengan hati-hati
      Jika tidak, filter IIR akan meluruh secara eksponensial menuju 0 atau tumbuh secara eksponensial menuju tak hingga
      Sel RNN seperti LSTM lebih mirip filter peluruhan yang memasukkan gate nonlinier untuk mencegah peluruhan dan “mengingat” sesuatu
      Filter FIR jauh lebih sederhana dirancang dan dapat menyimpan memori tanpa hack semacam ini
    • Akan menyenangkan jika ada yang bisa menjelaskan dengan sederhana apa itu pendekatan neuromorfik dan bagaimana kontribusinya pada AI/AGI
      Sebagai orang awam, kesan pertama saya adalah ini mirip dengan gagasan ala 《The Society of Mind》, yaitu bukan sekadar mensimulasikan neuron, melainkan berbagai “agen” atau subsistem yang berinteraksi dengan beragam cara
    • Saya sudah cukup lama berpikir bahwa tanpa struktur yang pada dasarnya rekuren, AI tidak bisa mencapai tahap eksponensial yang menakutkan, tetapi sekarang saya mulai bertanya-tanya apakah context window yang sangat besar saja mungkin sudah cukup
      Rekurensi mungkin lebih neuromorfik dan penting dalam jangka panjang, tetapi mungkin tidak wajib untuk superintelligence
      Namun, karena saya orang awam dengan pengetahuan yang dangkal soal ini, saya bisa saja sepenuhnya keliru
    • Saya ragu apakah filter IIR dalam skala besar pada arsitektur seperti GPU saat ini bisa menghasilkan performa dan skalabilitas yang baik
  • Seluruh bidang ini tampak kurang memadai untuk masalah horizon jangka panjang
    Solusi yang banyak dipakai sekarang adalah scaling, tetapi itu sama sekali belum mendekati skala horizon yang ditangani otak mamalia kecil
    Model bisa memiliki triliunan parameter, tetapi dalam tugas jangka panjang dan efisiensi, otak tikus rasanya masih akan menang
    Seolah-olah ada algoritma pencarian kecil, sederhana, dan elegan yang menemukan jalur hampir optimal dalam anggaran komputasi kecil sambil terus belajar
    Saya bahkan iri membayangkan suatu hari para insinyur masa depan akan memecahkan masalah seperti ini dengan notebook Jupyter berisi 100 baris di laptop
    Jika kita menemukan metode atau algoritma yang cocok untuk masalah horizon jangka panjang, model 2 miliar parameter pun mungkin bisa mengungguli model saat ini di semua ranah kecuali masalah penalaran yang singkat dan ekstrem
    Sebagai kemungkinan solusi, saya pernah memikirkan arah memperluas dimensionalitas model seiring waktu, alih-alih mencari bobot yang sempurna
    Semakin tinggi dimensionalitas, semakin besar kapasitas penyimpanan teoretisnya, dan satu layer dapat bertindak seperti superposisi banyak outlier, sementara layer lain tahu cara menggunakannya, mirip model dua layer
    Jika menganggap lanskap loss memiliki banyak minimum untuk tugas tertentu, kita mungkin bisa membuat satu model dengan minimum lokal yang nyaris tak terbatas—yakni memori berdimensi lebih tinggi—dengan merekonfigurasi model saat diperlukan untuk bergerak di antara minimum-minimum itu
    Jika otak manusia membuat dan memutus ribuan koneksi setiap hari, mungkin koneksi-koneksi ini mengarahkan lanskap loss internal di antara berbagai minimum yang dibutuhkan sepanjang hari

    • Benar, bidang ini kekurangan cawan suci berupa masalah horizon jangka panjang
      Namun, untuk mengklasifikasikan email spam, kita tidak membutuhkan otak tikus
      Model besar dengan 2 miliar parameter atau lebih masih terlalu berat dan sulit dijalankan secara praktis, sehingga lebih mirip penggunaan khusus; masih ada banyak ruang bagi model kecil dan cerdas yang hanya menyelesaikan masalah berguna pada perangkat keras dan dataset terbatas
      Model yang ukurannya berubah sesuai kebutuhan juga sudah pernah dieksperimenkan, tetapi dalam anggaran daya terbatas model seperti itu terlalu tidak efisien atau sulit dioptimalkan
      Meski begitu, jika kita terus melakukan scaling ke ukuran yang lebih besar, pada akhirnya kemungkinan besar model semacam itu akan diperlukan
      Bottleneck yang sebenarnya mungkin adalah terobosan dalam training itu sendiri
      Loss backpropagation terlalu sederhana untuk mengoptimalkan bahkan model saat ini secara sempurna, apalagi model masa depan yang lebih besar
      Karena tidak ada jaminan bahwa alternatif yang lebih baik memang ada, pendekatan machine learning saat ini mungkin memiliki batas tetap
  • Diskusi yang tersebar di banyak tempat adalah kelebihan sekaligus kekurangan
    Tulisan François Chollet yang saya lihat di Twitter/X menarik: https://x.com/fchollet/status/1841902521717293273
    “Pekerjaan menarik yang menghidupkan kembali RNN. https://arxiv.org/abs/2410.01201 — Fakta bahwa struktur-struktur terbaru yang umumnya datang dari arah berbeda kira-kira setara dengan Transformer adalah bukti bahwa dalam paradigma curve fitting, yaitu deep learning, struktur pada dasarnya tidak penting
    Curve fitting adalah menyematkan dataset ke atas sebuah kurva. Faktor kuncinya adalah dataset, bukan ornamen hard-coded tertentu yang membatasi bentuk kurva. Jika daya ekspresif kurvanya cukup, di lingkungan data berskala besar semua struktur akan konvergen ke performa yang sama”

    • Saya hampir tidak setuju dengan pernyataan “Faktor kuncinya adalah dataset, bukan ornamen hard-coded tertentu yang membatasi bentuk kurva”
      Dataset sudah banyak sejak lama, dan kemajuan 10 tahun terakhir datang dari cara merancang kurva dan menyesuaikannya dengan data, serta cara memakai lebih banyak komputasi
      Mungkin ada makna teoretis bahwa model lama pun bisa menyelesaikan masalah baru dengan cara yang sama jika memakai komputasi sekitar sejuta kali lebih besar, tetapi menyebutnya “sekadar optimisasi” mirip dengan mengabaikan pentingnya analisis kompleksitas dalam desain algoritme dan mengatakan bogosort sama dengan quicksort
      Jika memikirkan lapisan-lapisan teknik regularisasi untuk mengurangi overfitting, sampai struktur yang lebih bersifat agentic seperti Deep Q Learning atau desain ruang pencarian OpenAI o1, sudut pandang bahwa ini hanya optimisasi sederhana menjadi kurang meyakinkan
      Dengan lebih banyak komputasi saja, struktur lama tidak bisa menyelesaikan masalah seperti itu
    • Saya belum membaca makalahnya secara penuh, tetapi tampaknya fokusnya lebih pada optimisasi komputasi daripada ukuran dataset
      Ada bagian seperti “sepenuhnya dapat diparalelkan saat training, dan 175 kali lebih cepat pada sekuens panjang 512”
      Sekalipun berbagai struktur pada akhirnya konvergen ke loss yang sama seiring waktu, mengingat biaya GPU berskala besar, mencari struktur yang konvergen paling cepat tetap cukup bernilai
    • Salah satu peran besar berbagai ornamen itu adalah membatasi ruang training
      CNN mendominasi computer vision bukan karena melakukan sesuatu yang tidak bisa dilakukan jaringan saraf dense, melainkan karena menghapus banyak koneksi yang tidak terlalu penting sehingga anggaran training bisa dipakai untuk jaringan yang lebih dalam
      Demikian pula, alasan Transformer hebat adalah karena memungkinkan training jaringan raksasa dengan efisiensi tertentu
      Makalah ini juga menunjukkan bahwa jika training RNN dibuat jauh lebih cepat, hasilnya secara praktis cukup bagus
      Bottleneck besarnya adalah kecepatan dan efisiensi training, bukan daya ekspresif struktur yang sebenarnya
    • Jika mengingat bahwa MLP adalah aproksimator fungsi universal, ini tampak cukup wajar
      MLP raksasa juga bisa menghasilkan hasil yang sama dengan Transformer
      Masalahnya adalah skala, dan fakta bahwa kita tidak bisa melatih MLP yang cukup besar
      Transformer berguna karena merupakan optimisasi performa
    • Pada akhirnya, intinya akan menjadi efisiensi komputasi
      Kita tidak ingin melakukan retraining sebulan sekali, melainkan terus melakukan retraining; dan kita tidak ingin satu agen berbicara dengan 5 LLM, melainkan ribuan LLM bekerja bersama
  • Jawabannya tampaknya lebih dekat ke “tidak”
    RNN seperti ini mungkin cukup baik dalam sebagian kasus dan bisa mengalahkan Transformer dalam kasus tertentu, tetapi sepertinya tidak akan menggantikan Transformer secara universal di LLM
    Misalnya, jika pengguna memberikan teks panjang dan berkata “terjemahkan ini ke bahasa Jerman”, Transformer bisa melihat kembali seluruh riwayat
    Pada RNN, sekalipun panjang konteksnya tidak terbatas, jumlah informasi yang diingat pada titik mana pun terbatas pada apa yang ada di dalam hidden state
    Makalah terkait: https://arxiv.org/abs/2402.01032

    • “Jumlah informasi yang diingat terbatas pada hidden state” tidak berbeda pada Transformer
      Transformer juga pada akhirnya terikat pada state yang terbatas, hanya saja state itu diorganisasi dengan cara yang berbeda
    • Masalah itu sudah mengganggu RNN sejak tahun 90-an
      Ada masalah presisi informasi tentang berapa bit yang harus dibawa oleh state lama, masalah peluruhan ketika informasi makin lama makin melemah, dan masalah pencampuran ketika representasi bercampur atau dijumlahkan
    • Sanggahannya adalah jika ukuran hidden state dibuat cukup besar, ia bisa memuat representasi terkompresi untuk sekuens sepanjang yang diinginkan
      Yang membuat penasaran adalah apakah RNN bisa bersaing dengan Transformer ketika jumlah operasi floating-point dibuat tetap, tetapi makalah aslinya tampaknya tidak benar-benar membahas bagian ini
    • Setelah teks panjang, tidak perlu mengatakan “terjemahkan ke bahasa Jerman”
      Sebagai gantinya, jika mengatakan “terjemahkan berikut ini ke bahasa Jerman”, yang perlu diingat hanyalah tugas saat ini dan jumlah input terbaru yang jauh lebih sedikit
      Tentu saja, tetap diperlukan kemampuan untuk menghasilkan output secara paralel sambil memproses input
  • Sejauh yang saya pahami, alasan Transformer memungkinkan boom setelahnya adalah karena ia menyelesaikan dua masalah besar RNN
    vanishing gradient membatasi konteks dan ukuran model, dan sulitnya paralelisasi membatasi ukuran data pelatihan
    Saya penasaran apakah sekarang sudah ada solusi untuk dua masalah ini

    • Transformer bisa mengambil kembali informasi sebelumnya yang kemudian menjadi berguna kapan pun
      Karena RNN terus memperbarui dan menimpa memori, ia harus memprediksi terlebih dahulu informasi apa yang akan berguna nanti lalu menyimpannya
      Dalam kasus penggunaan percakapan seperti ChatGPT, ini adalah keunggulan Transformer yang luar biasa
      Jika diberi konteks lalu ditanya dalam beberapa giliran, konteks mana yang penting untuk pertanyaan tertentu baru diketahui di bagian akhir urutan token
      Lebih tepatnya, ini seharusnya disebut keunggulan model berbasis attention, dan ada juga model hibrida seperti Jamba yang berhasil memadukan kedua pendekatan
    • Vanishing gradient atau exploding gradient memengaruhi bukan hanya RNN, tetapi semua struktur yang dalam
      LSTM, yang pertama kali diajukan pada 1997, lebih dulu menawarkan solusi: https://www.semanticscholar.org/paper/Long-Short-Term-Memory...
      Menarik bahwa pengetahuan ini tampaknya hampir terlupakan
      Sekitar 2014, LSTM sangat populer: https://karpathy.github.io/2015/05/21/rnn-effectiveness/
      https://colah.github.io/posts/2015-08-Understanding-LSTMs/
    • Dari pembacaan sepintas atas makalahnya, makalah ini terutama menargetkan paralelisasi dan pelatihan cepat, bukan “vanishing gradient”
      Namun tampaknya dengan menyederhanakan unit rekuren, keduanya ikut membaik
      Ini karya yang cukup cerdas dan menarik
      Makalahnya terus menyebutnya “arsitektur berusia 10 tahun”, tetapi sebenarnya ia masih sangat banyak dipakai karena mudah diadaptasi ke berbagai domain
      Menempatkannya sebagai “pesaing” Transformer juga tidak sepenuhnya adil, karena Transformer dan RNN tidak saling eksklusif dan ada banyak cara untuk menggabungkan keduanya
      Perbaikan pada RNN bisa berujung pada peningkatan di berbagai tempat yang tak terduga
  • Saya benar-benar suka kesederhanaan struktur minGRU
    Pada dasarnya, dari token ia membuat status tersembunyi usulan dan koefisien pencampuran masing-masing lewat transformasi linear, lalu mencampurnya dengan torch.lerp(proposed_hidden_state, previous_hidden_state, mix_factors)
    Karena status tersembunyi usulan dan koefisien pencampuran tiap lapisan hanya bergantung pada token saat ini, jika seluruh sekuens sudah diketahui sebelumnya seperti saat pelatihan, semuanya bisa dihitung secara paralel lalu digabungkan dalam waktu linear dengan parallel scan
    Fakta bahwa ini kompetitif dengan Transformer dan model state space dalam eksperimen skala kecil memuaskan perasaan orang yang percaya bahwa “PR terbaik adalah PR yang menghapus kode”
    Meski begitu, sebelum dicoba diperbesar ke skala parameter dan data yang mirip model terbaik terkini, kita belum tahu apakah ini Breakthrough dengan B besar
    Dari lampiran, tampaknya semua perhitungan dilakukan di ruang log, katanya demi stabilitas numerik
    Saya belum mendapat intuisi apakah itu karena jika tanh dihapus dari output dan dihitung di ruang linear, nilainya bisa meledak
    Fakta bahwa pemodelan sekuens seperti ini bisa bekerja juga menarik
    Rasanya seperti semua halaman buku disobek dan diberikan dalam urutan acak, lalu tanpa mengetahui halaman sebelumnya sama sekali, diminta membuat vektor tiap halaman dan “cara mencampur vektor ini dengan vektor seluruh halaman sebelumnya”, kemudian saya mencampurnya kembali sesuai urutan dan menilai seberapa bagus vektor akhirnya sebagai ringkasan seluruh buku
    Saat ini untuk mengubah token menjadi status tersembunyi usulan dan koefisien campuran interpolasi hanya dipakai dua lapisan linear dense; saya juga penasaran apa yang terjadi jika transformasi ini dibuat sebagai MLP alih-alih satu lapisan linear

    • Sekilas, struktur ini tampak seperti menghalangi kemampuan dasar untuk mengenali sekuens token
      Setidaknya rasanya akan muncul masalah seperti pumping lemma
      Jika [the ][cat ][is ][black ] menghasilkan output yang dekat dengan suatu vektor, maka input yang mengulang [the ][cat ][is ][black ] tiga kali bukankah akan semakin dekat ke vektor itu dan semakin jauh dari vektor “kenapa kalimat yang sama diulang tiga kali?”
      Tanpa pencampuran nonlinear antara token input dan status tersembunyi, sepertinya akan tersisa banyak kemiripan linear di antara sekuens token yang mirip
    • Saya tidak melihatnya sebagai Breakthrough dengan B besar, tetapi recurrent neural network ada di mana-mana
      Jika ini penyederhanaan yang memperbaiki pelatihan dan performa, ia menyediakan panggung untuk menumpuk lagi kompleksitas di level yang lebih tinggi
    • Ruang log penting ketika probabilitas token memiliki rentang nilai yang sangat lebar, yakni berbeda hingga banyak digit
      Ada alasan mengapa fitting maximum likelihood selalu dilakukan dengan log-likelihood
  • Saya pernah membuat RNN untuk proyek kuliah, dan saat itu saya tertarik pada teknologi historis yang sudah hilang, jadi saya merasa harus memanfaatkan kesempatan karena setelah lulus mungkin tidak akan pernah mendengar soal neural network lagi
    Yang saya buat memang bekerja, tetapi sangat sederhana dan luar biasa lambat di laptop tua
    Memang tidak ada yang bisa cepat di laptop itu, tetapi saya ingat RNN jauh lebih lambat daripada jaringan feedforward
    Saya yakin ini adalah teknologi mati yang hanya menjadi keingintahuan akademis era 1980–1990-an, jadi melihat betapa cepatnya itu berubah terasa aneh

    • Rasanya jadi tua
      Sekitar tahun 2000 saya menulis tesis master tentang pembelajaran sistem dinamis, misalnya RNN untuk tujuan kontrol, dan saat itu topiknya cukup baru
      Saya menulis backpropagation dalam C++ dan menjalankannya semalaman, dan itu benar-benar lambat karena gradiennya kecil
      Struktur jaringannya juga hanya satu hidden layer dengan sekitar 5 atau 10 neuron
      Neural network dulu topik kecil yang kalau bisa menemukan kuliahnya saja sudah beruntung, lalu saya seperti menutup mata sebentar dan ketika melihat lagi pada 2015 semuanya sudah benar-benar berubah
  • Para penulis, termasuk Yoshua Bengio, patut diapresiasi karena mengakhiri makalah dengan pertanyaan, bukan mengusulkannya seolah mereka sudah tahu jawabannya.
    Model-model ini sangat kecil bahkan menurut standar akademik, jadi hasil apa pun tidak bisa dianggap pasti akan meluas hingga skala LLM saat ini.
    Kesimpulan utamanya adalah bahwa jaringan keluarga RNN juga dapat dilatih seefisien alternatif modern, tetapi daya saing performa akhirnya baru terkonfirmasi pada skala kecil.

    • Perlu penekanan pada “tidak selalu demikian”.
      Bukankah kesimpulannya juga seharusnya menjadi “bahwa performa akhirnya kompetitif baru terkonfirmasi pada skala kecil”?
  • Model dalam makalah ini dibuat agar bisa diparalelkan, sehingga bukan RNN “sejati” karena alasan seperti yang dijelaskan di https://arxiv.org/abs/2404.08819, dan karena itu secara teoretis kurang kuat dibanding RNN tradisional.
    Model ini kesulitan pada beberapa kelas masalah yang semula menjadi keunggulan RNN.
    Sebaliknya, https://arxiv.org/abs/2405.04517 memuat komponen RNN “sejati” dan menunjukkan peningkatan besar pada masalah pelacakan status yang sulit bagi Transformer.

    • Ini juga RNN sejati.
      Mereka tetap bergantung pada hidden state sebelumnya, hanya saja gating-nya tidak bergantung padanya.
      Persamaan RNN dasar dapat diparalelkan dengan algoritma parallel prefix scan.
  • Saya belum melihat makalahnya secara mendetail, jadi semoga ada yang bisa menjawab.
    Seperti yang disebutkan, kalau hidden state dihapus dari RNN, apa yang tersisa? Apakah itu MLP yang memprediksi dari satu token?

    • Hidden state tidak sepenuhnya dihapus; hanya dihapus dari input gate, forget gate, dan update gate.
      Saya belum sepenuhnya mencerna makalahnya, tetapi untuk GRU, tampaknya ini berarti masking pembaruan hidden state, yaitu z_t dan r_t dalam persamaan makalah hanya bergantung pada input baru, bukan pada gabungan input dan hidden state sebelumnya.
    • Tidak dihapus sepenuhnya; hanya dependensi tertentu yang dihapus agar dapat dihitung dengan parallel scan.
      Hidden state tetap ada.
      Ini agak mirip dengan yang dilakukan di Mamba.
    • Dari baca sepintas, tampaknya mereka menyesuaikan pembaruan state agar bisa dijalankan dengan parallel scan tanpa perlu dieksekusi secara sekuensial.
    • Kuncinya adalah menjaga dependensi rekursif tetap linear, sehingga pelatihan paralel menjadi mungkin.