Arsitektur Google Titans mendukung pembentukan memori jangka panjang AI
(research.google)- Arsitektur Titans dan kerangka MIRAS dirancang agar model AI dapat memperbarui memori inti saat berjalan sambil memproses konteks yang sangat besar dengan cepat
- Titans menggabungkan kecepatan RNN dan akurasi Transformer, serta secara selektif menyimpan informasi dengan tingkat ‘kejutan (surprise)’ tinggi ke dalam memori jangka panjang selama input
- MIRAS adalah cetak biru teoretis yang menafsirkan berbagai model sekuens secara terpadu, dengan menata struktur memori, bias, pelupaan, dan proses optimisasi secara sistematis
- Hasil eksperimen menunjukkan bahwa Titans dan model varian MIRAS (YAAD, MONETA, MEMORA) menunjukkan kinerja yang lebih unggul dalam pemrosesan konteks panjang dan efisiensi dibanding model mutakhir seperti Transformer++ dan Mamba-2
- Riset ini menunjukkan peralihan menuju generasi baru model AI berkonteks panjang yang menggabungkan efisiensi RNN dan daya representasi Transformer
Ikhtisar Titans dan MIRAS
- Arsitektur Titans dan kerangka MIRAS dirancang agar AI dapat memperbarui memori secara real-time saat berjalan sambil memproses konteks skala besar
- Mekanisme attention pada Transformer konvensional membuat biaya komputasi melonjak seiring panjang sekuens
- Titans dan MIRAS mengatasi keterbatasan ini sehingga memungkinkan pemahaman konteks jangka panjang dan adaptasi real-time
- Titans berperan sebagai struktur model konkret, sedangkan MIRAS berfungsi sebagai cetak biru teoretis yang menggeneralisasikannya
- Kedua sistem mengembangkan konsep test-time memorization, sehingga informasi baru dapat diintegrasikan saat inferensi tanpa pelatihan ulang
Titans: pembelajaran konteks real-time
- Titans meniru struktur memori manusia dengan memisahkan memori jangka pendek (mekanisme attention) dan memori jangka panjang (modul berbasis jaringan saraf)
- Modul memori jangka panjang berbentuk multilayer perceptron (MLP), memakai jaringan saraf dalam alih-alih vektor tetap sehingga dapat merangkum informasi dengan lebih kaya
- Konsep intinya adalah ‘metrik kejutan (surprise metric)’
- Semakin berbeda input dari memori yang ada, semakin tinggi tingkat kejutannya dan semakin besar peluangnya disimpan dalam memori jangka panjang
- Contoh: kata yang diperkirakan (‘cat’) memiliki kejutan rendah, sedangkan input tak terduga (‘banana peel’) diperlakukan sebagai kejutan tinggi
- Titans menggabungkan mekanisme momentum dan pelupaan (weight decay)
- Momentum mencerminkan kesinambungan konteks terbaru sehingga informasi terkait ikut tersimpan
- Pelupaan menghapus informasi yang tidak diperlukan agar kapasitas memori tetap efisien
MIRAS: perspektif terpadu untuk model sekuens
- MIRAS menafsirkan semua model sekuens sebagai sistem memori asosiatif (associative memory)
- Berbagai model dipandang pada akhirnya menyelesaikan masalah yang sama: ‘menggabungkan informasi baru dan memori yang ada secara efisien’
- MIRAS mendefinisikan model melalui empat elemen desain
- Struktur memori: bentuk penyimpanan informasi (vektor, matriks, MLP, dan sebagainya)
- Bias attention: menentukan informasi mana yang diprioritaskan model
- Retention gate: skema regularisasi yang mengendalikan pelupaan
- Algoritme memori: metode optimisasi untuk pembaruan memori
- MIRAS melampaui keterbatasan model lama yang bergantung pada mean squared error (MSE) atau kemiripan inner product, dengan mengeksplorasi fungsi objektif dan regularisasi non-Euclidean
Model berbasis MIRAS
- YAAD: menggunakan Huber loss sehingga kurang sensitif terhadap kesalahan input atau outlier
- MONETA: menerapkan generalized norms untuk menjaga memori jangka panjang yang stabil
- MEMORA: membatasi memori seperti peta probabilistik untuk menjamin integrasi informasi yang seimbang
- Ketiga model ini semuanya mencapai kinerja memori jangka panjang yang kuat bahkan tanpa attention
Hasil eksperimen dan kinerja
- Titans dan model varian MIRAS dievaluasi dengan membandingkannya terhadap arsitektur mutakhir seperti Transformer++, Mamba-2, dan Gated DeltaNet
- Mencapai akurasi lebih tinggi dan perplexity lebih rendah pada language modeling (C4, WikiText) serta penalaran zero-shot (HellaSwag, PIQA)
- Juga menunjukkan kemampuan generalisasi pada pemodelan genom (DNA) dan prediksi deret waktu
- Kedalaman memori (Depth) berpengaruh sangat besar terhadap kinerja
- Bahkan dengan ukuran memori yang sama, struktur yang lebih dalam menghasilkan perplexity lebih rendah dan skalabilitas yang lebih baik
- Dari sisi efisiensi, Titans mempertahankan pelatihan paralel dan kecepatan inferensi linear, sehingga dapat memproses lebih cepat daripada model sebelumnya
- Pada benchmark BABILong, model ini menunjukkan kinerja lebih baik dalam penalaran konteks panjang meski memakai parameter lebih sedikit daripada GPT-4
- Secara efektif dapat menangani jendela konteks hingga lebih dari 2 juta token
Kesimpulan
- Titans dan MIRAS menghadirkan struktur memori baru yang melampaui batas status rekuren berukuran tetap dan belajar secara real-time selama data masuk
- MIRAS menyediakan kerangka teoretis yang kuat yang mengintegrasikan optimisasi online, memori asosiatif, dan desain arsitektur
- Melalui ruang desain non-Euclidean, keduanya meletakkan dasar bagi era model AI berkonteks panjang yang menggabungkan efisiensi RNN dan daya representasi Transformer
1 komentar
Komentar Hacker News
Memperkenalkan makalah Titans: Learning to Memorize at Test Time
Teks aslinya ada di tautan arXiv
Makalah terkait bisa dilihat di tautan pertama dan kedua. Menurutnya Google layak mendapat banyak kepercayaan karena transparansi seperti ini
Makalah dari lab besar AS sering kali tidak selaras dengan performa praktis. Sebagai contoh DeepSeek, disebutkan makalah ini dan makalah ini
Meta's Llama, Qwen, dan DeepSeek jauh lebih maju. Saat ini yang tersedia hanya implementasi tidak resmi
Yang belakangan paling mengesankan adalah proyek lumine, dan dibagikan tautan makalah serta halaman riset resmi
Menurutnya tidak ada alasan Google secara khusus mendapat pengakuan lebih besar
Melempar lelucon, “akhirnya kita membuat ‘Torment Nexus’”
Disebutkan bahwa dalam semesta Eclipse Phase, TITAN adalah jaringan AI yang menghancurkan umat manusia
Inti arsitektur Titans adalah menilai kejutan dan pentingnya melalui sinyal kesalahan internal (gradient), lalu memperbarui memori jangka panjang berdasarkan itu
Jadi muncul pertanyaan apakah struktur seperti ini bisa diganggu dengan input noise acak
Model belajar bahkan saat inferensi, dan pada tahap pelatihan ia belajar ‘apa yang harus dipelajari’
Input yang tidak bermakna diberi embedding surprise rendah sehingga hampir tidak tercermin dalam pembelajaran
Manusia mengingat bukan berdasarkan kebaruan semata, melainkan intensitas emosional. AI juga perlu memiliki keadaan internal tentang ‘apa yang diinginkannya’
Namun dalam lingkungan dengan konteks yang terjaga seperti pengembangan codebase, AI dapat mengingat keputusan desain dan isi diskusi di masa lalu untuk membuat penilaian yang lebih baik
Saat pertama kali membaca makalah Titans, ada yang merasa “ini akan menjadi kemajuan besar”
Bukan pekerja di industri AI, tetapi sudah lama memikirkan AI berpikir seperti manusia
LLM masih jauh dari standar itu, tetapi Titans tampak seperti satu langkah ke arah sana
Ingin merangkum pemikiran ini di blog, tetapi tidak yakin akan mendapat perhatian karena bukan figur yang dikenal
Meski begitu, jika implementasi nyata Titans keluar, rasanya semua orang akan terkejut
Tulisan yang menyoroti gambaran besarnya justru bisa memberi wawasan yang berguna
Sudah pernah menulis artikel blog tentang Titans
Selain klaim Google, belum ada implementasi yang terverifikasi, dan riset lanjutan pun hampir tidak ada
Ada yang penasaran apakah struktur Titans akan lebih rentan atau justru kurang rentan terhadap prompt injection
Pembelajaran waktu nyata bisa meningkatkan pertahanan, tetapi di sisi lain input berbahaya juga bisa tertinggal lebih dalam
Saat membaca penjelasan tentang mekanisme attention pada Transformer, ada yang penasaran bagaimana IDE seperti Cursor mengelola memori
Rasanya alat itu makin lama makin memahami codebase dan konteks dengan lebih baik
Ini hanya bagian yang menjelaskan cara kerja context window pada Transformer
Ada yang bertanya apakah Titans bisa dibayangkan sebagai struktur yang terus beradaptasi seperti LoRA
Jika ya, apakah ada tahap untuk menggabungkan kembali LoRA ke model utama? Itu digambarkan seperti proses tidur
Titans tidak memiliki struktur berdimensi rendah seperti itu
Sebagai gantinya, pendekatannya adalah melatih seluruh MLP sambil memproses chunk input
Ada yang penasaran apakah pembelajaran berbasis kejutan akan membuat model lebih selaras (alignment) secara presisi dengan prompt pengguna