PonderTTT - Alokasi Komputasi Adaptif Berbasis TTT
(ponderttt.worldsw.dev)Halo, ini adalah makalah arXiv pertama saya yang dikerjakan sebagai riset independen saat masih siswa SMA.
Ide inti:
Karena tidak efisien jika LLM menggunakan komputasi yang sama untuk input yang mudah maupun sulit, keputusan UPDATE/SKIP ditentukan dengan menggunakan reconstruction loss dari layer TTT sebagai sinyal.
Hanya dengan threshold + EMA tanpa pelatihan tambahan, pendekatan ini mencapai 82-89% kinerja dibanding Oracle.
Diimplementasikan dengan JAX/Flax, dan saat ini sedang divalidasi untuk scale-up dengan Gemma 3.
Masukan sangat diterima!
3 komentar
Masih siswa SMA tapi keren sekali. Bagaimana Anda menyelesaikan masalah penjamin?
Saya mendapatkannya dengan rajin mengirim cold email kepada para profesor dan doktor dari luar negeri yang telah lebih dulu meneliti topik ini!
Ah, itu benar-benar jawaban yang tepat sasaran.