PonderTTT - Alokasi Komputasi Adaptif Berbasis TTT

Halo, ini adalah makalah arXiv pertama saya yang dikerjakan sebagai riset independen saat masih siswa SMA.

Ide inti:
Karena tidak efisien jika LLM menggunakan komputasi yang sama untuk input yang mudah maupun sulit, keputusan UPDATE/SKIP ditentukan dengan menggunakan reconstruction loss dari layer TTT sebagai sinyal.
Hanya dengan threshold + EMA tanpa pelatihan tambahan, pendekatan ini mencapai 82-89% kinerja dibanding Oracle.

Diimplementasikan dengan JAX/Flax, dan saat ini sedang divalidasi untuk scale-up dengan Gemma 3.

Masukan sangat diterima!

3 komentar

jhk0530 2026-01-07

Masih siswa SMA tapi keren sekali. Bagaimana Anda menyelesaikan masalah penjamin?

devworld 2026-01-07

Saya mendapatkannya dengan rajin mengirim cold email kepada para profesor dan doktor dari luar negeri yang telah lebih dulu meneliti topik ini!

jhk0530 2026-01-07

Ah, itu benar-benar jawaban yang tepat sasaran.

PonderTTT - Alokasi Komputasi Adaptif Berbasis TTT

Bacaan terkait

3 komentar