4 poin oleh devworld 2026-01-07 | 3 komentar | Bagikan ke WhatsApp

Halo, ini adalah makalah arXiv pertama saya yang dikerjakan sebagai riset independen saat masih siswa SMA.

Paper | Code

Ide inti:
Karena tidak efisien jika LLM menggunakan komputasi yang sama untuk input yang mudah maupun sulit, keputusan UPDATE/SKIP ditentukan dengan menggunakan reconstruction loss dari layer TTT sebagai sinyal.
Hanya dengan threshold + EMA tanpa pelatihan tambahan, pendekatan ini mencapai 82-89% kinerja dibanding Oracle.

Diimplementasikan dengan JAX/Flax, dan saat ini sedang divalidasi untuk scale-up dengan Gemma 3.

Masukan sangat diterima!

3 komentar

 
jhk0530 2026-01-07

Masih siswa SMA tapi keren sekali. Bagaimana Anda menyelesaikan masalah penjamin?

 
devworld 2026-01-07

Saya mendapatkannya dengan rajin mengirim cold email kepada para profesor dan doktor dari luar negeri yang telah lebih dulu meneliti topik ini!

 
jhk0530 2026-01-07

Ah, itu benar-benar jawaban yang tepat sasaran.