1 poin oleh GN⁺ 2023-10-03 | Belum ada komentar. | Bagikan ke WhatsApp
  • Artikel tentang penerapan aplikasi streaming untuk large language model (LLM), yang menantang karena konsumsi memori dan kurangnya kemampuan LLM untuk menggeneralisasi ke teks yang lebih panjang daripada panjang sekuens pelatihannya.
  • Para penulis memperkenalkan konsep 'attention sink', yang mengacu pada fenomena skor atensi yang kuat terhadap token-token awal, meskipun token-token tersebut tidak penting secara semantik.
  • Para penulis memperkenalkan StreamingLLM, kerangka kerja yang efisien dan memungkinkan LLM yang dilatih dengan jendela atensi berukuran terbatas untuk menggeneralisasi ke panjang sekuens tak terbatas tanpa fine-tuning.
  • StreamingLLM memungkinkan model seperti Llama-2, MPT, Falcon, dan Pythia melakukan language modeling yang stabil dan efisien hingga lebih dari 4 juta token.
  • Para penulis juga menemukan bahwa menambahkan token placeholder sebagai attention sink khusus selama pra-pelatihan dapat lebih meningkatkan penerapan streaming.
  • Dalam pengaturan streaming, StreamingLLM melampaui baseline komputasi ulang sliding window hingga 22,2 kali lebih cepat.
  • Para penulis juga menegaskan bahwa jendela konteks LLM tidak diperluas dalam StreamingLLM, dan model hanya dapat memproses token-token terbaru.
  • StreamingLLM ideal untuk aplikasi streaming seperti percakapan multi-putaran, ketika model harus terus beroperasi tanpa bergantung pada memori yang luas atau data masa lalu.
  • Para penulis berencana merilis kode inti StreamingLLM, termasuk untuk Llama-2, MPT, Falcon, dan Pythia, serta kode perplexity, demo Streaming Llama Chatbot, dataset StreamEval, dan kode evaluasi.

Belum ada komentar.

Belum ada komentar.