4 poin oleh frida 2024-07-01 | 2 komentar | Bagikan ke WhatsApp

2 komentar

 
frida 2024-07-02

Berbagai metode yang saya teliti dan coba untuk memperpanjang panjang konteks LLM secara efisien agar dapat menggunakan LLM bahasa Korea dengan konteks yang panjang

  1. LongLoRA
    Memanfaatkan shifted sparse attention dan fine-tuning LoRA untuk memperluas hingga 8x

  2. Rope-based Position Interpolation
    Dapat diterapkan pada model yang menggunakan embedding berbasis RoPE seperti Llama dengan memodifikasi embedding RoPE, dan melalui fine-tuning panjang konteks dapat diperluas hingga 16x

  3. Dynamic NTK
    Menerapkan teori NTK tanpa fine-tuning untuk memperluas lebih dari 2x

  4. LongLM
    Menggunakan attention yang dimodifikasi untuk memperluas hingga 4x tanpa fine-tuning

  5. ChunkLlama
    Memecah teks menjadi chunk untuk memperluas panjang konteks model Llama hingga 4x tanpa fine-tuning

  6. Infini-attention
    Dapat diperpanjang hingga 2M dengan penggunaan memori tambahan yang kecil serta memungkinkan inferensi yang cepat, metode yang diterapkan pada Gemini-Pro

 
superwoou 2024-07-02

Ini pertama kalinya saya melihat tulisan yang sama sekali tidak punya ringkasan.