- Qwen2.5-1M adalah model open-source berperforma tinggi yang mendukung panjang konteks hingga 1M token, dan merupakan peningkatan dari Qwen2.5-Turbo yang dirilis 2 bulan lalu
- Dua checkpoint dirilis: Qwen2.5-7B-Instruct-1M dan Qwen2.5-14B-Instruct-1M
- Ini adalah pertama kalinya model Qwen mendukung konteks 1M token
- Framework inferensi dirilis: menyediakan framework inferensi teroptimasi berbasis vLLM. Dengan integrasi teknik sparse attention, input 1M token dapat diproses 3~7 kali lebih cepat
- Laporan teknis dirilis: membagikan laporan teknis rinci tentang desain framework pelatihan dan inferensi, serta hasil eksperimen
Performa model
Tugas konteks panjang
- Evaluasi Passkey Retrieval: mengekstrak informasi secara akurat dari dokumen 1M token. Model Qwen2.5-7B menghasilkan sedikit kesalahan, sementara Qwen2.5-14B mempertahankan akurasi tinggi
- Evaluasi tugas kompleks:
- Pada RULER, LV-Eval, LongbenchChat, dan lainnya, model Qwen2.5-1M menunjukkan performa yang lebih baik daripada model 128K
- Khususnya, Qwen2.5-14B secara umum menunjukkan performa lebih tinggi bahkan dibandingkan GPT-4o-mini
Tugas konteks pendek
- Pada tugas pendek juga, model Qwen2.5-1M mempertahankan performa yang sama dengan versi 128K
- Menunjukkan performa tugas pendek yang mirip dengan GPT-4o-mini, sambil mendukung konteks hingga 8 kali lebih panjang
Teknologi inti
Pelatihan konteks panjang
- Memperluas panjang konteks secara bertahap dari 4K ke 256K
- Menerapkan penyesuaian berbasis RoPE, pelatihan bertahap, dan reinforcement learning
- Teknik Dual Chunk Attention(DCA) mendukung perluasan ke konteks 1M token
- DCA mempertahankan akurasi tinggi pada teks panjang bahkan tanpa pelatihan tambahan
Sparse Attention
- Mengadopsi sparse attention berbasis MInference
- Chunked Prefill terintegrasi: mengurangi penggunaan memori sebesar 96.7%
- Length Extrapolation terintegrasi: digabungkan dengan DCA untuk meningkatkan akurasi dan efisiensi inferensi
- Sparsity Refinement on Long Sequences: memperkenalkan konfigurasi sparsifikasi yang dioptimalkan untuk meminimalkan penurunan performa pada teks panjang
- Hasilnya, kecepatan inferensi pada panjang 1M token meningkat 3.2x hingga 6.7x
Men-deploy Qwen2.5-1M di lingkungan lokal
Persyaratan sistem
- CUDA 12.1/12.3, Python 3.9~3.12
- Kebutuhan VRAM:
- Qwen2.5-7B: 120GB atau lebih
- Qwen2.5-14B: 320GB atau lebih
Instalasi dan menjalankan
- Clone repositori vLLM lalu instal
- Mulai layanan API yang kompatibel dengan OpenAI
- Model dapat diinteraksikan melalui Curl atau Python
Arah ke depan
- Sedang meneliti pelatihan, arsitektur model, dan metode inferensi yang lebih efisien
- Dikembangkan dengan target performa unggul baik pada konteks pendek maupun panjang
- Berencana terus memperluas kegunaan praktis model konteks panjang
3 komentar
Apakah ini akan berjalan dengan baik untuk bahasa Korea secara lokal?
2023-08-03 Alibaba merilis model AI open source QWEN
2024-04-25 Qwen1.5-110B: model 100B+ pertama dari seri LLM open source Qwen1.5 milik Alibaba
2024-06-07 Alibaba merilis model Qwen 2
2024-09-19 Qwen2.5 - merilis beberapa foundation model
2024-11-28 QwQ - LLM penalaran Alibaba yang mirip dengan ChatGPT o1
2024-12-24 Ulasan penggunaan QvQ, model penalaran visual baru dari Qwen
Komentar Hacker News
Dalam AI coding, context window yang sangat besar sebenarnya tidak terlalu berguna. Saat memasukkan lebih dari sekitar 25-30k token, model menjadi bingung
Ollama memiliki parameter
num_ctxuntuk mengontrol panjang context window, dengan nilai default 2048Diskusi tentang teknologi terbaru (SOTA) dalam komputasi yang berpusat pada memori
Ingin memastikan apakah model lokal pertama yang bisa dijalankan dengan panjang context di atas 128K langsung melonjak ke 1M
Ingin mendengar pendapat dari orang yang berhasil menjalankan prompt panjang di Mac
Model khusus API dengan context window 1M dirilis pada bulan November
Pernah mendengar rumor tentang panjang context native, tetapi tidak yakin apakah benar-benar 1M
Semua orang terus memperbesar context window, tetapi perlu juga memikirkan output