Qwen2.5-1M - Men-deploy sendiri Qwen yang mendukung hingga 1 juta token

(qwenlm.github.io)

4 poin oleh GN⁺ 2025-01-29 | 3 komentar | Bagikan ke WhatsApp

Qwen2.5-1M adalah model open-source berperforma tinggi yang mendukung panjang konteks hingga 1M token, dan merupakan peningkatan dari Qwen2.5-Turbo yang dirilis 2 bulan lalu
Dua checkpoint dirilis: Qwen2.5-7B-Instruct-1M dan Qwen2.5-14B-Instruct-1M
- Ini adalah pertama kalinya model Qwen mendukung konteks 1M token
Framework inferensi dirilis: menyediakan framework inferensi teroptimasi berbasis vLLM. Dengan integrasi teknik sparse attention, input 1M token dapat diproses 3~7 kali lebih cepat
Laporan teknis dirilis: membagikan laporan teknis rinci tentang desain framework pelatihan dan inferensi, serta hasil eksperimen

Performa model

Tugas konteks panjang

Evaluasi Passkey Retrieval: mengekstrak informasi secara akurat dari dokumen 1M token. Model Qwen2.5-7B menghasilkan sedikit kesalahan, sementara Qwen2.5-14B mempertahankan akurasi tinggi
Evaluasi tugas kompleks:
- Pada RULER, LV-Eval, LongbenchChat, dan lainnya, model Qwen2.5-1M menunjukkan performa yang lebih baik daripada model 128K
- Khususnya, Qwen2.5-14B secara umum menunjukkan performa lebih tinggi bahkan dibandingkan GPT-4o-mini

Tugas konteks pendek

Pada tugas pendek juga, model Qwen2.5-1M mempertahankan performa yang sama dengan versi 128K
Menunjukkan performa tugas pendek yang mirip dengan GPT-4o-mini, sambil mendukung konteks hingga 8 kali lebih panjang

Teknologi inti

Pelatihan konteks panjang

Memperluas panjang konteks secara bertahap dari 4K ke 256K
Menerapkan penyesuaian berbasis RoPE, pelatihan bertahap, dan reinforcement learning
Teknik Dual Chunk Attention(DCA) mendukung perluasan ke konteks 1M token
DCA mempertahankan akurasi tinggi pada teks panjang bahkan tanpa pelatihan tambahan

Sparse Attention

Mengadopsi sparse attention berbasis MInference
Chunked Prefill terintegrasi: mengurangi penggunaan memori sebesar 96.7%
Length Extrapolation terintegrasi: digabungkan dengan DCA untuk meningkatkan akurasi dan efisiensi inferensi
Sparsity Refinement on Long Sequences: memperkenalkan konfigurasi sparsifikasi yang dioptimalkan untuk meminimalkan penurunan performa pada teks panjang
Hasilnya, kecepatan inferensi pada panjang 1M token meningkat 3.2x hingga 6.7x

Men-deploy Qwen2.5-1M di lingkungan lokal

Persyaratan sistem

CUDA 12.1/12.3, Python 3.9~3.12
Kebutuhan VRAM:
- Qwen2.5-7B: 120GB atau lebih
- Qwen2.5-14B: 320GB atau lebih

Instalasi dan menjalankan

Clone repositori vLLM lalu instal
Mulai layanan API yang kompatibel dengan OpenAI
Model dapat diinteraksikan melalui Curl atau Python

Arah ke depan

Sedang meneliti pelatihan, arsitektur model, dan metode inferensi yang lebih efisien
Dikembangkan dengan target performa unggul baik pada konteks pendek maupun panjang
Berencana terus memperluas kegunaan praktis model konteks panjang

3 komentar

yangeok 2025-01-30

Apakah ini akan berjalan dengan baik untuk bahasa Korea secara lokal?

xguru 2025-01-29

2023-08-03 Alibaba merilis model AI open source QWEN
2024-04-25 Qwen1.5-110B: model 100B+ pertama dari seri LLM open source Qwen1.5 milik Alibaba
2024-06-07 Alibaba merilis model Qwen 2
2024-09-19 Qwen2.5 - merilis beberapa foundation model
2024-11-28 QwQ - LLM penalaran Alibaba yang mirip dengan ChatGPT o1
2024-12-24 Ulasan penggunaan QvQ, model penalaran visual baru dari Qwen

GN⁺ 2025-01-29

Komentar Hacker News

Dalam AI coding, context window yang sangat besar sebenarnya tidak terlalu berguna. Saat memasukkan lebih dari sekitar 25-30k token, model menjadi bingung
- Masalah ini terjadi pada gpt-4o, Sonnet, DeepSeek, dan lainnya
- Banyak pengguna melaporkan masalah ini dan membuat halaman bantuan khusus untuk mengatasinya
- Context besar bisa berguna untuk tugas tertentu yang memiliki banyak context "bernilai rendah", tetapi untuk coding justru bisa menimbulkan masalah
Ollama memiliki parameter num_ctx untuk mengontrol panjang context window, dengan nilai default 2048
- Ada tips untuk menjalankannya menggunakan MLX di macOS
Diskusi tentang teknologi terbaru (SOTA) dalam komputasi yang berpusat pada memori
- Mungkin diperlukan paradigma baru untuk menurunkan biaya memori AI
- Mungkin ada cara untuk menghubungkan DRAM dan interkoneksi optik
- Ingin tahu apakah ada sesuatu dengan fungsi mirip transformer yang tidak bergantung pada urutan
Ingin memastikan apakah model lokal pertama yang bisa dijalankan dengan panjang context di atas 128K langsung melonjak ke 1M
Ingin mendengar pendapat dari orang yang berhasil menjalankan prompt panjang di Mac
Model khusus API dengan context window 1M dirilis pada bulan November
Pernah mendengar rumor tentang panjang context native, tetapi tidak yakin apakah benar-benar 1M
- Model seperti llama3 8b dikatakan memiliki context yang lebih besar, tetapi kenyataannya tidak begitu
- Sulit melewati 8k pada 16gb vram
Semua orang terus memperbesar context window, tetapi perlu juga memikirkan output
- Ingin menghasilkan ribuan baris kode, dan penasaran apakah ada tips untuk itu

Qwen2.5-1M - Men-deploy sendiri Qwen yang mendukung hingga 1 juta token

Performa model

Tugas konteks panjang

Tugas konteks pendek

Teknologi inti

Pelatihan konteks panjang

Sparse Attention

Men-deploy Qwen2.5-1M di lingkungan lokal

Persyaratan sistem

Instalasi dan menjalankan

Arah ke depan

Bacaan terkait

3 komentar

Komentar Hacker News