4 poin oleh GN⁺ 2025-01-29 | 3 komentar | Bagikan ke WhatsApp
  • Qwen2.5-1M adalah model open-source berperforma tinggi yang mendukung panjang konteks hingga 1M token, dan merupakan peningkatan dari Qwen2.5-Turbo yang dirilis 2 bulan lalu
  • Dua checkpoint dirilis: Qwen2.5-7B-Instruct-1M dan Qwen2.5-14B-Instruct-1M
    • Ini adalah pertama kalinya model Qwen mendukung konteks 1M token
  • Framework inferensi dirilis: menyediakan framework inferensi teroptimasi berbasis vLLM. Dengan integrasi teknik sparse attention, input 1M token dapat diproses 3~7 kali lebih cepat
  • Laporan teknis dirilis: membagikan laporan teknis rinci tentang desain framework pelatihan dan inferensi, serta hasil eksperimen

Performa model

Tugas konteks panjang

  • Evaluasi Passkey Retrieval: mengekstrak informasi secara akurat dari dokumen 1M token. Model Qwen2.5-7B menghasilkan sedikit kesalahan, sementara Qwen2.5-14B mempertahankan akurasi tinggi
  • Evaluasi tugas kompleks:
    • Pada RULER, LV-Eval, LongbenchChat, dan lainnya, model Qwen2.5-1M menunjukkan performa yang lebih baik daripada model 128K
    • Khususnya, Qwen2.5-14B secara umum menunjukkan performa lebih tinggi bahkan dibandingkan GPT-4o-mini

Tugas konteks pendek

  • Pada tugas pendek juga, model Qwen2.5-1M mempertahankan performa yang sama dengan versi 128K
  • Menunjukkan performa tugas pendek yang mirip dengan GPT-4o-mini, sambil mendukung konteks hingga 8 kali lebih panjang

Teknologi inti

Pelatihan konteks panjang

  • Memperluas panjang konteks secara bertahap dari 4K ke 256K
  • Menerapkan penyesuaian berbasis RoPE, pelatihan bertahap, dan reinforcement learning
  • Teknik Dual Chunk Attention(DCA) mendukung perluasan ke konteks 1M token
  • DCA mempertahankan akurasi tinggi pada teks panjang bahkan tanpa pelatihan tambahan

Sparse Attention

  • Mengadopsi sparse attention berbasis MInference
  • Chunked Prefill terintegrasi: mengurangi penggunaan memori sebesar 96.7%
  • Length Extrapolation terintegrasi: digabungkan dengan DCA untuk meningkatkan akurasi dan efisiensi inferensi
  • Sparsity Refinement on Long Sequences: memperkenalkan konfigurasi sparsifikasi yang dioptimalkan untuk meminimalkan penurunan performa pada teks panjang
  • Hasilnya, kecepatan inferensi pada panjang 1M token meningkat 3.2x hingga 6.7x

Men-deploy Qwen2.5-1M di lingkungan lokal

Persyaratan sistem

  • CUDA 12.1/12.3, Python 3.9~3.12
  • Kebutuhan VRAM:
    • Qwen2.5-7B: 120GB atau lebih
    • Qwen2.5-14B: 320GB atau lebih

Instalasi dan menjalankan

  1. Clone repositori vLLM lalu instal
  2. Mulai layanan API yang kompatibel dengan OpenAI
  3. Model dapat diinteraksikan melalui Curl atau Python

Arah ke depan

  • Sedang meneliti pelatihan, arsitektur model, dan metode inferensi yang lebih efisien
  • Dikembangkan dengan target performa unggul baik pada konteks pendek maupun panjang
  • Berencana terus memperluas kegunaan praktis model konteks panjang

3 komentar

 
yangeok 2025-01-30

Apakah ini akan berjalan dengan baik untuk bahasa Korea secara lokal?

 
GN⁺ 2025-01-29
Komentar Hacker News
  • Dalam AI coding, context window yang sangat besar sebenarnya tidak terlalu berguna. Saat memasukkan lebih dari sekitar 25-30k token, model menjadi bingung

    • Masalah ini terjadi pada gpt-4o, Sonnet, DeepSeek, dan lainnya
    • Banyak pengguna melaporkan masalah ini dan membuat halaman bantuan khusus untuk mengatasinya
    • Context besar bisa berguna untuk tugas tertentu yang memiliki banyak context "bernilai rendah", tetapi untuk coding justru bisa menimbulkan masalah
  • Ollama memiliki parameter num_ctx untuk mengontrol panjang context window, dengan nilai default 2048

    • Ada tips untuk menjalankannya menggunakan MLX di macOS
  • Diskusi tentang teknologi terbaru (SOTA) dalam komputasi yang berpusat pada memori

    • Mungkin diperlukan paradigma baru untuk menurunkan biaya memori AI
    • Mungkin ada cara untuk menghubungkan DRAM dan interkoneksi optik
    • Ingin tahu apakah ada sesuatu dengan fungsi mirip transformer yang tidak bergantung pada urutan
  • Ingin memastikan apakah model lokal pertama yang bisa dijalankan dengan panjang context di atas 128K langsung melonjak ke 1M

  • Ingin mendengar pendapat dari orang yang berhasil menjalankan prompt panjang di Mac

  • Model khusus API dengan context window 1M dirilis pada bulan November

  • Pernah mendengar rumor tentang panjang context native, tetapi tidak yakin apakah benar-benar 1M

    • Model seperti llama3 8b dikatakan memiliki context yang lebih besar, tetapi kenyataannya tidak begitu
    • Sulit melewati 8k pada 16gb vram
  • Semua orang terus memperbesar context window, tetapi perlu juga memikirkan output

    • Ingin menghasilkan ribuan baris kode, dan penasaran apakah ada tips untuk itu