Zyphra merilis Zamba2-7B, model bahasa kecil yang melampaui Llama3

(zyphra.com)

7 poin oleh GN⁺ 2024-10-16 | 1 komentar | Bagikan ke WhatsApp

Zamba2-7B mencapai SOTA dalam performa benchmark evaluasi dan efisiensi inferensi dibanding model 7B utama saat ini seperti Mistral-7B, Gemma-7B, dan Llama3-8B
Zamba2-7B 25% lebih cepat hingga token pertama, jumlah token per detik meningkat 20%, dan penggunaan memorinya jauh berkurang dibanding Llama3-8B dan lainnya, sehingga efisiensi inferensinya sangat unggul

Peningkatan arsitektur Zamba2-7B dibanding Zamba1-7B

Blok Mamba1 digantikan dengan blok Mamba2
Alih-alih satu blok attention bersama, digunakan 2 blok attention bersama yang diinterleave dengan pola ABAB di seluruh jaringan
Proyektor LoRA diterapkan pada setiap blok MLP bersama sehingga MLP dapat dispesialisasi pada setiap pemanggilan layer bersama sesuai kedalaman
Bobot model dirilis sebagai open source dengan lisensi Apache 2.0

Performa Zamba2-7B pada set evaluasi language modeling

Zamba2 menunjukkan performa yang sangat baik pada set evaluasi language modeling standar jika mempertimbangkan latensi dan kecepatan generasi
Menjadi yang terdepan baik dalam kualitas maupun performa di antara model bahasa kecil berukuran 8B ke bawah

Mengapa Zamba2-7B melampaui model SOTA yang ada

Arsitektur attention bersama yang baru memungkinkan lebih banyak parameter dialokasikan ke backbone Mamba2. Blok transformer bersama mempertahankan ketergantungan antarsekuens yang kaya dari operasi attention
Dataset pretraining sebesar 3 triliun token terdiri dari kombinasi Zyda dan dataset publik yang difilter serta dideduplikasi secara agresif, dan mencapai kualitas tertinggi dibanding dataset pretraining open source papan atas yang ada
Pada tahap pretraining "annealing" terpisah, laju pembelajaran diturunkan secara tajam sepanjang 100 miliar token berkualitas tinggi. Set annealing dikumpulkan dari berbagai sumber berkualitas tinggi dengan kontrol kualitas yang ketat

Berkat kualitas dataset pretraining dan annealing yang unggul, Zamba2-7B memiliki performa per token pelatihan yang sangat baik, dan berada jauh di atas kurva yang digambarkan model-model pesaing

Arsitektur hybrid SSM-attention Zamba

Zamba2-7B memanfaatkan dan memperluas arsitektur hybrid SSM-attention Zamba yang asli
Arsitektur inti Zamba terdiri dari backbone layer Mamba yang diinterleave dengan satu atau lebih layer attention bersama (Zamba1 menggunakan 1, Zamba2 menggunakan 2 attention bersama)
Attention ini memiliki bobot bersama untuk meminimalkan biaya parameter model
Menghubungkan embedding model asli dari input ke blok attention ini tampaknya meningkatkan retensi informasi di sepanjang kedalaman, sehingga performa ikut membaik
Arsitektur Zamba2 memperoleh daya representasi tambahan dengan menerapkan matriks proyeksi LoRA pada MLP bersama, sehingga tiap blok dapat sedikit dispesialisasi pada posisinya masing-masing sambil menjaga overhead parameter tetap kecil

Faktor yang memungkinkan tercapainya efisiensi inferensi SOTA

Blok Mamba2 sangat efisien dan memiliki throughput sekitar 4 kali lebih tinggi dibanding blok transformer dengan jumlah parameter yang sama
Blok Mamba hanya memerlukan hidden state kecil untuk disimpan dan tidak membutuhkan KV-cache, sehingga status KV hanya perlu disimpan untuk pemanggilan blok attention bersama
Ukuran model dipilih agar sangat cocok untuk paralelisasi pada hardware modern (misalnya banyak streaming multiprocessor pada GPU, dan multicore pada CPU)

Pelatihan dan rilis Zamba2-7B

Zamba2-7B dilatih selama sekitar 50 hari pada 128 GPU H100 menggunakan framework pelatihan internal berbasis Megatron-LM
Zamba2-7B menunjukkan bahwa pada skala 7B, tim kecil dengan anggaran yang wajar pun dapat mencapai dan melampaui level terdepan
Dirilis dengan lisensi open source sehingga peneliti, pengembang, dan perusahaan dapat memanfaatkan kemampuannya
Diharapkan komunitas AI akan mengeksplorasi arsitektur unik Zamba dan terus mendorong batas model fondasi yang efisien

Model Zamba2-7B yang dirilis:

Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
Pure PyTorch: https://github.com/Zyphra/Zamba2

Visi Zyphra

Tim Zyphra berdedikasi untuk mendemokratisasi sistem AI canggih, mengeksplorasi arsitektur baru di garis depan performa, serta memajukan riset ilmiah dan pemahaman tentang model yang kuat
Mereka menantikan kolaborasi dengan pihak lain yang berbagi visi ini

Pendapat GN⁺

Langkah Zyphra merilis Zamba2 sebagai open source sangat bermakna. Ini akan berkontribusi pada demokratisasi teknologi AI karena siapa pun kini dapat menggunakan dan meneliti model bahasa mutakhir secara gratis
Arsitektur baru Zamba2 menunjukkan arah untuk mengatasi keterbatasan model berbasis transformer yang ada dan membangun model bahasa yang lebih efisien. Ide khas Zamba seperti attention bersama dan proyeksi LoRA tampaknya akan menginspirasi riset model bahasa ke depan
Fakta bahwa tim skala kecil hingga menengah juga dapat membuat model bahasa besar dengan performa SOTA dengan memanfaatkan hardware terbaru juga menggembirakan. Diharapkan pengembangan model fondasi akan makin aktif dengan partisipasi dari beragam organisasi
Perlu dilihat bagaimana performa Zamba2 akan terwujud dalam aplikasi nyata. Skor benchmark yang unggul tidak selalu langsung berbanding lurus dengan tugas dunia nyata. Penting bagi praktisi di berbagai bidang untuk mencoba Zamba2 dan membagikan kelebihan serta kekurangannya

1 komentar

GN⁺ 2024-10-16

Opini Hacker News

Membagikan tautan bagi orang-orang yang mencari bobot yang tidak ditautkan di artikel
- Model dasar: Zyphra/Zamba2-7B
- Fine-tuning Instruct: Zyphra/Zamba2-7B-Instruct
Penasaran apakah peningkatan performa berasal dari perbaikan dataset atau dari arsitekturnya. Ini tampaknya akan menjadi eksperimen yang mahal
Merasa lelah dengan rilis LLM yang memakai benchmark secara selektif. Penasaran dengan perbandingannya terhadap SOTA qwen2.5/phi3.5
- Bertanya apakah ada yang tahu leaderboard independen terbaru. Lmsys dan livebench belakangan melewatkan sebagian besar model utama
Bagus jika lebih banyak model berlisensi Apache bermunculan, terutama bersama beragam arsitektur
Dibandingkan banyaknya pekerjaan teoretis pada blok Mamba2, peningkatan performanya sangat kecil
- Attention tetap penting
Saat memakai dua attention head, penasaran apakah masing-masing head berfokus pada aspek data yang berbeda
- Dalam riset memori ada konsep representasi ganda atas suatu peristiwa. Satu adalah representasi yang lebih akurat, yang lain lebih berbobot konteks
- Dalam LLM, bisa dibayangkan sistem di mana satu head attention berfokus pada representasi yang presisi, sementara yang lain pada informasi yang lebih kasar. Namun karena tidak terlalu paham LLM, tidak yakin apakah ini hanya analogi sederhana
Penasaran apa yang membuat 7B istimewa. Mengapa bukan 8B, 9B, atau 11.234B? Bertanya apakah 7B ditafsirkan sebagai pangkat dua
Hari lain, rekor dunia lain tercipta di AI
- Teringat Sergey Bubka. Ia memecahkan rekor dunia lompat galah putra sebanyak 35 kali
Bertanya apakah ada yang punya gambaran tentang bahasa apa saja yang didukung model ini