- Zamba2-7B mencapai SOTA dalam performa benchmark evaluasi dan efisiensi inferensi dibanding model 7B utama saat ini seperti Mistral-7B, Gemma-7B, dan Llama3-8B
- Zamba2-7B 25% lebih cepat hingga token pertama, jumlah token per detik meningkat 20%, dan penggunaan memorinya jauh berkurang dibanding Llama3-8B dan lainnya, sehingga efisiensi inferensinya sangat unggul
Peningkatan arsitektur Zamba2-7B dibanding Zamba1-7B
- Blok Mamba1 digantikan dengan blok Mamba2
- Alih-alih satu blok attention bersama, digunakan 2 blok attention bersama yang diinterleave dengan pola ABAB di seluruh jaringan
- Proyektor LoRA diterapkan pada setiap blok MLP bersama sehingga MLP dapat dispesialisasi pada setiap pemanggilan layer bersama sesuai kedalaman
- Bobot model dirilis sebagai open source dengan lisensi Apache 2.0
Performa Zamba2-7B pada set evaluasi language modeling
- Zamba2 menunjukkan performa yang sangat baik pada set evaluasi language modeling standar jika mempertimbangkan latensi dan kecepatan generasi
- Menjadi yang terdepan baik dalam kualitas maupun performa di antara model bahasa kecil berukuran 8B ke bawah
Mengapa Zamba2-7B melampaui model SOTA yang ada
- Arsitektur attention bersama yang baru memungkinkan lebih banyak parameter dialokasikan ke backbone Mamba2. Blok transformer bersama mempertahankan ketergantungan antarsekuens yang kaya dari operasi attention
- Dataset pretraining sebesar 3 triliun token terdiri dari kombinasi Zyda dan dataset publik yang difilter serta dideduplikasi secara agresif, dan mencapai kualitas tertinggi dibanding dataset pretraining open source papan atas yang ada
- Pada tahap pretraining "annealing" terpisah, laju pembelajaran diturunkan secara tajam sepanjang 100 miliar token berkualitas tinggi. Set annealing dikumpulkan dari berbagai sumber berkualitas tinggi dengan kontrol kualitas yang ketat
Berkat kualitas dataset pretraining dan annealing yang unggul, Zamba2-7B memiliki performa per token pelatihan yang sangat baik, dan berada jauh di atas kurva yang digambarkan model-model pesaing
Arsitektur hybrid SSM-attention Zamba
- Zamba2-7B memanfaatkan dan memperluas arsitektur hybrid SSM-attention Zamba yang asli
- Arsitektur inti Zamba terdiri dari backbone layer Mamba yang diinterleave dengan satu atau lebih layer attention bersama (Zamba1 menggunakan 1, Zamba2 menggunakan 2 attention bersama)
- Attention ini memiliki bobot bersama untuk meminimalkan biaya parameter model
- Menghubungkan embedding model asli dari input ke blok attention ini tampaknya meningkatkan retensi informasi di sepanjang kedalaman, sehingga performa ikut membaik
- Arsitektur Zamba2 memperoleh daya representasi tambahan dengan menerapkan matriks proyeksi LoRA pada MLP bersama, sehingga tiap blok dapat sedikit dispesialisasi pada posisinya masing-masing sambil menjaga overhead parameter tetap kecil
Faktor yang memungkinkan tercapainya efisiensi inferensi SOTA
- Blok Mamba2 sangat efisien dan memiliki throughput sekitar 4 kali lebih tinggi dibanding blok transformer dengan jumlah parameter yang sama
- Blok Mamba hanya memerlukan hidden state kecil untuk disimpan dan tidak membutuhkan KV-cache, sehingga status KV hanya perlu disimpan untuk pemanggilan blok attention bersama
- Ukuran model dipilih agar sangat cocok untuk paralelisasi pada hardware modern (misalnya banyak streaming multiprocessor pada GPU, dan multicore pada CPU)
Pelatihan dan rilis Zamba2-7B
- Zamba2-7B dilatih selama sekitar 50 hari pada 128 GPU H100 menggunakan framework pelatihan internal berbasis Megatron-LM
- Zamba2-7B menunjukkan bahwa pada skala 7B, tim kecil dengan anggaran yang wajar pun dapat mencapai dan melampaui level terdepan
- Dirilis dengan lisensi open source sehingga peneliti, pengembang, dan perusahaan dapat memanfaatkan kemampuannya
- Diharapkan komunitas AI akan mengeksplorasi arsitektur unik Zamba dan terus mendorong batas model fondasi yang efisien
Model Zamba2-7B yang dirilis:
- Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
- Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
- Pure PyTorch: https://github.com/Zyphra/Zamba2
Visi Zyphra
- Tim Zyphra berdedikasi untuk mendemokratisasi sistem AI canggih, mengeksplorasi arsitektur baru di garis depan performa, serta memajukan riset ilmiah dan pemahaman tentang model yang kuat
- Mereka menantikan kolaborasi dengan pihak lain yang berbagi visi ini
Pendapat GN⁺
- Langkah Zyphra merilis Zamba2 sebagai open source sangat bermakna. Ini akan berkontribusi pada demokratisasi teknologi AI karena siapa pun kini dapat menggunakan dan meneliti model bahasa mutakhir secara gratis
- Arsitektur baru Zamba2 menunjukkan arah untuk mengatasi keterbatasan model berbasis transformer yang ada dan membangun model bahasa yang lebih efisien. Ide khas Zamba seperti attention bersama dan proyeksi LoRA tampaknya akan menginspirasi riset model bahasa ke depan
- Fakta bahwa tim skala kecil hingga menengah juga dapat membuat model bahasa besar dengan performa SOTA dengan memanfaatkan hardware terbaru juga menggembirakan. Diharapkan pengembangan model fondasi akan makin aktif dengan partisipasi dari beragam organisasi
- Perlu dilihat bagaimana performa Zamba2 akan terwujud dalam aplikasi nyata. Skor benchmark yang unggul tidak selalu langsung berbanding lurus dengan tugas dunia nyata. Penting bagi praktisi di berbagai bidang untuk mencoba Zamba2 dan membagikan kelebihan serta kekurangannya
1 komentar
Opini Hacker News
Membagikan tautan bagi orang-orang yang mencari bobot yang tidak ditautkan di artikel
Penasaran apakah peningkatan performa berasal dari perbaikan dataset atau dari arsitekturnya. Ini tampaknya akan menjadi eksperimen yang mahal
Merasa lelah dengan rilis LLM yang memakai benchmark secara selektif. Penasaran dengan perbandingannya terhadap SOTA qwen2.5/phi3.5
Bagus jika lebih banyak model berlisensi Apache bermunculan, terutama bersama beragam arsitektur
Dibandingkan banyaknya pekerjaan teoretis pada blok Mamba2, peningkatan performanya sangat kecil
Saat memakai dua attention head, penasaran apakah masing-masing head berfokus pada aspek data yang berbeda
Penasaran apa yang membuat 7B istimewa. Mengapa bukan 8B, 9B, atau 11.234B? Bertanya apakah 7B ditafsirkan sebagai pangkat dua
Hari lain, rekor dunia lain tercipta di AI
Bertanya apakah ada yang punya gambaran tentang bahasa apa saja yang didukung model ini