16 poin oleh GN⁺ 2024-03-28 | 1 komentar | Bagikan ke WhatsApp
  • Databricks memperkenalkan DBRX, LLM terbuka baru untuk penggunaan umum
  • Ini menetapkan level tertinggi baru yang melampaui LLM terbuka yang ada pada benchmark standar, serta menghadirkan kemampuan yang sebelumnya terbatas pada API model tertutup kepada komunitas terbuka dan perusahaan
    • Melampaui GPT-3.5 dan mampu bersaing dengan Gemini 1.0 Pro
    • Dalam kode, juga melampaui model khusus seperti CodeLLaMA-70B
  • DBRX menunjukkan peningkatan yang signifikan dalam kinerja pelatihan dan inferensi
    • Meningkatkan efisiensi dengan menggunakan arsitektur Mixture of Experts (MoE) yang lebih terperinci
    • Kecepatan inferensi hingga 2x lebih cepat daripada LLaMA2-70B, dan ukurannya sekitar 40% lebih kecil dibandingkan Grok-1

Struktur DBRX

  • DBRX adalah model bahasa besar (LLM) khusus decoder berbasis transformer, yang dilatih menggunakan prediksi token berikutnya
  • Dari total 132B parameter, 36B diaktifkan, dan model ini dipra-latih dengan 12T token data teks dan kode
  • DBRX lebih terperinci dibandingkan model MoE terbuka lainnya, dan hal ini terbukti meningkatkan kualitas model

Kualitas pada benchmark

  • DBRX Instruct adalah model terdepan pada benchmark gabungan, benchmark pemrograman dan matematika, serta MMLU
  • DBRX Instruct melampaui semua model chat atau instruction-tuned pada benchmark standar

Perbandingan dengan model tertutup

  • DBRX Instruct melampaui GPT-3.5 dan kompetitif terhadap Gemini 1.0 Pro serta Mistral Medium
  • DBRX Instruct mengungguli GPT-3.5 dalam pengetahuan umum, penalaran berbasis common sense, pemrograman, dan penalaran matematika

Kualitas pada tugas konteks panjang dan RAG

  • DBRX Instruct dilatih dengan jendela konteks hingga 32K token.
  • DBRX Instruct dibandingkan dengan versi terbaru API GPT-3.5 Turbo dan GPT-4 Turbo pada benchmark konteks panjang.
  • DBRX Instruct menunjukkan kinerja yang lebih baik daripada GPT-3.5 Turbo pada semua panjang konteks dan di semua bagian urutan.

Efisiensi pelatihan

  • Arsitektur DBRX MoE dan seluruh pipeline pelatihan membuktikan efisiensi pelatihan.
  • Arsitektur DBRX MoE mencapai kualitas tinggi sambil mengurangi FLOP yang dibutuhkan untuk pelatihan.

Efisiensi inferensi

  • DBRX menunjukkan throughput inferensi yang tinggi pada infrastruktur inferensi yang dioptimalkan menggunakan NVIDIA TensorRT-LLM.
  • Model MoE umumnya memiliki kecepatan inferensi yang lebih cepat dibandingkan jumlah total parameternya.

Cara DBRX dibangun

  • DBRX dilatih menggunakan NVIDIA H100 dan dibangun dengan alat dari Databricks.
  • DBRX dikembangkan sebagai kelanjutan dari proyek MPT dan Dolly milik Databricks, sambil melatih ribuan LLM bersama pelanggan.

Memulai DBRX di Databricks

  • DBRX dapat digunakan dengan mudah melalui Databricks Mosaic AI Foundation Model API.
  • DBRX dapat diunduh dari Databricks Marketplace dan diterapkan ke model serving.

Kesimpulan

  • Databricks meyakini bahwa setiap perusahaan harus dapat mengendalikan data dan nasibnya sendiri di dunia GenAI.
  • DBRX adalah elemen inti dari produk GenAI generasi berikutnya dari Databricks.

Kontribusi

  • Pengembangan DBRX dipimpin oleh tim Mosaic dan diselesaikan melalui kolaborasi berbagai divisi di Databricks.

Opini GN⁺

  • DBRX adalah model bahasa open source baru yang dapat bersaing dengan model GPT yang ada, dan terutama diharapkan menunjukkan performa unggul dalam pembuatan kode dan tugas pemrograman.
  • Dengan menggunakan arsitektur MoE, DBRX tampaknya telah meningkatkan efisiensi secara signifikan dalam hal kecepatan inferensi dan ukuran model. Ini dapat memungkinkan pemanfaatan model berkinerja tinggi bahkan di lingkungan dengan keterbatasan sumber daya.
  • Pendekatan open source DBRX memberi peneliti dan pengembang kesempatan untuk bereksperimen dan meningkatkan model secara bebas. Ini dapat menjadi kontribusi besar bagi komunitas AI.
  • API dan alat integrasi yang disediakan DBRX membantu perusahaan mengembangkan dan menerapkan model bahasa mereka sendiri dengan lebih mudah. Ini akan membantu perusahaan memperkuat daya saing dengan memanfaatkan teknologi AI.
  • Peluncuran DBRX dapat menjadi tonggak penting dalam perkembangan model bahasa open source, dan akan menarik untuk melihat bagaimana model ini berkembang dan diterapkan di berbagai bidang ke depannya.

1 komentar

 
GN⁺ 2024-03-28
Komentar Hacker News
  • Model yang saat ini layak diperhatikan:

    • Miqu 70B: untuk percakapan umum
    • Deepseed 33B: untuk coding
    • Yi 34B: untuk percakapan dengan konteks di atas 32K
    • Versi fine-tuning dari model-model ini juga ada
    • Ada model lain di rentang 34B-70B, tetapi model Qwen kurang mengesankan
    • Model Llama 70B, Mixtral, dan Grok terlihat di grafik, tetapi sulit dianggap sebagai teknologi terbaru (SOTA), meski Mixtral unggul dalam kecepatan pada batch size 1
  • Kartu model dan kebutuhan resource:

    • Model ini memerlukan sekitar 264GB RAM
    • Ada rasa penasaran tentang kapan titik peralihan dari pelacakan jumlah parameter ke pelacakan total (GPU RAM + CPU RAM) serta metrik evaluasi akan terjadi
    • Misalnya, model 7B parameter yang menggunakan float32 kemungkinan besar akan berkinerja lebih baik daripada model dengan jumlah parameter sama yang menggunakan float4
    • Ada contoh model bagus rilisan terbaru yang dikuantisasi agar muat di satu GPU, tetapi model terkuantisasi adalah model yang berbeda dari aslinya sehingga metriknya perlu dijalankan ulang
  • Konvergensi large language model (LLM):

    • Ada bukti bahwa semua model LLM akan konvergen ke titik tertentu saat dilatih dengan data yang sama
    • Klaim tentang performa tugas hanyalah klaim; iterasi Llama atau Mixtral berikutnya akan konvergen
    • LLM tampaknya berevolusi seperti Linux/Windows atau iOS/Android, tanpa perbedaan besar pada model dasarnya
  • Harapan untuk mixed quantization dan offloading MoE:

    • Dengan Mixed Quantization with MQQ dan MoE Offloading, Mistral 8x7B bisa dijalankan di rtx3080 dengan VRAM 10GB
    • Metode ini juga bisa diterapkan ke DBRX dan dapat sangat mengurangi kebutuhan VRAM
  • Keuntungan bisnis Databricks:

    • Ada rasa ingin tahu tentang manfaat bisnis yang akan diperoleh Databricks dari investasi jutaan dolar pada open LLM
  • Perbandingan grafik dan evaluasi:

    • Memasukkan skor Human Eval LLaMa2 ke grafik tetapi tidak membandingkannya dengan Code Llama Instruct 70b adalah kejahatan grafik
    • DBRX tidak jauh melampaui skor 67.8 milik Code Llama Instruct, tetapi tetap mengesankan
  • Rencana membeli GPU baru dan kebutuhan VRAM:

    • Pertanyaan apakah GPU VRAM 16GB dapat menjalankan model 70GB dengan baik, dan apakah performanya terasa lebih baik daripada GPU VRAM 12GB
    • Ollama berjalan baik secara lokal, dan mixtral (7B, 3.4GB) bekerja baik di 1080ti, tetapi versi 24.6GB agak lambat dan waktu startup-nya terasa jelas
  • Keluhan tentang persetujuan base model:

    • Persetujuan untuk base model terasa kurang terbuka
    • Banyak orang menunggu kesempatan untuk mengunduh, sementara model instruct langsung disetujui
    • Base model lebih menarik untuk fine-tuning
  • Peningkatan efisiensi pelatihan:

    • Disebutkan bahwa pipeline pretraining LLM menjadi hampir 4 kali lebih efisien secara komputasi dalam 10 bulan terakhir
    • Karena biaya pelatihan sangat tinggi, peningkatan seperti ini patut disambut dan diharapkan mengikuti Hukum Moore
  • Kemungkinan kontaminasi pada evaluasi coding:

    • Evaluasi coding bisa terkontaminasi oleh data pelatihan
    • Ada pertanyaan tentang metode standar untuk menghindari inflasi skor semacam ini