6 poin oleh GN⁺ 2024-07-19 | 1 komentar | Bagikan ke WhatsApp
  • Mistral NeMo, model 12 miliar parameter yang dikembangkan bekerja sama dengan NVIDIA, resmi diluncurkan
  • Menyediakan jendela konteks besar hingga 128k token
  • Unggul di kelasnya dalam penalaran, pengetahuan dunia, dan akurasi coding
  • Menggunakan arsitektur standar sehingga dapat dengan mudah diterapkan pada sistem yang menggunakan Mistral 7B
  • Checkpoint dasar yang telah dipra-latih dan checkpoint instruction-tuned dirilis di bawah lisensi Apache 2.0 untuk mendorong adopsi oleh peneliti dan perusahaan
  • Dilatih dengan kesadaran kuantisasi sehingga mendukung inferensi FP8 tanpa penurunan kinerja

Model multibahasa

  • Dirancang untuk aplikasi multibahasa global
  • Dilatih untuk function calling dan memiliki jendela konteks yang besar
  • Sangat kuat khususnya dalam bahasa Inggris, Prancis, Jerman, Spanyol, Italia, Portugis, Tionghoa, Jepang, Korea, Arab, dan Hindi
  • Bertujuan menghadirkan model AI mutakhir bagi pengguna semua bahasa

Tekken, tokenizer yang lebih efisien

  • Menggunakan tokenizer baru Tekken berbasis Tiktoken
  • Mengompresi teks bahasa alami dan source code di lebih dari 100 bahasa secara lebih efisien dibanding tokenizer SentencePiece
  • Sekitar 30% lebih efisien untuk source code, bahasa Tionghoa, Italia, Prancis, Jerman, Spanyol, dan Rusia
  • Masing-masing 2 kali dan 3 kali lebih efisien untuk bahasa Korea dan Arab
  • Dibandingkan tokenizer Llama 3, memberikan kinerja kompresi yang lebih baik di sekitar 85% bahasa

Instruction fine-tuning

  • Mistral NeMo melalui tahap advanced fine-tuning dan alignment
  • Dibandingkan Mistral 7B, jauh lebih unggul dalam mengikuti instruksi secara akurat, bernalar, menangani percakapan multi-turn, dan menghasilkan kode

Tautan

  • Bobot model dasar dan model instruksi di-host di HuggingFace
  • Mistral NeMo dapat dicoba dengan mistral-inference, dan dapat disesuaikan dengan mistral-finetune
  • Dikemas sebagai NVIDIA NIM inference microservice dan tersedia di ai.nvidia.com

1 komentar

 
GN⁺ 2024-07-19
Opini Hacker News
  • Mistral NeMo adalah model 12B yang dikembangkan bekerja sama dengan NVIDIA, dan menawarkan context window besar hingga 128k token

    • Menggunakan arsitektur standar sehingga mudah digunakan, dan dapat dengan mudah menggantikan sistem yang memakai Mistral 7B
    • Menyediakan checkpoint pra-pelatihan di bawah lisensi Apache 2.0 untuk mendorong adopsi oleh peneliti dan perusahaan
    • Memungkinkan inferensi FP8 tanpa kehilangan performa melalui kesadaran kuantisasi
  • Mistral NeMo menggunakan tokenizer baru bernama Tekken, yang dilatih pada lebih dari 100 bahasa dan mengompresi teks serta source code lebih efisien daripada SentencePiece

    • Muncul pertanyaan mengapa kembali ke SentencePiece padahal byte-pair encoding telah terbukti sebagai metode encoding yang lebih efisien
  • Ada juga postingan tentang Mistral NeMo di blog NVIDIA

    • Dikemas sebagai mikroservis inferensi NVIDIA NIM dan menyediakan inferensi yang dioptimalkan untuk performa melalui engine NVIDIA TensorRT-LLM
    • Dirancang agar muat dalam memori GPU NVIDIA L40S, NVIDIA GeForce RTX 4090, dan NVIDIA RTX 4500
    • Dilatih menggunakan Megatron-LM dengan 3.072 GPU H100 80GB Tensor Core
  • Model berskala besar dirilis dengan cepat, yang berarti perusahaan telah menemukan cara untuk menskalakan proses yang dapat diskalakan

    • Muncul pertanyaan apakah mempublikasikan model ke HuggingFace adalah sebuah bisnis
    • Unduhan file model sekitar 25GB, dan merupakan model kuantisasi 8fp
  • Ada pendapat bahwa pengalaman mendaftar NVIDIA Enterprise untuk mencoba versi paket "NIM" terasa tidak nyaman

    • Ada pendapat bahwa akan lebih baik jika file model bisa diunduh secara bebas
    • Ada keluhan bahwa NVIDIA menuntut prosedur yang rumit meskipun sudah memiliki monopoli perangkat keras
  • Ada pendapat bahwa jika Mistral serius mempertimbangkan kemajuan open source, mereka harus membagikan korpus yang digunakan untuk melatih model

    • Muncul pertanyaan mengapa versi GGUF tidak disiapkan pada hari peluncuran
  • Ada pertanyaan apakah pelatihan multibahasa memberikan "crossover"

    • Ada rasa penasaran apakah hal yang dilatih dalam bahasa Jerman bisa dimanfaatkan saat merespons prompt bahasa Inggris
  • Kurang ada pemahaman tentang model bisnis merilis model AI generatif open source secara gratis

    • Muncul pertanyaan mengapa model yang dilatih dengan 3072 H100s diberikan secara gratis