6 poin oleh GN⁺ 2024-07-25 | 1 komentar | Bagikan ke WhatsApp
  • Mistral Large 2 mendukung context window 128k serta berbagai bahasa termasuk Prancis, Jerman, Spanyol, Italia, Tiongkok, Jepang, dan Korea
    • Juga mendukung lebih dari 80 bahasa pemrograman termasuk Python, Java, C, C++, JavaScript, dan Bash
  • Dirancang untuk inferensi single-node, terdiri dari 123 miliar parameter, sehingga dapat memberikan throughput tinggi pada satu node
  • Didistribusikan di bawah Mistral Research License, yang memungkinkan penggunaan dan modifikasi untuk riset serta penggunaan nonkomersial. Untuk penggunaan komersial, perlu memperoleh Mistral Commercial License

Performa umum

  • Mistral Large 2 menetapkan tolok ukur baru dalam metrik evaluasi performa/biaya
  • Khususnya pada MMLU, versi pra-pelatihan mencapai akurasi 84,0% dan menetapkan titik baru pada performance/cost Pareto frontier

Kode dan penalaran

  • Berdasarkan pengalaman dari Codestral 22B dan Codestral Mamba, Mistral Large 2 dilatih dengan sejumlah besar kode
  • Mistral Large 2 jauh lebih unggul dibanding Mistral Large sebelumnya, dan menunjukkan performa setara dengan model terdepan seperti GPT-4o, Claude 3 Opus, dan Llama 3 405B
  • Banyak upaya dilakukan untuk meningkatkan kemampuan penalaran model, dan model ini di-fine-tune untuk meminimalkan kecenderungan menghasilkan informasi yang tidak sesuai fakta
  • Model ini dilatih untuk mengakui ketika tidak dapat menemukan solusi atau ketika informasi yang tersedia tidak mencukupi

Kepatuhan terhadap instruksi dan alignment

  • Mistral Large 2 mengalami peningkatan besar dalam kepatuhan terhadap instruksi dan kemampuan percakapan
  • Karena keringkasan penting dalam banyak aplikasi bisnis, banyak upaya dilakukan agar model menghasilkan respons yang sesingkat dan setepat mungkin

Keragaman bahasa

  • Mistral Large 2 dilatih dengan banyak data multibahasa dan menunjukkan performa unggul dalam bahasa Inggris, Prancis, Jerman, Spanyol, Italia, Portugis, Belanda, Rusia, Tiongkok, Jepang, Korea, Arab, dan Hindi

Penggunaan alat dan function calling

  • Mistral Large 2 memiliki function calling dan kemampuan pencarian yang ditingkatkan, serta dilatih agar dapat berperan sebagai mesin penggerak untuk aplikasi bisnis yang kompleks

Akses ke model Mistral melalui penyedia layanan cloud

  • Memperluas kemitraan dengan Google Cloud Platform untuk menyediakan model Mistral AI di Vertex AI
  • Model Mistral AI juga tersedia di Azure AI Studio, Amazon Bedrock, dan IBM watsonx.ai

Ringkasan GN⁺

  • Mistral Large 2 mendukung berbagai bahasa dan bahasa pemrograman, serta memberikan throughput tinggi pada satu node.
  • Kemampuan pembuatan kode dan penalarannya meningkat signifikan, sambil meminimalkan kecenderungan menghasilkan informasi yang tidak sesuai fakta.
  • Dilatih dengan banyak data multibahasa sehingga menunjukkan performa unggul dalam berbagai bahasa.
  • Tersedia bagi pengguna global melalui kemitraan dengan Google Cloud Platform, Azure AI Studio, Amazon Bedrock, dan IBM watsonx.ai.
  • Dirancang untuk menghasilkan respons yang ringkas dan tepat sasaran dalam aplikasi bisnis.

1 komentar

 
GN⁺ 2024-07-25
Komentar Hacker News
  • Setelah menguji model Mistral Large 2 dan Llama 3.1 405b, sulit menentukan mana yang jelas lebih unggul di antara keduanya
  • Jika sudah menggunakan Claude, sebaiknya tetap lanjut menggunakannya
  • Harapan untuk Claude:
    • Semoga jadi lebih pintar
    • Jendela konteks lebih panjang (1M+)
    • Input audio native dan pemahaman nada bicara
    • Saat menolak, semoga lebih sedikit membuat penilaian moral
    • Semoga lebih cepat
    • Jumlah token output ditingkatkan
  • Persaingan model makin sengit
  • Claude 3.5 Sonnet mengungguli semua model lain
  • Tidak terlalu paham bagaimana menggunakan Mistral atau Llama dalam keseharian
  • Sedang mengembangkan AI coding assistant, dan setelah mencoba berbagai model, Mistral Large 2 adalah yang paling mengecewakan
  • Lisensi nonkomersial mengecewakan
  • Mampu bersaing dengan Llama 3.1 405b, tetapi lisensinya lebih membatasi
  • Perbedaan antar model makin menyempit, jadi mungkin lebih baik melakukan fine-tuning pada Llama 405B sesuai use case tertentu
  • Kecuali ada lompatan besar dalam kualitas, kemungkinan tidak akan ada perbedaan besar dari kondisi saat ini
  • Senang karena persaingan makin ketat
  • Banyak biaya dikeluarkan untuk membuat model SOTA, tetapi masih bertahan di level GPT-4o dan Claude Opus
  • Hanya dengan menambahkan lebih banyak data dan GPU, tampaknya kita mulai mencapai batas
  • Pengalaman pengguna dan "kepribadian" akan menjadi penting
  • Menikmati Claude Sonnet, dan terasa lebih tajam dibanding model lain
  • Jangan lupa bahwa setiap langkah membutuhkan lebih banyak energi dan sumber daya
  • Membagikan hasil benchmark model terbaru dari PyLLMs
    • Terkejut dengan kecepatan dan kualitas Nemo
    • Mistral Large bagus, tetapi sangat lambat
  • Bingung mana yang lebih mumpuni di antara model Claude, Opus atau Sonnet 3.5
  • Mistral Large 2 memiliki kemampuan function calling dan retrieval yang ditingkatkan
  • Bertanya-tanya apakah akurasi function calling sekitar 50% berarti setengah dari tugas kompleks akan gagal
  • Lebih memilih ChatGPT-4o, dan menggunakan Claude saat ada masalah, tetapi tidak mendapatkan hasil yang lebih baik