Yi - LLM dwibahasa open-source generasi berikutnya

xguru · 2024-03-12T10:03:02+09:00

Model bahasa besar open-source generasi berikutnya yang dilatih dari nol oleh para pengembang Ditujukan sebagai model dwibahasa dan dilatih dengan korpus multibahasa 3T, menunjukkan performa kuat dalam pemahaman bahasa, penalaran berbasis pengetahuan umum, kemampuan membaca pemahaman, dan lainnya Berbasis model bahasa pra-pelatihan 6B dan 34B, lalu diperluas menjadi model chatbot, model konteks panjang 200K, model depth upscaling, dan model vision-language Model Yi-34B-Chat Meraih peringkat ke-2 di leaderboard AlpacaEval setelah GPT-4 Turbo, mengungguli LLM lain Mengungguli model open-source yang sudah ada baik dalam bahasa Inggris maupun Mandarin, serta menempati peringkat pertama di berbagai benchmark Mengadopsi arsitektur model yang sama dengan Llama, tetapi bukan model turunan Llama. Tidak menggunakan bobot Llama Tersedia dalam berbagai ukuran, dan model dapat di-fine-tune sesuai kebutuhan spesifik Model chat Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits Model dasar Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 poin oleh xguru 2024-03-12 | 1 komentar | Bagikan ke WhatsApp

Model bahasa besar open-source generasi berikutnya yang dilatih dari nol oleh para pengembang
Ditujukan sebagai model dwibahasa dan dilatih dengan korpus multibahasa 3T, menunjukkan performa kuat dalam pemahaman bahasa, penalaran berbasis pengetahuan umum, kemampuan membaca pemahaman, dan lainnya
Berbasis model bahasa pra-pelatihan 6B dan 34B, lalu diperluas menjadi model chatbot, model konteks panjang 200K, model depth upscaling, dan model vision-language
Model Yi-34B-Chat
- Meraih peringkat ke-2 di leaderboard AlpacaEval setelah GPT-4 Turbo, mengungguli LLM lain
- Mengungguli model open-source yang sudah ada baik dalam bahasa Inggris maupun Mandarin, serta menempati peringkat pertama di berbagai benchmark
Mengadopsi arsitektur model yang sama dengan Llama, tetapi bukan model turunan Llama. Tidak menggunakan bobot Llama
Tersedia dalam berbagai ukuran, dan model dapat di-fine-tune sesuai kebutuhan spesifik
- Model chat
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- Model dasar
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1 komentar

xguru 2024-03-12

Opini Hacker News

Model Yi-34B-Chat menempati peringkat ke-2 di leaderboard AlpacaEval setelah GPT-4 Turbo, mengungguli LLM lain seperti GPT-4, Mixtral, dan Claude.
Model Yi-34B menempati peringkat pertama di antara model open source pada benchmark bahasa Inggris dan bahasa Tionghoa. Ini berdasarkan Hugging Face Open LLM Leaderboard (model yang telah dipra-latih) dan C-Eval.
Kode sumber di repositori mengikuti lisensi Apache 2.0, tetapi bobot modelnya tidak.
Model Yi gagal pada prompt pengujian tertentu. Sudah dicoba beberapa kali, tetapi Yi setiap kali memilih salah satu jawaban berbeda sebagai pemenang.
Nama "01.ai" menyiratkan pertanda yang kurang baik karena sama dengan nama negara AI pertama dalam film 'The Matrix' yang berperang melawan umat manusia dan memperbudak manusia.
Performa model Yi dikaitkan dengan kualitas data yang berasal dari upaya rekayasa data.
Model Yi 34B Chat tidak mencetak hasil yang baik pada benchmark NYT Connections dan berada di peringkat ke-22 pada leaderboard berbasis Elo LMSYS. Dalam bahasa Tionghoa, performanya lebih baik.
Melihat performa model-model ini yang terus meningkat memberi harapan bahwa dalam 2-3 tahun ke depan, LLM yang berfokus pada mobile akan meningkatkan text-to-speech dan prediksi pengetikan, sekaligus sangat mengurangi konsumsi baterai.
Ada juga model baru bernama Yi-9B.

Yi - LLM dwibahasa open-source generasi berikutnya

Bacaan terkait

1 komentar

Opini Hacker News