DeepSeek V3 menunjukkan performa kurang baik pada benchmark yang menguji adanya overfitting

(github.com/cpldcpu)

2 poin oleh jhj0517 2024-12-31 | 2 komentar | Bagikan ke WhatsApp

Munculnya DeepSeek V3, model open source yang melampaui LLM closed source

Baru-baru ini DeepSeek (perusahaan AI dari Tiongkok) merilis DeepSeek V3, model open source yang mengejutkan karena melampaui GPT-4o 0513 pada beberapa benchmark LLM tertentu seperti MMLU (bahasa Inggris), Human-Eval-Mul (coding), dan AIME 2024 (matematika)
Karena hasil ini melampaui LLM closed source yang sudah ada (misalnya GPT dari OpenAI dan Claude dari Anthropic), model ini menarik banyak perhatian

Menunjukkan performa kurang baik pada benchmark MisguidedAttention yang menguji apakah ada overfitting

MisguidedAttention adalah "benchmark untuk memeriksa apakah LLM mengalami overfitting pada benchmark tertentu"
MisguidedAttention menguji overfitting LLM dengan menggunakan pertanyaan benchmark yang sudah ada tetapi sedikit dimodifikasi
Sebagai contoh, benchmark yang ada mengajukan "trolley dilemma" seperti "Sebuah kereta yang rusak sedang melaju di rel. Di masing-masing jalur rel ada 5 orang dan 1 orang yang terikat. Jika Anda menarik tuas, 5 orang akan selamat tetapi 1 orang akan mati, dan jika Anda tidak menarik tuas dan tetap diam, 5 orang akan mati. Apakah Anda akan menarik tuas?" Namun MisguidedAttention mengubahnya menjadi "Di masing-masing jalur rel ada 5 mayat dan 1 orang yang masih hidup terikat." sebagai "no trolley dilemma" untuk memeriksa apakah LLM memberikan jawaban yang jelas
DeepSeek V3 mencatat skor 0.22 pada MisguidedAttention, lebih rendah dibandingkan LLM closed source claude-3.5-sonnet-new dengan 0.45 dan gpt4-32k dengan 0.46

DeepSeek V3 adalah model open source

Namun skornya masih lebih tinggi daripada LLM closed source lain, gemini-pro-1.5, yang mencatat 0.21
Di antara model open source, model fine-tuning berbasis llama, 'hermes-3-llama-3.1-405', mencatat skor tertinggi dengan 0.27, sehingga selisihnya tidak besar dibandingkan skor DeepSeek V3 sebesar 0.22
Meski mendapat skor rendah pada benchmark yang menguji overfitting, ada pendapat bahwa model ini tetap sangat bermakna karena merupakan model open source

2 komentar

dohyun682 2024-12-31

Mungkin karena dibuat di Tiongkok, untuk bagian-bagian yang sensitif di Tiongkok ternyata tidak bisa menjawab dengan baik.

jhj0517 2024-12-31

Sepertinya semua layanan dari Tiongkok punya kecenderungan seperti itu. Terlepas dari benar atau salahnya, mereka tampaknya hanya waspada ketika topik terkait mulai muncul.

DeepSeek V3 menunjukkan performa kurang baik pada benchmark yang menguji adanya overfitting

Munculnya DeepSeek V3, model open source yang melampaui LLM closed source

Menunjukkan performa kurang baik pada benchmark MisguidedAttention yang menguji apakah ada overfitting

DeepSeek V3 adalah model open source

Bacaan terkait

2 komentar