- Meta mengumumkan dua model Llama 4 baru: model kecil Scout dan model berukuran menengah Maverick
- Meta mengklaim Maverick menunjukkan performa yang lebih baik daripada GPT-4o dan Gemini 2.0 Flash
- Maverick menempati peringkat 2 di LMArena, platform perbandingan model AI
- Skor ELO yang dipublikasikan adalah 1417, lebih tinggi dari GPT-4o dan sedikit lebih rendah dari Gemini 2.5 Pro
- Skor ELO yang tinggi berarti model tersebut lebih sering menang saat dievaluasi dalam perbandingan dengan model lain
Tuduhan manipulasi benchmark
- Para peneliti AI menemukan hal yang janggal dalam dokumen Meta
- Versi Maverick yang digunakan di LMArena berbeda dari versi yang dirilis untuk publik
- Meta menyatakan mereka menggunakan versi eksperimental yang dioptimalkan untuk percakapan di LMArena
- Versi tersebut adalah model eksperimental yang berfokus pada “conversationality”
Reaksi komunitas dan platform
- LMArena menyatakan secara resmi bahwa penafsiran Meta terhadap kebijakan mereka tidak sesuai dengan ekspektasi
- Meta tidak menandai dengan jelas bahwa itu adalah versi eksperimental, dan karena itu LMArena mengumumkan perubahan pada kebijakan leaderboard
- Langkah ini diambil untuk memastikan evaluasi yang adil dan dapat direproduksi di masa depan
Penjelasan Meta
- Juru bicara Meta, Ashley Gabriel, menjelaskan lewat pernyataan email bahwa mereka menguji berbagai versi eksperimental
- Ia menyebut, “‘Llama-4-Maverick-03-26-Experimental’ adalah model eksperimental yang dioptimalkan untuk percakapan, dan juga menunjukkan performa yang sangat baik di LMArena”
2 komentar
Tentu saja, benchmark memang tidak pernah lepas dari manipulasi.
Opini Hacker News