Meta, Dituduh Memanipulasi Benchmark AI

(theverge.com)

4 poin oleh GN⁺ 2025-04-09 | 2 komentar | Bagikan ke WhatsApp

Meta mengumumkan dua model Llama 4 baru: model kecil Scout dan model berukuran menengah Maverick
Meta mengklaim Maverick menunjukkan performa yang lebih baik daripada GPT-4o dan Gemini 2.0 Flash
Maverick menempati peringkat 2 di LMArena, platform perbandingan model AI
Skor ELO yang dipublikasikan adalah 1417, lebih tinggi dari GPT-4o dan sedikit lebih rendah dari Gemini 2.5 Pro
Skor ELO yang tinggi berarti model tersebut lebih sering menang saat dievaluasi dalam perbandingan dengan model lain

Tuduhan manipulasi benchmark

Para peneliti AI menemukan hal yang janggal dalam dokumen Meta
Versi Maverick yang digunakan di LMArena berbeda dari versi yang dirilis untuk publik
Meta menyatakan mereka menggunakan versi eksperimental yang dioptimalkan untuk percakapan di LMArena
Versi tersebut adalah model eksperimental yang berfokus pada “conversationality”

Reaksi komunitas dan platform

LMArena menyatakan secara resmi bahwa penafsiran Meta terhadap kebijakan mereka tidak sesuai dengan ekspektasi
Meta tidak menandai dengan jelas bahwa itu adalah versi eksperimental, dan karena itu LMArena mengumumkan perubahan pada kebijakan leaderboard
Langkah ini diambil untuk memastikan evaluasi yang adil dan dapat direproduksi di masa depan

Penjelasan Meta

Juru bicara Meta, Ashley Gabriel, menjelaskan lewat pernyataan email bahwa mereka menguji berbagai versi eksperimental
Ia menyebut, “‘Llama-4-Maverick-03-26-Experimental’ adalah model eksperimental yang dioptimalkan untuk percakapan, dan juga menunjukkan performa yang sangat baik di LMArena”

2 komentar

ndrgrd 2025-04-10

Tentu saja, benchmark memang tidak pernah lepas dari manipulasi.

GN⁺ 2025-04-09

Opini Hacker News

Peluncuran Llama 4 tampak seperti kegagalan besar bagi Meta. Performa modelnya buruk. Semua pemberitaan bernada negatif
- Ini sesuai dugaan, tetapi jadi membuat penasaran apa langkah Meta berikutnya. Saat ini tampaknya tertinggal dari model terbuka lain, dan taruhan ambisius pada MoE tampaknya tidak berhasil
- Penasaran apakah Zuck yang memaksa peluncurannya. Ia pasti tahu ini belum siap
Kaget bahwa perusahaan yang mencuri materi berhak cipta kembali bertindak tidak etis
Untuk pertama kalinya, Meta ketahuan
Melihat sample battle (H2H) yang dipublikasikan LMArena adalah yang paling menjelaskan. Output model Meta terlalu bertele-tele dan cerewet. Jika melihat penilaiannya, wajar orang mengabaikan peringkat LMArena
Apakah LMArena sekarang sudah tidak berguna?
- Saya kira ada aspek menjalankan dua model pada kueri yang sama yang diberikan pengguna. Ini seharusnya tidak bisa dimanipulasi
- Saya tidak mengerti apa maksud "optimasi percakapan". Saya tidak tahu keuntungan apa yang diberikannya bagi LMArena
Meta merugikan dirinya sendiri dengan AI publik buruk yang bisa dicoba orang (meta.ai). Saya rutin menggunakan versi web GPT 4o, Deepseek, Grok, dan Google Gemeni 2.5
- Meta selalu yang paling buruk jadi saya tidak peduli lagi
Tidak ada yang akan terkejut. Selain itu, hukum Goodhart kembali berlaku
Papan peringkat teratas dipenuhi model eksperimental berbobot tertutup
Saya percaya ini dirancang agar lebih menjilat atau lebih menyanjung penulis prompt. Kalau benar, itu mengkhawatirkan terhadap orang-orang yang melakukan perbandingan

Meta, Dituduh Memanipulasi Benchmark AI

Tuduhan manipulasi benchmark

Reaksi komunitas dan platform

Penjelasan Meta

Bacaan terkait

2 komentar

Opini Hacker News