4 poin oleh GN⁺ 2025-04-09 | 2 komentar | Bagikan ke WhatsApp
  • Meta mengumumkan dua model Llama 4 baru: model kecil Scout dan model berukuran menengah Maverick
  • Meta mengklaim Maverick menunjukkan performa yang lebih baik daripada GPT-4o dan Gemini 2.0 Flash
  • Maverick menempati peringkat 2 di LMArena, platform perbandingan model AI
  • Skor ELO yang dipublikasikan adalah 1417, lebih tinggi dari GPT-4o dan sedikit lebih rendah dari Gemini 2.5 Pro
  • Skor ELO yang tinggi berarti model tersebut lebih sering menang saat dievaluasi dalam perbandingan dengan model lain

Tuduhan manipulasi benchmark

  • Para peneliti AI menemukan hal yang janggal dalam dokumen Meta
  • Versi Maverick yang digunakan di LMArena berbeda dari versi yang dirilis untuk publik
  • Meta menyatakan mereka menggunakan versi eksperimental yang dioptimalkan untuk percakapan di LMArena
  • Versi tersebut adalah model eksperimental yang berfokus pada “conversationality”

Reaksi komunitas dan platform

  • LMArena menyatakan secara resmi bahwa penafsiran Meta terhadap kebijakan mereka tidak sesuai dengan ekspektasi
  • Meta tidak menandai dengan jelas bahwa itu adalah versi eksperimental, dan karena itu LMArena mengumumkan perubahan pada kebijakan leaderboard
  • Langkah ini diambil untuk memastikan evaluasi yang adil dan dapat direproduksi di masa depan

Penjelasan Meta

  • Juru bicara Meta, Ashley Gabriel, menjelaskan lewat pernyataan email bahwa mereka menguji berbagai versi eksperimental
  • Ia menyebut, “‘Llama-4-Maverick-03-26-Experimental’ adalah model eksperimental yang dioptimalkan untuk percakapan, dan juga menunjukkan performa yang sangat baik di LMArena”

2 komentar

 
ndrgrd 2025-04-10

Tentu saja, benchmark memang tidak pernah lepas dari manipulasi.

 
GN⁺ 2025-04-09
Opini Hacker News
  • Peluncuran Llama 4 tampak seperti kegagalan besar bagi Meta. Performa modelnya buruk. Semua pemberitaan bernada negatif
    • Ini sesuai dugaan, tetapi jadi membuat penasaran apa langkah Meta berikutnya. Saat ini tampaknya tertinggal dari model terbuka lain, dan taruhan ambisius pada MoE tampaknya tidak berhasil
    • Penasaran apakah Zuck yang memaksa peluncurannya. Ia pasti tahu ini belum siap
  • Kaget bahwa perusahaan yang mencuri materi berhak cipta kembali bertindak tidak etis
  • Untuk pertama kalinya, Meta ketahuan
  • Melihat sample battle (H2H) yang dipublikasikan LMArena adalah yang paling menjelaskan. Output model Meta terlalu bertele-tele dan cerewet. Jika melihat penilaiannya, wajar orang mengabaikan peringkat LMArena
  • Apakah LMArena sekarang sudah tidak berguna?
    • Saya kira ada aspek menjalankan dua model pada kueri yang sama yang diberikan pengguna. Ini seharusnya tidak bisa dimanipulasi
    • Saya tidak mengerti apa maksud "optimasi percakapan". Saya tidak tahu keuntungan apa yang diberikannya bagi LMArena
  • Meta merugikan dirinya sendiri dengan AI publik buruk yang bisa dicoba orang (meta.ai). Saya rutin menggunakan versi web GPT 4o, Deepseek, Grok, dan Google Gemeni 2.5
    • Meta selalu yang paling buruk jadi saya tidak peduli lagi
  • Tidak ada yang akan terkejut. Selain itu, hukum Goodhart kembali berlaku
  • Papan peringkat teratas dipenuhi model eksperimental berbobot tertutup
  • Saya percaya ini dirancang agar lebih menjilat atau lebih menyanjung penulis prompt. Kalau benar, itu mengkhawatirkan terhadap orang-orang yang melakukan perbandingan