7 poin oleh xguru 2025-01-08 | 3 komentar | Bagikan ke WhatsApp
  • Daftar benchmark yang sudah tidak relevan karena kemajuan AI (tidak dapat mengukur model terbaru)
    • Masih berguna sebagai benchmark, tetapi tidak memberi kontribusi yang berarti terhadap pertanyaan "Bisakah AI melakukan X?"
  • 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
  • 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
  • 2022: BIG-Bench
  • 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
  • 2018: SWAG

3 komentar

 
kandk 2025-01-08

SQuAD juga hilang, ya?

 
nutella 2025-01-08

Ini mengingatkanku pada killed by Google.

 
xguru 2025-01-08

Untuk benchmark tertentu memang masih ada pro dan kontra, tapi menarik.
https://news.ycombinator.com/item?id=42606231