Killed by LLM

xguru · 2025-01-08T09:33:01+09:00

Daftar benchmark yang sudah tidak relevan karena kemajuan AI (tidak dapat mengukur model terbaru) Masih berguna sebagai benchmark, tetapi tidak memberi kontribusi yang berarti terhadap pertanyaan "Bisakah AI melakukan X?" 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 poin oleh xguru 2025-01-08 | 3 komentar | Bagikan ke WhatsApp

Daftar benchmark yang sudah tidak relevan karena kemajuan AI (tidak dapat mengukur model terbaru)
- Masih berguna sebagai benchmark, tetapi tidak memberi kontribusi yang berarti terhadap pertanyaan "Bisakah AI melakukan X?"
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3 komentar

kandk 2025-01-08

SQuAD juga hilang, ya?

nutella 2025-01-08

Ini mengingatkanku pada killed by Google.

xguru 2025-01-08

Untuk benchmark tertentu memang masih ada pro dan kontra, tapi menarik.
https://news.ycombinator.com/item?id=42606231

Killed by LLM

Bacaan terkait

3 komentar