Highlights
- Alat-alat telah terkonsolidasi pada Python, PyData, PyTorch, dan Gradient-boosted Decision Tree (GBDT)
- Deep learning masih belum menggantikan GBDT untuk data berbentuk tabel
- Transformer memimpin NLP dan mulai bersaing dengan Convolutional Neural Network (CNN) di computer vision
- Kompetisi mencakup beragam bidang riset termasuk computer vision, NLP, data berbentuk tabel, robotika, dan analisis deret waktu
- Solusi model tunggal kadang menang, tetapi ensemble skala besar umumnya menjadi pemenang
- Ada beberapa platform kompetisi machine learning, dan juga puluhan situs yang dibuat untuk masing-masing kompetisi
- Competitive machine learning terus semakin populer, termasuk di kalangan akademik
- 50% pemenang adalah pemenang solo, dan 50% pemenang adalah pemenang pertama kali. 30% sebelumnya telah menang dua kali atau lebih
- Beberapa peserta dapat melakukan investasi besar pada perangkat keras untuk melatih solusi mereka, tetapi peserta yang menggunakan perangkat keras gratis seperti Google Colab juga masih bisa menang
Competitive ML Landscape
- Notable Competitions and Trends
- Dari sisi hadiah, Snowcast Showdown dari DrivenData (disponsori oleh Departemen Pembangunan Wilayah Nasional AS). Hadiah $500k
- Yang paling populer adalah American Express Default Prediction di Kaggle. Lebih dari 4000 tim ikut serta. Hadiah $100k. Juara 1 adalah peserta solo pendatang baru (neural net + LightGBM)
- Kompetisi independen terbesar adalah AI Audit Challenge dari Stanford
- Bidang terbesar adalah computer vision: lingkungan, medis
- Bidang terbesar kedua adalah NLP: NLP + pencarian, NLP + Reinforcement Learning
- Bidang Sequential Decision-Making juga sedang tumbuh
- Platform
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Platform menarik lainnya: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
- Purpose
- Kompetisi yang dikelola dengan baik
- menyediakan masalah menarik yang ingin dipecahkan beserta data latihnya
- kumpulan peserta potensial yang kompeten
- mekanisme yang memberi penalti kepada peserta yang overfitting
- insentif (finansial) yang cukup agar peserta mau mencurahkan upaya nyata untuk memecahkan masalah
- ulasan publik atas solusi pemenang (setelah kompetisi berakhir)
Winning Solutions
- Winning Toolkit: Python, yang kedua adalah C++
- Paket Python yang paling sering digunakan
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualiation: matplotlib, seaborn
- NLP Toolkit: Transformers
- Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm
Belum ada komentar.