21 poin oleh xguru 2023-03-22 | Belum ada komentar. | Bagikan ke WhatsApp

Highlights

  • Alat-alat telah terkonsolidasi pada Python, PyData, PyTorch, dan Gradient-boosted Decision Tree (GBDT)
  • Deep learning masih belum menggantikan GBDT untuk data berbentuk tabel
  • Transformer memimpin NLP dan mulai bersaing dengan Convolutional Neural Network (CNN) di computer vision
  • Kompetisi mencakup beragam bidang riset termasuk computer vision, NLP, data berbentuk tabel, robotika, dan analisis deret waktu
  • Solusi model tunggal kadang menang, tetapi ensemble skala besar umumnya menjadi pemenang
  • Ada beberapa platform kompetisi machine learning, dan juga puluhan situs yang dibuat untuk masing-masing kompetisi
  • Competitive machine learning terus semakin populer, termasuk di kalangan akademik
  • 50% pemenang adalah pemenang solo, dan 50% pemenang adalah pemenang pertama kali. 30% sebelumnya telah menang dua kali atau lebih
  • Beberapa peserta dapat melakukan investasi besar pada perangkat keras untuk melatih solusi mereka, tetapi peserta yang menggunakan perangkat keras gratis seperti Google Colab juga masih bisa menang

Competitive ML Landscape

  • Notable Competitions and Trends
    • Dari sisi hadiah, Snowcast Showdown dari DrivenData (disponsori oleh Departemen Pembangunan Wilayah Nasional AS). Hadiah $500k
    • Yang paling populer adalah American Express Default Prediction di Kaggle. Lebih dari 4000 tim ikut serta. Hadiah $100k. Juara 1 adalah peserta solo pendatang baru (neural net + LightGBM)
    • Kompetisi independen terbesar adalah AI Audit Challenge dari Stanford
    • Bidang terbesar adalah computer vision: lingkungan, medis
    • Bidang terbesar kedua adalah NLP: NLP + pencarian, NLP + Reinforcement Learning
    • Bidang Sequential Decision-Making juga sedang tumbuh
  • Platform
    • Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
    • Platform menarik lainnya: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
  • Purpose
    • Kompetisi yang dikelola dengan baik
      • menyediakan masalah menarik yang ingin dipecahkan beserta data latihnya
      • kumpulan peserta potensial yang kompeten
      • mekanisme yang memberi penalti kepada peserta yang overfitting
      • insentif (finansial) yang cukup agar peserta mau mencurahkan upaya nyata untuk memecahkan masalah
      • ulasan publik atas solusi pemenang (setelah kompetisi berakhir)

Winning Solutions

  • Winning Toolkit: Python, yang kedua adalah C++
  • Paket Python yang paling sering digunakan
    • PyData: Numpy, Pandas, SciPy, Scikit Learn
    • Deep Learning: PyTorch
    • GBDT: LightGBM, XGBoost, CatBoost
    • Hyperparameter Optimisation: Optuna
    • Experiment Tracking: W&B
    • Visualiation: matplotlib, seaborn
    • NLP Toolkit: Transformers
    • Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

Belum ada komentar.

Belum ada komentar.