Pelajaran yang Dipetik dari Mengoperasikan Airflow dalam Skala Besar
(shopify.engineering)Shopify memanfaatkannya untuk ekstraksi data, pelatihan model machine learning, pemeliharaan tabel Apache Iceberg, pemodelan data berbasis DBT, dan lainnya
- Saat menggunakan cloud storage, akses file bisa lambat
→ Meningkatkan performa dengan GCS + NFS - Jika volume metadata membesar, operasi Airflow bisa melambat
→ Menetapkannya menjadi 28 hari dengan memanfaatkan kebijakan retensi - DAG bisa sulit dihubungkan dengan pengguna & tim
→ Menggunakan penyimpanan metadata terpusat - Penulis DAG memiliki banyak hak akses
→ Memanfaatkan DAG policy - Sulit menjamin load balancing yang konsisten
→ Membuat jadwal terstandarisasi untuk mengurangi traffic burst - Ada berbagai titik kontensi sumber daya
→ Memanfaatkan Pools, Priority Weight, Celery Queue, dan Isolated Workers
Belum ada komentar.