5 Tren Data pada 2021
(towardsdatascience.com)-
Integrasi data lake dan warehouse, Data Lakehouse
-
"Modern data stack" muncul sebagai arus utama: integrasi alat-alat utama berbasis cloud
→ Data Ingestion : Fivetran, Stitch, Hevodata
→ Data Warehouse : Snowflake, BigQuery
→ Data Lake : Amazon S3
→ Data Lake Processing : Presto, Dremio, Databricks, Starburst
→ Data Transformation : dbt, Matillion
→ Metadata Management : Atlan
→ BI Tools : Looker
- Metadata 3.0: kelahiran kembali manajemen metadata
→ Alat untuk menangani data discovery, data catalog, data lineage, observability, dan lainnya akan bermunculan
- Munculnya profesi baru
→ Data Platform Leader : pemimpin yang membantu penerapan platform data dalam pekerjaan di dalam organisasi
→ Analytics Engineer : dengan hadirnya alat seperti dbt, kini dimungkinkan adanya engineer analitik yang tidak hanya melakukan analisis tetapi juga mengelola data stack
- Munculnya framework kualitas data
→ Data profiling : meninjau data, memeriksa kualitas, dan mengidentifikasi cara penggunaan di masa depan
→ Menetapkan aturan kualitas data yang berpusat pada bisnis
→ Penerapan pengujian kualitas di dalam data pipeline : Amazon Deequ, Great Expectations
2 komentar
Untuk poin 2 tentang "stack data modern", silakan lihat serial "Memahami Infrastruktur Data Modern" di YouTube GeekNews ;)
https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2
Poin 3 dan 5 kemungkinan juga akan dibahas di bagian akhir serial ini.
Saya selalu menyimak dengan baik setiap kali seri "Memahami Infrastruktur Data Terkini" diunggah.
Karena saya cenderung hanya memakai hal-hal yang digunakan setiap hari, sulit untuk mengikuti arus baru, jadi terima kasih sudah menjelaskannya dengan baik.