15 poin oleh xguru 2021-02-02 | 2 komentar | Bagikan ke WhatsApp
  1. Integrasi data lake dan warehouse, Data Lakehouse

  2. "Modern data stack" muncul sebagai arus utama: integrasi alat-alat utama berbasis cloud

→ Data Ingestion : Fivetran, Stitch, Hevodata

→ Data Warehouse : Snowflake, BigQuery

→ Data Lake : Amazon S3

→ Data Lake Processing : Presto, Dremio, Databricks, Starburst

→ Data Transformation : dbt, Matillion

→ Metadata Management : Atlan

→ BI Tools : Looker

  1. Metadata 3.0: kelahiran kembali manajemen metadata

→ Alat untuk menangani data discovery, data catalog, data lineage, observability, dan lainnya akan bermunculan

  1. Munculnya profesi baru

→ Data Platform Leader : pemimpin yang membantu penerapan platform data dalam pekerjaan di dalam organisasi

→ Analytics Engineer : dengan hadirnya alat seperti dbt, kini dimungkinkan adanya engineer analitik yang tidak hanya melakukan analisis tetapi juga mengelola data stack

  1. Munculnya framework kualitas data

→ Data profiling : meninjau data, memeriksa kualitas, dan mengidentifikasi cara penggunaan di masa depan

→ Menetapkan aturan kualitas data yang berpusat pada bisnis

→ Penerapan pengujian kualitas di dalam data pipeline : Amazon Deequ, Great Expectations

2 komentar

 
xguru 2021-02-02

Untuk poin 2 tentang "stack data modern", silakan lihat serial "Memahami Infrastruktur Data Modern" di YouTube GeekNews ;)

https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2

Poin 3 dan 5 kemungkinan juga akan dibahas di bagian akhir serial ini.

 
kwangyeol 2021-02-06

Saya selalu menyimak dengan baik setiap kali seri "Memahami Infrastruktur Data Terkini" diunggah.

Karena saya cenderung hanya memakai hal-hal yang digunakan setiap hari, sulit untuk mengikuti arus baru, jadi terima kasih sudah menjelaskannya dengan baik.