Membongkar ELT: Saat yang Dibutuhkan Bukan Silo, Melainkan Graph
(jack-vanlightly.com)- ELT (Extract, Load, Transform) digunakan untuk menghubungkan "silo" antara analisis data dan pengembangan perangkat lunak di dalam organisasi, tetapi struktur silo itu sendiri adalah akar masalah
-
ELT hanyalah jembatan antar-silo. Dunia tanpa silo adalah "graph"
Keterbatasan pola pikir ELT
- Di dunia yang tersusun atas silo, dengan perangkat lunak di satu silo dan analisis data di silo lain, ELT memang sangat masuk akal
- ELT bekerja dengan asumsi adanya struktur silo
- Dalam situasi ketika tim pengembangan perangkat lunak dan tim analisis data terpisah, pekerjaan "extract" pun muncul
- Tim perangkat lunak tidak tertarik pada pekerjaan tim data, sementara tim data asal mengekstrak data menggunakan hak akses database
- Baru setelah ekstraksi, prinsip rekayasa seperti kualitas data dan pemodelan diterapkan, tetapi saat itu sudah terlambat
- Hukum Conway bekerja
- "Desain sistem yang dibuat organisasi akan menyerupai struktur komunikasi organisasi tersebut"
- Karena pola pikir silo, ETL/ELT/Reverse ETL tidak cocok untuk menangani kompleksitas arsitektur data modern
- Data kini tidak hanya ada di sistem operasional dan sistem analitik, tetapi juga meluas ke ranah data ketiga yang diwakili oleh SaaS
- Data mengalir antara wilayah dan cloud, backend dan SaaS
- Kini ada 100 kali lebih banyak aplikasi dibanding masa lalu, organisasi menjadi semakin tersoftwarisasi, dan jaringan relasi antar-sistem perangkat lunak kian kompleks
Perlunya pola pikir graph
- Jika tim perangkat lunak dan tim data dapat berkolaborasi secara harmonis, maka model graph bisa menggantikan model ELT yang mengekstrak dan menyimpan data
- Bayangkan graph yang terdiri dari node-node yang "mengonsumsi(Consume)" data
- Setiap node memproduksi atau mengonsumsi data, sehingga secara alami membentuk network atau graph
- Manfaat pola pikir graph:
- Ekstraksi data berkurang, konsumsi meningkat
- Pemodelan data meningkat dengan berpusat pada data set berkualitas tinggi
- Pembersihan data, penyimpanan data mentah, dan perbaikan error pipeline berkurang
- Memanfaatkan pemrosesan inkremental dan sumber streaming yang menggantikan proses batch
- Analitik tidak lagi terbatas pada alat pengambilan keputusan strategis, tetapi meluas ke penggunaan operasional
- Kolaborasi dan penyelarasan antartim meningkat, silo berkurang
Kesimpulan
- Pola pikir ELT adalah hasil dari Hukum Conway yang mencerminkan keterputusan antara tim perangkat lunak dan tim data
- Tidak perlu membuang semua alat ETL/ELT yang ada, tetapi fokus harus diarahkan pada konsumsi data dan pembangunan data set turunan yang tepercaya
- Secara realistis, Shift Left masih berada pada tahap aspiratif, dan masalah integrasi dengan infrastruktur legacy yang ada tetap masih berlangsung
- Shift Left: strategi untuk mengintegrasikan praktik pengembangan penting pada tahap awal software development life cycle (SDLC)
- Organisasi yang mengadopsi pola pikir graph akan memperoleh manfaat terbesar dalam pemanfaatan data, AI ROI, dan hasil bisnis
"Tidak ada extract. Yang ada hanya consume." – data Yoda
5 komentar
Setelah membaca buku Data Mesh, saya jadi bisa memahami banyak bagiannya.
Saya terus mengembangkan ide terkait pengambilan keputusan berbasis graf, dan akan bagus jika orang-orang yang memiliki pemikiran serupa bisa berkumpul.
Istilah untuk hal seperti ini ternyata adalah ideation ya. Saya jadi belajar satu hal. Secara pribadi ini topik yang sangat menarik bagi saya. Akan sangat bagus kalau bisa berkumpul.
Mungkin ada yang bisa menjelaskan sedikit lebih lanjut? Apakah maksud penulis adalah semua dataset turunan yang dihasilkan melalui graf disimpan dan dikelola secara terpisah? Jika bukan itu, saya jadi kurang paham apa bedanya dengan ETL.
Disebutkan bahwa struktur yang memisahkan area operasional dan area analitik yang sudah ada memiliki masalah struktural berupa silo, sehingga saat membangun arsitektur data keduanya tidak boleh dipertimbangkan secara terpisah, melainkan harus dipikirkan dengan membaginya menjadi produsen data dan konsumen data.
Kini, seiring batas antara data operasional dan data analitik makin kabur, kita perlu menggunakan cara berpikir grafis (
graph thinking, ataugraph mindset).Menurut saya, alih-alih pemisahan eksplisit antara data operasional dan data analitik, yang dilihat adalah pembedaan antara konsumen dan produsen data sebagai perpanjangan dari data operasional, dengan akses data dipandang dari sudut aliran data (meskipun perannya mungkin tetap terpisah).
Tampaknya ini dibicarakan dari sudut pandang arsitektur data, seperti menganalisis data operasional, lalu membawanya kembali ke operasional, dan dari sana kembali lagi ke analitik.