Arsitektur Baru 2.0 untuk Infrastruktur Data Modern
(future.a16z.com)Pembaruan 2.0 dari artikel yang terbit pada 2020
Changelog
- 2 bidang yang baru tumbuh pesat
- Alat untuk mendukung proses dan workflow data inti seperti data discovery, observability, dan audit model ML
- Aplikasi baru seperti data workspace, reverse ETL, dan framework aplikasi ML yang memungkinkan tim data dan pengguna bisnis menciptakan nilai dari data
- Hal-hal yang ditambahkan ke BI
- Metrics Layer: alat baru yang murni seperti Transform, Supergrain. Dan dbt juga berekspansi ke area ini
- Reverse ETL: Hightouch, Census
- Data Workspace: Hex, Mode, Deepnote
- Data Discovery & Observability: Monte Carlo, Big Eye menggalang pendanaan besar. Ada juga banyak perusahaan tahap seed seperti Select Star, Metaphor, Stemma, Secoda, Castor
- Hal-hal yang ditambahkan ke Multimodal Data Processing
- Pendekatan terhadap arsitektur Lakehouse
- Storage Layer ditingkatkan: Delta/Iceberg/Hudi makin banyak diadopsi dan dikomersialisasikan
- Adopsi stream processing meningkat: pemrosesan data analitik real-time. Materialize/Upsolver
- Hal-hal yang ditambahkan ke AI & ML
- Sedang diintegrasikan dengan pendekatan yang berpusat pada data
- Pelabelan data: Scale, Labelbox. Minat terhadap Closed-loop Data Engine meningkat
- Adopsi feature store meningkat: Tecton, Feast, Databricks
- Solusi ML low-code: Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
- Penggunaan model pre-trained sedang menjadi standar, khususnya NLP. OpenAI & Hugging Face
- MLOps makin matang, dan contoh penggunaan serta anggaran berfokus pada ML Monitoring meningkat
- Perhatian juga tertuju pada cara menghubungkan model ML ke aplikasi. API siap pakai (OpenAI), vector database (Pinecone), dll
- Sedang diintegrasikan dengan pendekatan yang berpusat pada data
Hipotesis platform data
- Selama 1 tahun terakhir, stack infrastruktur data berkembang cepat dengan sistem inti dan alat pendukung, dan untuk menjelaskan mengapa ini terjadi diperkenalkan ide tentang "platform data"
- Apa itu platform?
- Dalam ekosistem data, istilah "platform" terlalu dibebani. Dipakai oleh tim internal untuk menyebut seluruh tech stack, atau oleh vendor yang menjual rangkaian produk yang terhubung longgar
- Dalam software, platform berarti sesuatu yang memungkinkan developer lain membangun sesuatu di atasnya
- Karakteristik yang mendefinisikan platform, dari sudut pandang industri, adalah "saling ketergantungan" antara penyedia platform yang berpengaruh (secara teknis maupun ekonomis) dan kumpulan developer pihak ketiga
- Apa itu platform data?
- Secara historis, stack data tidak cocok dengan definisi platform
- Ada saling ketergantungan di antara vendor ETL, data warehouse, dan reporting, tetapi model integrasinya cenderung 1:1 daripada 1:banyak. Umumnya professional services yang melengkapinya
- Dari percakapan dengan banyak profesional data, tampaknya ini mungkin mulai berubah
- Hipotesis platform berpendapat bahwa "backend" dari stack data (yang mencakup data ingestion, penyimpanan, pemrosesan, hingga transform) mulai terintegrasi pada beberapa vendor berbasis cloud
- Akibatnya, dataset pelanggan dikumpulkan dalam serangkaian sistem standar, dan vendor membuat data ini mudah diakses oleh developer lain (melalui prinsip desain inti Databricks, standar SQL, dan API seperti Snowpark dari Snowflake)
- Seperti developer frontend mendapatkan manfaat dari integrasi satu titik, kini mereka dapat mengakses data yang telah terintegrasi tanpa perlu peduli pada struktur di bawahnya
- Sistem enterprise tradisional seperti analitik keuangan/produk juga mulai dibangun ulang dengan arsitektur "Warehouse-native"
- Ini bukan berarti OLTP DB atau teknologi backend penting lainnya akan segera hilang
- Namun integrasi native dengan sistem OLAP dapat menjadi komponen inti dalam pengembangan aplikasi
- Semakin banyak business logic dan fitur aplikasi dapat bergeser ke model ini
- Munculnya data app?
- Hipotesis platform data ini masih memiliki banyak hal untuk dibahas
- Bagaimanapun, kita melihat solusi SaaS vertikal yang kompleks meningkat sebagai layer horizontal di atas platform data
- Perusahaan seperti Snowflake dan Databricks akan menjadi bagian stabil dari stack data ini
- Karena produk yang sangat baik, tim penjualan yang mumpuni, model distribusi yang minim friksi, dan sebagainya
- Karena jika pelanggan membangun atau mengintegrasikan aplikasi data di atas sistem seperti ini, berpindah ke yang lain menjadi tidak rasional
- Produk infrastruktur data yang telah dibangun dalam beberapa tahun terakhir dan yang terus bermunculan saat ini kemungkinan ada kaitannya dengan platform
- Hipotesis platform punya kekuatan untuk membuat dinamika kompetisi lebih bisa diprediksi
- Jika skalanya besar, platform menjadi sangat bernilai
- Vendor sistem data inti mungkin sedang bersaing agresif bukan demi anggaran saat ini, tetapi demi posisi platform jangka panjang
- Valuasi tinggi pada perusahaan data ingestion & transformation, atau di bidang Metrics Layer maupun Reverse ETL, bisa menjadi lebih masuk akal jika kita menganggap mereka sebagai bagian inti dari platform data baru
- Melihat ke depan
- Kita masih berada pada tahap awal dalam mendefinisikan platform data analitik & operasional, dan komponen penyusunnya terus berubah
- Karena itu, ini lebih berguna jika dipakai sebagai metafora daripada definisi yang kaku
- Namun hipotesis ini juga berguna sebagai alat untuk menyaring signal dari noise, dan membantu memahami mengapa pasar bergerak seperti ini
- Tim data kini memiliki lebih banyak alat, sumber daya, dan momentum organisasi daripada titik mana pun sejak penemuan DB
- Sangat menarik untuk melihat apakah layer aplikasi akan berevolusi di atas platform baru ini
4 komentar
Apakah video kuliah YouTube yang sebelumnya sering Anda unggah juga akan diperbarui..? ^^;
https://youtube.com/watch/…
Terima kasih selalu~
Saya juga sempat membuat video, tapi karena berhenti jadi rasanya makin tidak bisa melanjutkannya sob.
Sepertinya akan sulit ada pembaruan dalam waktu dekat.
Ah ya. Hanya dengan konten yang Anda unggah sebelumnya saja sudah sangat membantu.
Saya ingin memanfaatkan kesempatan ini untuk mengucapkan terima kasih.
Ini adalah versi pembaruan dari artikel Arsitektur Baru untuk Infrastruktur Data Modern.
Setelah saya merapikannya dan hendak mengunggahnya, ternyata Techit juga sudah menerjemahkan penuh tulisan versi 2.0 ini. Silakan lihat juga sebagai referensi.
Arsitektur Data Modern dan Era Arsitektur Baru