- Infrastruktur data perusahaan terus berevolusi seiring perkembangan teknologi dan memungkinkan lahirnya produk serta layanan baru
- Infrastruktur data telah berkembang dari data warehouse on-premise tradisional menuju data warehouse berbasis cloud dan data lake
- Belakangan ini, seiring pesatnya perkembangan AI, arsitektur baru bernama data lakehouse mulai menonjol dan menandai masuknya era Data 3.0
- Lakehouse merupakan platform terpadu berkinerja tinggi dan interoperabel yang mendukung beragam penggunaan seperti analitik dan workload AI, serta membayangkan ulang inti infrastruktur data perusahaan
- Karena itu, peluang munculnya perusahaan infrastruktur data baru bernilai miliaran dolar menjadi semakin besar
Latar belakang inovasi lakehouse
- Dari 2019 hingga 2024, investasi perusahaan pada infrastruktur data hampir dua kali lipat, dari sekitar 180 miliar dolar menjadi 350 miliar dolar
- Data warehouse dan data lake konvensional tidak sepenuhnya memenuhi kebutuhan AI
- Workload yang berpusat pada AI memiliki kebutuhan sebagai berikut:
- Harus mampu menangani data terstruktur, semi-terstruktur, dan tidak terstruktur
- Harus mendukung pemrosesan data real-time, multimodal, dan composable
- Diperlukan interoperabilitas antara database yang ada dan vector database
- Perubahan permintaan dari pelanggan enterprise:
- Kebutuhan untuk menghilangkan duplikasi data
- Kompleksitas tata kelola data yang meningkat
- Keinginan untuk menghindari vendor lock-in dan mendapatkan fleksibilitas
- Sulitnya menemukan solusi yang cocok untuk AI
Open table format memungkinkan lakehouse
- Open table format (OTF) seperti Delta Lake, Iceberg, dan Hudi menjadi fondasi lakehouse
- Fitur utama:
- Dukungan transaksi ACID: menjamin konsistensi dan stabilitas data
- Dukungan pemrosesan batch dan streaming
- Menyediakan fleksibilitas skema dan partisi
- Fitur time travel untuk memulihkan ke keadaan sebelumnya
- Manajemen metadata yang dapat diskalakan
Munculnya paradigma lakehouse
- Data lakehouse adalah arsitektur baru yang menggabungkan performa data warehouse dengan fleksibilitas data lake
- Muncul sebagai infrastruktur generasi berikutnya untuk aplikasi berbasis AI, analitik real-time, dan enterprise intelligence
- Perusahaan besar dan startup sama-sama mempercepat transisi ke lakehouse, dan pasar baru terkait hal ini pun mulai terbentuk
Thesis 1: Mewujudkan pipeline real-time yang cerdas melalui ingestion dan transformasi yang berpusat pada AI
- Alat ETL tradisional tidak efisien pada skala AI
- Prefect, Windmill, dltHub, dan lainnya mendukung pipeline data berbasis kode serta orkestrasi
- Alat seperti Tobiko menyediakan otomatisasi SQL, data lineage, pelacakan dependensi, dan lainnya
- Model Context Protocol (MCP) dari Anthropic menyediakan antarmuka terstandarisasi untuk menjaga konteks workflow AI
- Apache Kafka dan Flink menyediakan fungsi messaging dan stream processing yang penting untuk pelatihan model dan inferensi real-time
- Chalk AI menyediakan platform inferensi real-time untuk mendukung pengambilan keputusan yang cepat
- Lapisan metadata muncul sebagai source of truth yang penting di era AI
Thesis 2: Pentingnya strategis lapisan metadata makin menonjol
- Metadata kini bukan lagi sekadar informasi, melainkan lapisan inti yang mendorong tindakan
- Open table format seperti Iceberg, Delta Lake, dan Hudi memimpin inovasi metadata
- Katalog native lakehouse seperti Datastrato dan Vakamo mulai bermunculan
- DataHub dari Acryl Data mendukung akses data dan tata kelola bagi manusia maupun agen AI
- OpenHouse, Apache Amoro, dan Ryft menyediakan control plane yang berpusat pada metadata
- Flarion.io dan Greybeam sedang mengembangkan alat optimasi performa pada lapisan di luar storage
Thesis 3: Perubahan pada komputasi dan query engine
- Penyebaran lakehouse mendorong peralihan ke arsitektur modular dari struktur lama yang berpusat pada satu platform
- Selain Snowflake dan Databricks, solusi khusus seperti DuckDB, ClickHouse, dan Druid juga berkembang
- Daft, typedef, Mooncake, dan Bauplan sedang mengembangkan framework komputasi baru untuk optimasi yang berpusat pada AI
- Munculnya query engine yang dioptimalkan untuk AI dan platform federated compute membentuk standar baru dalam pemrosesan data
Thesis 4: Batas antara data engineering dan software engineering makin kabur
- Aplikasi yang berpusat pada AI mendorong semua developer untuk memiliki kapabilitas yang berfokus pada data
- dbt Labs membawa praktik software engineering seperti version control, testing, dan CI/CD ke pengembangan data
- Gable mendukung pembangunan pipeline data melalui antarmuka yang ramah pengguna
- Temporal dan Inngest menghadirkan keandalan serta visibilitas untuk workflow terdistribusi yang kompleks
- Kontribusi terhadap open source meningkat tajam, dan laju pertumbuhan proyek terkait data di GitHub lebih tinggi daripada software umum
- Adopsi open source meningkat untuk mendapatkan dukungan yang lebih baik dari LLM
- Seiring menyatunya engineering yang berpusat pada AI dan data, struktur tim dan cara pengembangan berubah secara mendasar
2 komentar
Apa setelah Lakehouse?
Apakah Dataland?
Semoga biayanya turun sehingga startup juga bisa mencobanya wkwk