8 poin oleh GN⁺ 2025-04-01 | 2 komentar | Bagikan ke WhatsApp
  • Infrastruktur data perusahaan terus berevolusi seiring perkembangan teknologi dan memungkinkan lahirnya produk serta layanan baru
  • Infrastruktur data telah berkembang dari data warehouse on-premise tradisional menuju data warehouse berbasis cloud dan data lake
  • Belakangan ini, seiring pesatnya perkembangan AI, arsitektur baru bernama data lakehouse mulai menonjol dan menandai masuknya era Data 3.0
  • Lakehouse merupakan platform terpadu berkinerja tinggi dan interoperabel yang mendukung beragam penggunaan seperti analitik dan workload AI, serta membayangkan ulang inti infrastruktur data perusahaan
  • Karena itu, peluang munculnya perusahaan infrastruktur data baru bernilai miliaran dolar menjadi semakin besar

Latar belakang inovasi lakehouse

  • Dari 2019 hingga 2024, investasi perusahaan pada infrastruktur data hampir dua kali lipat, dari sekitar 180 miliar dolar menjadi 350 miliar dolar
  • Data warehouse dan data lake konvensional tidak sepenuhnya memenuhi kebutuhan AI
  • Workload yang berpusat pada AI memiliki kebutuhan sebagai berikut:
    • Harus mampu menangani data terstruktur, semi-terstruktur, dan tidak terstruktur
    • Harus mendukung pemrosesan data real-time, multimodal, dan composable
    • Diperlukan interoperabilitas antara database yang ada dan vector database
  • Perubahan permintaan dari pelanggan enterprise:
    • Kebutuhan untuk menghilangkan duplikasi data
    • Kompleksitas tata kelola data yang meningkat
    • Keinginan untuk menghindari vendor lock-in dan mendapatkan fleksibilitas
    • Sulitnya menemukan solusi yang cocok untuk AI

Open table format memungkinkan lakehouse

  • Open table format (OTF) seperti Delta Lake, Iceberg, dan Hudi menjadi fondasi lakehouse
  • Fitur utama:
    • Dukungan transaksi ACID: menjamin konsistensi dan stabilitas data
    • Dukungan pemrosesan batch dan streaming
    • Menyediakan fleksibilitas skema dan partisi
    • Fitur time travel untuk memulihkan ke keadaan sebelumnya
    • Manajemen metadata yang dapat diskalakan

Munculnya paradigma lakehouse

  • Data lakehouse adalah arsitektur baru yang menggabungkan performa data warehouse dengan fleksibilitas data lake
  • Muncul sebagai infrastruktur generasi berikutnya untuk aplikasi berbasis AI, analitik real-time, dan enterprise intelligence
  • Perusahaan besar dan startup sama-sama mempercepat transisi ke lakehouse, dan pasar baru terkait hal ini pun mulai terbentuk

Thesis 1: Mewujudkan pipeline real-time yang cerdas melalui ingestion dan transformasi yang berpusat pada AI

  • Alat ETL tradisional tidak efisien pada skala AI
  • Prefect, Windmill, dltHub, dan lainnya mendukung pipeline data berbasis kode serta orkestrasi
  • Alat seperti Tobiko menyediakan otomatisasi SQL, data lineage, pelacakan dependensi, dan lainnya
  • Model Context Protocol (MCP) dari Anthropic menyediakan antarmuka terstandarisasi untuk menjaga konteks workflow AI
  • Apache Kafka dan Flink menyediakan fungsi messaging dan stream processing yang penting untuk pelatihan model dan inferensi real-time
  • Chalk AI menyediakan platform inferensi real-time untuk mendukung pengambilan keputusan yang cepat
  • Lapisan metadata muncul sebagai source of truth yang penting di era AI

Thesis 2: Pentingnya strategis lapisan metadata makin menonjol

  • Metadata kini bukan lagi sekadar informasi, melainkan lapisan inti yang mendorong tindakan
  • Open table format seperti Iceberg, Delta Lake, dan Hudi memimpin inovasi metadata
  • Katalog native lakehouse seperti Datastrato dan Vakamo mulai bermunculan
  • DataHub dari Acryl Data mendukung akses data dan tata kelola bagi manusia maupun agen AI
  • OpenHouse, Apache Amoro, dan Ryft menyediakan control plane yang berpusat pada metadata
  • Flarion.io dan Greybeam sedang mengembangkan alat optimasi performa pada lapisan di luar storage

Thesis 3: Perubahan pada komputasi dan query engine

  • Penyebaran lakehouse mendorong peralihan ke arsitektur modular dari struktur lama yang berpusat pada satu platform
  • Selain Snowflake dan Databricks, solusi khusus seperti DuckDB, ClickHouse, dan Druid juga berkembang
  • Daft, typedef, Mooncake, dan Bauplan sedang mengembangkan framework komputasi baru untuk optimasi yang berpusat pada AI
  • Munculnya query engine yang dioptimalkan untuk AI dan platform federated compute membentuk standar baru dalam pemrosesan data

Thesis 4: Batas antara data engineering dan software engineering makin kabur

  • Aplikasi yang berpusat pada AI mendorong semua developer untuk memiliki kapabilitas yang berfokus pada data
  • dbt Labs membawa praktik software engineering seperti version control, testing, dan CI/CD ke pengembangan data
  • Gable mendukung pembangunan pipeline data melalui antarmuka yang ramah pengguna
  • Temporal dan Inngest menghadirkan keandalan serta visibilitas untuk workflow terdistribusi yang kompleks
  • Kontribusi terhadap open source meningkat tajam, dan laju pertumbuhan proyek terkait data di GitHub lebih tinggi daripada software umum
  • Adopsi open source meningkat untuk mendapatkan dukungan yang lebih baik dari LLM
  • Seiring menyatunya engineering yang berpusat pada AI dan data, struktur tim dan cara pengembangan berubah secara mendasar

2 komentar

 
halfenif 2025-04-01

Apa setelah Lakehouse?

Apakah Dataland?

 
yangeok 2025-04-01

Semoga biayanya turun sehingga startup juga bisa mencobanya wkwk