18 poin oleh xguru 2024-12-23 | Belum ada komentar. | Bagikan ke WhatsApp
  • Perubahan utama dalam data engineering pada 2024: pertumbuhan pesat AI generatif, pematangan tata kelola data, serta fokus pada efisiensi dan pemrosesan real-time
  • Pada 2025, di atas arus ini diperkirakan akan muncul lima tren utama yang mengubah dunia data

1. Kemajuan komputasi AI

  • NVIDIA muncul sebagai perusahaan terbesar di dunia berdasarkan kapitalisasi pasar, menunjukkan laju pertumbuhan yang mungkin hanya terjadi sekali dalam satu generasi
  • Google mengumumkan terobosan inovatif melalui Willow di bidang komputasi kuantum
  • Amazon, Google, Microsoft, dan lainnya bersaing ketat di pasar chip AI, dengan chip Trainium2 dari Amazon sebagai salah satu contoh utamanya
  • PC dan perangkat yang dilengkapi Neural Processing Units (NPUs) memungkinkan komputasi AI offline dan meningkatkan privasi data
  • Inovasi seperti Edge TPU dari Google mempercepat peralihan ke edge computing yang hemat energi, sehingga mengurangi ketergantungan pada infrastruktur cloud terpusat
  • Peralihan ke arsitektur komputasi hibrida dan hemat energi menjembatani kesenjangan antara performa, biaya, dan privasi pada aplikasi AI
  • Chip neuromorphic yang meniru struktur otak diharapkan menawarkan efisiensi energi yang tak tertandingi serta kemampuan memproses data tak terstruktur di perangkat
  • Kemajuan besar di bidang komputasi neuromorfik dan kuantum membuka cakrawala baru bagi kapabilitas AI
  • Kemajuan perangkat keras AI ini diperkirakan akan mendorong inovasi dalam natural language processing, computer vision, robotika, dan layanan kesehatan pada 2025 dan seterusnya

2. Evolusi model bahasa yang terspesialisasi per domain

  • Domain-specific language models (LLMs)
    • Model bahasa per domain yang dilatih dengan dataset industri tertentu mendorong penerapan AI ke tingkat berikutnya di masing-masing industri
    • Industri seperti kesehatan, keuangan, hukum, dan manufaktur mengadopsi model ini untuk menyelesaikan tugas yang kompleks dan kaya konteks secara akurat
    • Kapabilitas AI yang disesuaikan dengan kebutuhan rinci tiap industri menghadirkan inovasi pada proses kerja dan pengambilan keputusan di seluruh perusahaan
  • Small Language Models (SLMs)
    • Model bahasa berukuran kecil (Small Language Models, SLMs) semakin diperhatikan dari sisi efisiensi biaya dan kemampuan adaptasi
    • SLM yang dioptimalkan untuk tugas tertentu menunjukkan performa yang lebih baik daripada model besar di area yang terbatas
    • Dengan kebutuhan komputasi yang lebih rendah dan kemudahan deployment yang lebih baik, SLM akan mendemokratisasi akses ke AI sehingga organisasi dari berbagai skala dapat menerapkan kemampuan bahasa yang canggih tanpa beban mengelola sistem yang intensif sumber daya

3. Orkestrator AI dan penalaran multi-tahap

  • Orkestrator AI
    • Seiring perusahaan mengadopsi beragam agen AI khusus, orkestrator AI diperkirakan akan memegang peran sentral dalam AI-powered data stack
    • Orkestrator ini berfungsi sebagai control plane cerdas yang merutekan tugas secara dinamis ke agen yang paling sesuai, lalu menyintesis hasilnya untuk memberikan insight yang dapat ditindaklanjuti
    • Dengan pemahaman konten yang mendalam, kemampuan pemrosesan multibahasa, dan dukungan untuk berbagai tipe data, orkestrator ini mengintegrasikan banyak agen AI ke dalam workflow yang konsisten
  • Kemajuan penalaran multi-tahap
    • Model AI berkembang melampaui tanya jawab sederhana menuju penyelesaian masalah kompleks melalui penalaran multi-tahap
    • Dengan memecah tugas kompleks menjadi langkah-langkah berurutan yang lebih kecil, analisis yang lebih akurat dan lebih berwawasan menjadi mungkin
    • Melalui kapabilitas ini, agen AI akan mampu menangani tugas otomatisasi long tail di bidang coding, kesehatan, hukum, dan industri lainnya
  • Kombinasi orkestrator AI dan penalaran multi-tahap akan membuka era baru AI, memperluas pengaruh AI secara signifikan terhadap pemecahan masalah dan pengambilan keputusan di berbagai bidang

4. Lingkungan pengembangan terintegrasi generasi berikutnya untuk integrasi data (Data IDE)

  • Pendekatan data engineering mengalami perubahan mendasar karena meningkatnya permintaan organisasi terhadap insight data
  • Pada 2025, diperkirakan akan muncul jenis baru integrated development environment (IDE) yang dirancang untuk mendemokratisasi akses dan manipulasi data secara efektif
  • Alat seperti lakebyte.ai menunjukkan awal dari inovasi ini
  • Fitur inti
    • Integrasi tanpa hambatan
      • Mengintegrasikan seluruh siklus hidup data dengan mulus ke dalam satu lingkungan terpadu, mulai dari pengumpulan dan transformasi data hingga analisis, visualisasi, dan deployment
    • Bantuan cerdas berbasis AI
      • Akan dilengkapi fitur AI yang menyediakan penyelesaian kode cerdas, pembersihan data otomatis, dan saran cerdas untuk optimasi pipeline
      • Tidak hanya membantu menulis kode, tetapi juga memahami makna data dan menyarankan cara terbaik untuk mentransformasikannya
    • Antarmuka Low-Code/No-Code
      • Melalui antarmuka visual drag-and-drop, pengguna dengan sedikit pengalaman coding pun dapat membangun dan mengelola pipeline data
      • Tetap memberi fleksibilitas bagi pengguna tingkat lanjut untuk menulis kode kustom saat diperlukan
    • Fitur kolaborasi
      • Mendorong kolaborasi yang lancar antara data engineer, data scientist, analis, dan pengguna bisnis
      • Memungkinkan mereka bekerja bersama dalam proyek data di dalam lingkungan bersama
    • Tata kelola data bawaan
      • Pemeriksaan kualitas data, pipeline CI/CD, menjalankan pengujian integrasi sebelum mendorong ke production, kontrol akses, dan pelacakan lineage diintegrasikan langsung ke dalam workflow pengembangan
      • Memastikan tata kelola data tidak diperlakukan sebagai hal yang dipikirkan belakangan
    • Dukungan untuk berbagai sumber dan format data
      • Menyediakan konektor native untuk berbagai sumber data seperti database, data lake, platform streaming, dan cloud storage
      • Mendukung berbagai format data termasuk data terstruktur, semi-terstruktur, dan tidak terstruktur
    • Cloud-native dan skalabilitas
      • Dirancang untuk berjalan di cloud dengan memanfaatkan skalabilitas dan elastisitas infrastruktur cloud
  • Demokratisasi data melalui IDE yang kuat dan intuitif diperkirakan akan melahirkan 'Citizen Data Engineers'
    • Pakar domain akan dapat membangun dan mengelola workflow data meskipun bukan programmer tradisional
  • Diharapkan inovasi berbasis data akan semakin cepat seiring runtuhnya batas antara tim teknis dan nonteknis
  • Pada 2025, Prompt Wrangling diperkirakan menjadi keterampilan terpenting bagi data engineer

5. Kebangkitan LakeDB: mengubah format lakehouse menjadi DB

  • Batas antara data lake, data warehouse, dan database semakin kabur
  • Pada 2025, diperkirakan akan muncul paradigma baru bernama LakeDB
  • Sebagai bentuk evolusi dari konsep LakeHouse, pendekatan ini berkembang dengan cara mengintegrasikan kapabilitas database yang lebih kuat langsung ke dalam data lake
    • Tetap mempertahankan skalabilitas dan fleksibilitas object storage, sekaligus menyediakan performa dan kemudahan penggunaan seperti database tradisional
  • LakeDB menawarkan fitur-fitur canggih yang melampaui query object storage sederhana dan format tabel
    • Dengan mengelola buffering, caching, index, dan operasi tulis secara native, LakeDB mewujudkan performa dan efisiensi setingkat LakeHouse
  • LakeHouse saat ini masih bergantung pada framework pemrosesan eksternal seperti Spark atau Flink untuk ingest, transformasi, dan operasi tulis data
    • Ketergantungan ini menambah kompleksitas dan menimbulkan latensi
    • Bergantung pada cara implementasinya, performa bisa tidak konsisten dan masalah interoperabilitas dapat muncul
  • LakeDB akan mencakup fitur-fitur berikut:
    • Kemampuan tulis native
      • Menyediakan jalur tulis yang dioptimalkan langsung untuk object storage dasarnya, sehingga menghilangkan kebutuhan akan engine pemrosesan eksternal untuk pekerjaan umum
      • Penambahan terbaru fitur conditional write pada S3 menunjukkan bahwa cloud object storage akan mendukung jalur tulis LakeDB
    • Buffering dan caching cerdas
      • Mengelola buffering dan caching data secara cerdas untuk mengoptimalkan performa baca dan tulis
    • Manajemen transaksi
      • Memanfaatkan conditional write S3 dan teknik manajemen metadata tingkat lanjut untuk menyediakan kemampuan manajemen transaksi yang kuat
      • Menyediakan mekanisme bawaan yang menjamin konsistensi dan integritas data
    • Performa query cerdas
      • Mengintegrasikan engine OLAP in-process seperti DuckDB untuk meningkatkan efisiensi pemrosesan data skala kecil
      • Meningkatkan efisiensi query melalui indexing lanjutan dan optimasi query
      • Secara otomatis memilih strategi terbaik tanpa mengharuskan pengguna menyusun strategi query terpisah berdasarkan skala data
    • Manajemen data otomatis
      • Data tiering, kompresi, dan fungsi optimasi lainnya diotomatisasi untuk menyederhanakan operasi dan mengurangi biaya
    • Pencarian vektor dan kemampuan perluasan
      • Menyediakan dukungan bawaan untuk vector database dan pencarian kemiripan
      • Dapat mengoptimalkan performa baca dan tulis dengan menerapkan teknik indexing yang paling sesuai secara selektif untuk tiap kolom
      • Fitur seperti dukungan secondary index di Hudi dan tipe data variabel di Delta sudah mulai muncul pada format LakeHouse
  • Konsep LakeDB masih berada pada tahap awal, tetapi diperkirakan akan ada inovasi besar di bidang ini pada 2025
  • Format LakeHouse yang ada dapat berkembang untuk mengintegrasikan lebih banyak kapabilitas mirip LakeDB, dan solusi baru yang dibangun sejak awal dengan visi ini juga bisa muncul

6. Zero ETL berbasis Data Mesh & Contract serta arsitektur federasi

  • Terlepas dari pandangan skeptis terhadap data contract dan mesh, lebih banyak perusahaan diperkirakan akan mengadopsi arsitektur data mesh
  • Penggunaan data mesh diperkirakan meningkat terutama dalam kasus yang membutuhkan pertukaran data di dalam perusahaan
  • Arsitektur zero ETL dan federated query mendorong perubahan ini
  • Zero ETL
    • Teknologi berkembang ke arah meminimalkan perpindahan dan duplikasi data
    • Teknologi seperti virtualisasi data, federated query engine, dan protokol berbagi data memungkinkan akses serta analisis data tanpa proses ETL yang rumit
    • Proses ETL tradisional yang kompleks dan memakan waktu diperkirakan akan menjadi lebih sederhana
  • Data sharing menjadi pertimbangan utama yang semakin penting
    • Protokol dan platform berbagi data yang aman dan efisien memungkinkan kolaborasi dengan mitra, pelanggan, dan pesaing
    • Adopsi standar seperti Delta Sharing diperkirakan meningkat dan terus berkembang
  • Prospek ke depan
    • Tim domain diperkirakan akan dapat memiliki pipeline data mereka sendiri, membuat produk data, dan berbagi data dengan mulus melintasi batas organisasi
    • Seiring meningkatnya porsi perusahaan yang melatih LLM dengan data mereka sendiri, pentingnya berbagi data diperkirakan akan makin besar
    • Melalui model berbagi data, diharapkan tercapai peningkatan kelincahan, waktu menuju insight yang lebih singkat, serta pendekatan pengelolaan data yang lebih terdistribusi dan skalabel

Kesimpulan

  • Kebangkitan AI dan demokratisasi data melalui IDE baru sedang mengalami percepatan
  • Evolusi peran data engineer dan kemunculan LakeDB secara mendasar mengubah cara pengelolaan data
  • Prinsip data mesh yang didukung zero ETL dan arsitektur federasi semakin menjadi arus utama
  • Dalam lingkungan yang dinamis ini, peran data engineer menjadi lebih penting dari sebelumnya
    • Mereka diperkirakan akan menempati posisi kunci sebagai arsitek insight, penjaga kualitas data, dan penggerak inovasi
    • Mereka diharapkan beradaptasi dengan kebutuhan dunia berbasis data yang terus berkembang dan menciptakan nilai baru

Belum ada komentar.

Belum ada komentar.