11 poin oleh GN⁺ 2026-02-25 | 1 komentar | Bagikan ke WhatsApp
  • Saat AI mengotomatisasi penulisan kode dan pembuatan pipeline, inti data engineering bergeser dari sekadar memindahkan data menjadi menangani makna (meaning)
  • Struktur ETL (Extract, Transform, Load) yang ada tidak mampu mempertahankan makna data, dan ECL (Extract, Contextualize, Link) muncul sebagai framework baru penggantinya
  • ECL membangun pipeline yang berpusat pada makna dengan menstrukturkan makna melalui Contextualize dan Link setelah ekstraksi data, menggabungkan penilaian AI dan manusia
  • Data Contract, pipeline Contextualize, dan Context Store adalah komponen inti untuk menjaga keandalan data dan konsistensi makna
  • Ke depan, data engineer harus berevolusi bukan lagi sebagai pembangun pipeline biasa, melainkan sebagai "Context Architect", yaitu perancang makna data

Keterbatasan dan pergeseran dari era ETL

  • ETL (Extract, Transform, Load) adalah struktur untuk memindahkan data antar sistem di masa lalu, sebagai pendekatan untuk mengatasi ketidakcocokan format dan masalah silo
    • Namun, pada tahap Transform, aturan bisnis tersembunyi di dalam kode sehingga sulit dikelola, dan setiap perubahan definisi mengharuskan modifikasi seluruh pipeline
  • Saat AI mengotomatisasi pembuatan kode, pekerjaan transformasi sederhana tidak lagi menjadi faktor pembeda
  • Hakikat data engineering didefinisikan ulang: bukan memindahkan data, tetapi menangani makna

ECL — Extract, Contextualize, Link

  • Extract tetap diperlukan, dan menuntut pertimbangan arsitektural seperti keandalan data, latensi, volume, dan mode kegagalan
  • Contextualize adalah proses memberi makna pada data, di mana AI melakukan definisi field, klasifikasi entitas, dan inferensi relasi, lalu manusia memverifikasinya
    • Contoh: definisi "revenue" bisa berbeda antar departemen, atau makna nilai null bisa berbeda antar sistem
  • Link adalah proses menghubungkan entitas di berbagai sistem agar makna dapat dipindahkan
    • Menghubungkan record pelanggan, data pengguna, dan event log untuk memastikan konsistensi kontekstual

Early Binding — data contract yang dapat dieksekusi

  • Early Binding adalah pendekatan untuk menyatakan makna pada saat data dibuat, dan diimplementasikan melalui Data Contract
    • Kontrak mendefinisikan schema, ekspektasi kualitas, kepemilikan, dan makna field
  • Ini tidak boleh berhenti pada dokumentasi biasa, tetapi harus berfungsi sebagai Executable Constraint dengan titik kegagalan yang terdefinisi
    • Termasuk validasi otomatis seperti pipeline gagal saat schema berubah, atau notifikasi saat kualitas dilanggar
  • Dalam lingkungan AI, ambiguitas kontrak dapat membesar menjadi kesalahan berskala besar, sehingga kontrak yang jelas menjadi wajib

Batasan Early Binding

  • Dalam arsitektur Medallion (Bronze–Silver–Gold), data berpindah sambil kehilangan maknanya secara bertahap
    • Layer Gold adalah hasil yang dioptimalkan untuk pertanyaan tertentu, sehingga makna aslinya dapat berubah
  • Early Binding saja tidak cukup untuk mencegah erosi makna secara bertahap
  • Untuk melengkapinya, diperlukan pipeline Contextualize

Late Binding — pipeline Contextualize berbasis agen

  • Late Binding menunda penerapan aturan bisnis hingga waktu kueri, tetapi definisinya sendiri tetap perlu dibuat terlebih dahulu
  • Pendekatan baru memungkinkan definisi itu sendiri dibuat dan divalidasi secara dinamis oleh pipeline khusus
    • Berjalan otomatis lewat trigger berbasis event saat ada dataset baru atau perubahan schema
    • AI agent menganalisis struktur data, sampel, statistik, dan lineage untuk menginferensi makna
    • LLM-as-Judge menyetujui inferensi berkepercayaan tinggi secara otomatis, sementara item yang tidak pasti ditinjau oleh pakar domain
  • Hasil yang telah divalidasi disimpan di Context Store, lalu digunakan sebagai titik referensi berbasis makna untuk semua AI dan kueri berikutnya

Kriteria memilih Early vs Late Binding

  • Data yang dapat dikendalikan di dalam organisasi cocok menggunakan Early Binding
    • Negosiasi dan penegakan kontrak dimungkinkan, serta definisi makna eksplisit dapat dipertahankan
  • Data eksternal atau sumber yang tidak dapat dikendalikan memerlukan Late Binding melalui pipeline Contextualize
    • Perubahan schema dan inferensi makna harus bisa diotomatisasi
  • Kriteria utamanya bukan posisi organisasi, melainkan ada tidaknya accountability
    • Jika ada accountability, gunakan Early Binding; jika tidak, gunakan Contextualize
  • Melalui validasi berulang, makna yang ditemukan dapat dipromosikan menjadi kontrak resmi

Context Propagation — struktur relay, bukan pipeline

  • Context tidak bergerak mengikuti pipeline data, melainkan disebarkan secara paralel melalui metadata dan lineage
  • Early Binding menambahkan metadata kontrak di sumber, lalu alat lineage meneruskannya ke tahap Bronze–Silver–Gold
  • Pipeline Contextualize membaca lineage ini untuk menginferensi makna, lalu menyimpan hasil tervalidasi ke Context Store
  • Analogi Git: data adalah file yang di-commit, lineage adalah git log, dan Context Store adalah riwayat versi makna

Context Store — permukaan engineering yang baru

  • Context Store adalah repositori definisi bisnis, yang hadir bukan sebagai dokumen wiki melainkan artefak berversi yang tervalidasi
    • Konflik definisi "revenue" diselesaikan melalui proses berbasis tingkat kepercayaan
  • Ini menjadi titik inti keandalan data, yang memungkinkan deteksi dan perbaikan data ketika maknanya berubah
  • Untuk menjamin keandalan data yang dihasilkan dan dikonsumsi AI, pengelolaan Context Store dan perancangan workflow validasi menjadi penting
  • Saat ini, kepemilikan dalam organisasi, mediasi konflik, dan prosedur promosi makna masih berada pada tahap eksperimen

Data engineer baru — Context Architect

  • Data engineer masa depan akan bertanggung jawab atas perancangan arsitektur makna
    • Merancang kontrak, membangun infrastruktur lineage, serta mengelola pipeline Contextualize dan Context Store
    • Menentukan kapan makna harus didefinisikan dan kapan harus ditemukan
  • Melampaui peran teknis, mereka juga berperan sebagai koordinator yang merancang pembagian makna dan struktur tanggung jawab antar organisasi
  • Karena itu, sebutan "Context Architect" lebih tepat daripada "data engineer"

Frontier yang terbuka

  • ECL bukan metodologi yang sudah final, melainkan sebuah arah, dan tool maupun model governance terkait masih terus berkembang
  • Organisasi yang memperlakukan kontrak sebagai infrastruktur yang dapat dieksekusi dan mengelola lineage serta Context Store sebagai aset engineering inti
    diperkirakan akan menentukan standar data engineering dalam 10 tahun ke depan
  • Bahkan di era AI, wilayah yang tetap harus ditangani manusia adalah "arsitektur dan trade-off", dan kini bentuk konkretnya mulai tampak melalui ECL dan Context Architect

1 komentar

 
onestone 2026-02-27

Sepertinya pergeseran dari peran yang sebelumnya mirip teknisi tradisional menuju pakar domain semakin cepat.