- Saat AI mengotomatisasi penulisan kode dan pembuatan pipeline, inti data engineering bergeser dari sekadar memindahkan data menjadi menangani makna (meaning)
- Struktur ETL (Extract, Transform, Load) yang ada tidak mampu mempertahankan makna data, dan ECL (Extract, Contextualize, Link) muncul sebagai framework baru penggantinya
- ECL membangun pipeline yang berpusat pada makna dengan menstrukturkan makna melalui Contextualize dan Link setelah ekstraksi data, menggabungkan penilaian AI dan manusia
- Data Contract, pipeline Contextualize, dan Context Store adalah komponen inti untuk menjaga keandalan data dan konsistensi makna
- Ke depan, data engineer harus berevolusi bukan lagi sebagai pembangun pipeline biasa, melainkan sebagai "Context Architect", yaitu perancang makna data
Keterbatasan dan pergeseran dari era ETL
- ETL (Extract, Transform, Load) adalah struktur untuk memindahkan data antar sistem di masa lalu, sebagai pendekatan untuk mengatasi ketidakcocokan format dan masalah silo
- Namun, pada tahap Transform, aturan bisnis tersembunyi di dalam kode sehingga sulit dikelola, dan setiap perubahan definisi mengharuskan modifikasi seluruh pipeline
- Saat AI mengotomatisasi pembuatan kode, pekerjaan transformasi sederhana tidak lagi menjadi faktor pembeda
- Hakikat data engineering didefinisikan ulang: bukan memindahkan data, tetapi menangani makna
ECL — Extract, Contextualize, Link
- Extract tetap diperlukan, dan menuntut pertimbangan arsitektural seperti keandalan data, latensi, volume, dan mode kegagalan
- Contextualize adalah proses memberi makna pada data, di mana AI melakukan definisi field, klasifikasi entitas, dan inferensi relasi, lalu manusia memverifikasinya
- Contoh: definisi "revenue" bisa berbeda antar departemen, atau makna nilai null bisa berbeda antar sistem
- Link adalah proses menghubungkan entitas di berbagai sistem agar makna dapat dipindahkan
- Menghubungkan record pelanggan, data pengguna, dan event log untuk memastikan konsistensi kontekstual
Early Binding — data contract yang dapat dieksekusi
- Early Binding adalah pendekatan untuk menyatakan makna pada saat data dibuat, dan diimplementasikan melalui Data Contract
- Kontrak mendefinisikan schema, ekspektasi kualitas, kepemilikan, dan makna field
- Ini tidak boleh berhenti pada dokumentasi biasa, tetapi harus berfungsi sebagai Executable Constraint dengan titik kegagalan yang terdefinisi
- Termasuk validasi otomatis seperti pipeline gagal saat schema berubah, atau notifikasi saat kualitas dilanggar
- Dalam lingkungan AI, ambiguitas kontrak dapat membesar menjadi kesalahan berskala besar, sehingga kontrak yang jelas menjadi wajib
Batasan Early Binding
- Dalam arsitektur Medallion (Bronze–Silver–Gold), data berpindah sambil kehilangan maknanya secara bertahap
- Layer Gold adalah hasil yang dioptimalkan untuk pertanyaan tertentu, sehingga makna aslinya dapat berubah
- Early Binding saja tidak cukup untuk mencegah erosi makna secara bertahap
- Untuk melengkapinya, diperlukan pipeline Contextualize
Late Binding — pipeline Contextualize berbasis agen
- Late Binding menunda penerapan aturan bisnis hingga waktu kueri, tetapi definisinya sendiri tetap perlu dibuat terlebih dahulu
- Pendekatan baru memungkinkan definisi itu sendiri dibuat dan divalidasi secara dinamis oleh pipeline khusus
- Berjalan otomatis lewat trigger berbasis event saat ada dataset baru atau perubahan schema
- AI agent menganalisis struktur data, sampel, statistik, dan lineage untuk menginferensi makna
- LLM-as-Judge menyetujui inferensi berkepercayaan tinggi secara otomatis, sementara item yang tidak pasti ditinjau oleh pakar domain
- Hasil yang telah divalidasi disimpan di Context Store, lalu digunakan sebagai titik referensi berbasis makna untuk semua AI dan kueri berikutnya
Kriteria memilih Early vs Late Binding
- Data yang dapat dikendalikan di dalam organisasi cocok menggunakan Early Binding
- Negosiasi dan penegakan kontrak dimungkinkan, serta definisi makna eksplisit dapat dipertahankan
- Data eksternal atau sumber yang tidak dapat dikendalikan memerlukan Late Binding melalui pipeline Contextualize
- Perubahan schema dan inferensi makna harus bisa diotomatisasi
- Kriteria utamanya bukan posisi organisasi, melainkan ada tidaknya accountability
- Jika ada accountability, gunakan Early Binding; jika tidak, gunakan Contextualize
- Melalui validasi berulang, makna yang ditemukan dapat dipromosikan menjadi kontrak resmi
Context Propagation — struktur relay, bukan pipeline
- Context tidak bergerak mengikuti pipeline data, melainkan disebarkan secara paralel melalui metadata dan lineage
- Early Binding menambahkan metadata kontrak di sumber, lalu alat lineage meneruskannya ke tahap Bronze–Silver–Gold
- Pipeline Contextualize membaca lineage ini untuk menginferensi makna, lalu menyimpan hasil tervalidasi ke Context Store
- Analogi Git: data adalah file yang di-commit, lineage adalah git log, dan Context Store adalah riwayat versi makna
Context Store — permukaan engineering yang baru
- Context Store adalah repositori definisi bisnis, yang hadir bukan sebagai dokumen wiki melainkan artefak berversi yang tervalidasi
- Konflik definisi "revenue" diselesaikan melalui proses berbasis tingkat kepercayaan
- Ini menjadi titik inti keandalan data, yang memungkinkan deteksi dan perbaikan data ketika maknanya berubah
- Untuk menjamin keandalan data yang dihasilkan dan dikonsumsi AI, pengelolaan Context Store dan perancangan workflow validasi menjadi penting
- Saat ini, kepemilikan dalam organisasi, mediasi konflik, dan prosedur promosi makna masih berada pada tahap eksperimen
Data engineer baru — Context Architect
- Data engineer masa depan akan bertanggung jawab atas perancangan arsitektur makna
- Merancang kontrak, membangun infrastruktur lineage, serta mengelola pipeline Contextualize dan Context Store
- Menentukan kapan makna harus didefinisikan dan kapan harus ditemukan
- Melampaui peran teknis, mereka juga berperan sebagai koordinator yang merancang pembagian makna dan struktur tanggung jawab antar organisasi
- Karena itu, sebutan "Context Architect" lebih tepat daripada "data engineer"
Frontier yang terbuka
- ECL bukan metodologi yang sudah final, melainkan sebuah arah, dan tool maupun model governance terkait masih terus berkembang
- Organisasi yang memperlakukan kontrak sebagai infrastruktur yang dapat dieksekusi dan mengelola lineage serta Context Store sebagai aset engineering inti
diperkirakan akan menentukan standar data engineering dalam 10 tahun ke depan
- Bahkan di era AI, wilayah yang tetap harus ditangani manusia adalah "arsitektur dan trade-off", dan kini bentuk konkretnya mulai tampak melalui ECL dan Context Architect
1 komentar
Sepertinya pergeseran dari peran yang sebelumnya mirip teknisi tradisional menuju pakar domain semakin cepat.