Catatan Membangun CI/CD AWS RedShift
(medium.com)Cara Here Mobility membangun CI/CD database untuk para data engineer & analis.
-
Sebelumnya tim analitik mengirim data lake S3 ke RedShift dengan ETL PySpark. Skrip SQL untuk itu juga menjadi tanggung jawab tim analitik
-
Kode PySpark mengikuti CI/CD aplikasi sehingga tidak bermasalah, tetapi kode SQL untuk RedShift sulit diuji, diberi versi, dan dilacak
-
Mereka mengembangkan alat CI/CD khusus RedShift bernama redCI yang melakukan version control, validasi kode, terintegrasi ke pipeline Jenkins, dan otomatis dideploy ke RedShift
-
redCI - dapat terhubung ke Redshift dan Postgres dengan kode Python, membaca dan menjalankan file skrip yang kompatibel dengan PSQL. Juga mengubah sintaks Redshift ke PSQL. Dengan ini, unit test dapat dijalankan
-
Masalah yang muncul saat implementasi: RedShift berbasis Postgres 8, tetapi fungsi yang didukung berbeda sehingga bisa menimbulkan masalah. Ini diatasi dengan mengubahnya lalu mencoba menjalankannya di Postgres yang dijalankan lewat Docker.
2 komentar
Here dulunya adalah Navteq, lalu diakuisisi oleh Nokia, dan kini merupakan perusahaan layanan peta/informasi lokasi yang diakuisisi oleh konsorsium Audi/BMW/Daimler AG dari Jerman.
Akan bagus kalau
redCIsendiri dibuka sebagai open source, tetapi sepertinya masih belum sampai ke tahap itu.