- Tim Data Platform LINE menetapkan arah untuk secara bertahap menghentikan penggunaan Hive dan bermigrasi ke lingkungan Spark
- Metode migrasi - mengganti engine terlebih dahulu lalu mengubah kueri jika muncul masalah
- Contoh perubahan kueri:
- Saat menggunakan tabel sementara (
CREATE TEMPORARY TABLE)
- Saat menggunakan konversi tipe implisit yang melanggar kebijakan ANSI (
Store Assignment Policy)
- Saat ada masalah pada UDF yang digunakan
- Saat memperkenalkan UDF baru
- Saat menggunakan operasi himpunan pada tipe map
- Saat perlu menghapus beberapa partisi
- Setelah migrasi, sebagian data tertentu hilang sehingga dilakukan troubleshooting
- Lima gejala masalah dan cara penanganannya:
- Sebagian hasil hilang setelah menjalankan kueri
- Data tidak dapat dibaca ketika ada subdirektori di bawah direktori partisi
- Saat job dijalankan, direktori partisi terhapus sehingga kueri yang menggunakan partisi tersebut gagal
- Saat membaca data dari satu partisi lalu menulis ke partisi lain pada tabel yang sama, muncul
AnaylsisException("Cannot overwrite a path that is also being read from")
- Hasil terduplikasi sehingga dimuat dua kali lipat
- Selain OpenChat, ada rencana untuk memigrasikan seluruh ratusan kueri di berbagai domain lain yang saat ini ditangani ke Spark dalam tahun ini
Belum ada komentar.