8 poin oleh yechoi 2023-09-05 | Belum ada komentar. | Bagikan ke WhatsApp
  • Tim Data Platform LINE menetapkan arah untuk secara bertahap menghentikan penggunaan Hive dan bermigrasi ke lingkungan Spark
  • Metode migrasi - mengganti engine terlebih dahulu lalu mengubah kueri jika muncul masalah
  • Contoh perubahan kueri:
    • Saat menggunakan tabel sementara (CREATE TEMPORARY TABLE)
    • Saat menggunakan konversi tipe implisit yang melanggar kebijakan ANSI (Store Assignment Policy)
    • Saat ada masalah pada UDF yang digunakan
    • Saat memperkenalkan UDF baru
    • Saat menggunakan operasi himpunan pada tipe map
    • Saat perlu menghapus beberapa partisi
  • Setelah migrasi, sebagian data tertentu hilang sehingga dilakukan troubleshooting
  • Lima gejala masalah dan cara penanganannya:
    • Sebagian hasil hilang setelah menjalankan kueri
    • Data tidak dapat dibaca ketika ada subdirektori di bawah direktori partisi
    • Saat job dijalankan, direktori partisi terhapus sehingga kueri yang menggunakan partisi tersebut gagal
    • Saat membaca data dari satu partisi lalu menulis ke partisi lain pada tabel yang sama, muncul AnaylsisException("Cannot overwrite a path that is also being read from")
    • Hasil terduplikasi sehingga dimuat dua kali lipat
  • Selain OpenChat, ada rencana untuk memigrasikan seluruh ratusan kueri di berbagai domain lain yang saat ini ditangani ke Spark dalam tahun ini

Belum ada komentar.

Belum ada komentar.