Cara Facebook Mempercepat SQL
(datanami.com)- Menggunakan Presto dalam skala besar: 40 ribu server, memindai ~1 ExaByte data setiap hari, dan lebih dari 80% merupakan ETL baru
→ Pemisahan antara compute dan storage
- Presto bekerja dengan baik, tetapi untuk kueri yang lebih cepat (di bawah 1 detik), mereka mengembangkan Raptor
→ Caching di SSD lokal, metastore tingkat file
→ Compute dan storage kembali tergabung → sulit untuk diskalakan dan dikelola
- Sejak musim gugur tahun lalu, mulai mengembangkan pengganti Raptor dengan memodifikasi Alluxio: Alluxio Local Cache
→ Performa mirip Raptor, tetapi tidak perlu melakukan cache di SSD lokal
→ Alluxio adalah sistem file terdistribusi virtual yang menjadi jembatan berbasis memori untuk menghubungkan beberapa compute engine ke beberapa storage
- Alluxio Local Cache
→ Mulai disertakan dalam rilis resmi sejak versi 2.2
→ Library yang bisa di-embed ke dalam Presto Server JVM tanpa perlu menggunakan seluruh Alluxio
- Di seluruh fleet Presto Facebook, Raptor hampir sepenuhnya dihapus dan digantikan dengan Alluxio Local Cache
→ Data Facebook dapat diakses dalam format file ORC melalui antarmuka HDFS
→ Tetap menggunakan SSD lokal, tetapi jika tidak ada di cache, storage jarak jauh juga bisa diakses
→ Peningkatan performa sekitar 30%~50% di Presto
→ Akses ke storage jarak jauh berkurang 57% dibandingkan Raptor
→ Hit rate Alluxio Cache di atas 90%
→ Raptor dijadwalkan akan dihapus seluruhnya dalam 6 bulan
Belum ada komentar.