Hyperspace - Subsistem pengindeksan open source untuk Apache Spark yang dirilis MS
(microsoft.github.io)Subsistem yang memungkinkan akselerasi kueri berbasis indeks pada Apache Spark
→ Membuat dan mengelola indeks untuk data CSV, JSON, dan Parquet
→ Secara otomatis menggunakan indeks ini untuk mempercepat kueri/beban kerja tanpa perubahan kode
- Pada benchmark TPC, kecepatan kueri meningkat hingga 11x untuk kueri individual
→ Secara keseluruhan, performa kueri meningkat sekitar 2x pada perangkat keras umum
-
API sederhana seperti create,refresh,delete,restore,vacuum,cancel
-
Mendukung Scala, Python, .NET
Digunakan di Azure Synapse Analytics pada cloud Microsoft Azure
(layanan analitik tanpa batas yang menggabungkan enterprise data warehousing dan analisis big data)
1 komentar
Tulisan pengantar: Hyperspace, sebuah subsistem pengindeksan untuk Apache Spark™, kini telah menjadi open source
https://cloudblogs.microsoft.com/opensource/2020/…