- Mesin generasi berikutnya yang dioptimalkan untuk mempercepat kueri SQL dengan memanfaatkan perangkat keras GPU terbaru
- Melalui format kueri Substrait, kueri yang dibuat di mesin CPU (DuckDB) diteruskan ke lingkungan GPU (Sirius)
- Di dalam memori GPU, Raw Data Cache Region dan Processing Region dipisahkan untuk memaksimalkan performa pemuatan dan pemrosesan data
- Tanpa modifikasi kueri atau perubahan sistem, mencatat kecepatan lebih dari 10x dengan biaya yang sama pada skala TPC-H 100
- Optimal untuk workload data berskala besar seperti analitik real-time, keuangan, dan ETL
- Lingkungan yang didukung: Ubuntu 20.04+, GPU NVIDIA Volta(7.0+) atau lebih tinggi, CUDA 11.2+, CMake 3.30.4 atau lebih tinggi (disarankan 16 vCPU atau lebih)
- Metode instalasi: tersedia 3 opsi, yaitu AWS AMI (image yang sudah dikonfigurasi), image Docker, dan instalasi dependensi manual
- Docker:
sudo docker run --gpus all -it yifeiyang7/sirius_dependencies:latest bash
- Manual: perlu memasang dependensi DuckDB, CUDA, libcudf (dipasang dengan conda), dan lainnya secara terpisah
- Batasan utama
- Hanya berjalan dalam kapasitas memori GPU (dukungan partisi/batch, disk spill, dan multi-GPU direncanakan ke depan)
- Jumlah baris maksimum dibatasi oleh batas int32_t libcudf (~2 miliar baris)
- Tipe data: mendukung INTEGER, BIGINT, FLOAT, DOUBLE, VARCHAR, DATE, DECIMAL; tipe tambahan sedang dikembangkan
- Operator: mendukung FILTER, PROJECTION, JOIN, GROUP-BY, ORDER-BY, AGGREGATION, TOP-N, LIMIT, CTE; fungsi WINDOW dan lainnya sedang dikembangkan
- Kolom Partially NULL belum didukung (patch direncanakan di masa mendatang)
- Jika terjadi masalah, otomatis fallback ke mesin CPU DuckDB
1 komentar
Substrait - standar pertukaran lintas platform untuk operasi pemrosesan data