Sirius - Mesin SQL Native-GPU

xguru · 2025-07-03T09:31:01+09:00

Mesin generasi berikutnya yang dioptimalkan untuk mempercepat kueri SQL dengan memanfaatkan perangkat keras GPU terbaru Melalui format kueri Substrait, kueri yang dibuat di mesin CPU (DuckDB) diteruskan ke lingkungan GPU (Sirius) Di dalam memori GPU, Raw Data Cache Region dan Processing Region dipisahkan untuk memaksimalkan performa pemuatan dan pemrosesan data Tanpa modifikasi kueri atau perubahan sistem, mencatat kecepatan lebih dari 10x dengan biaya yang sama pada skala TPC-H 100 Optimal untuk workload data berskala besar seperti analitik real-time, keuangan, dan ETL Lingkungan yang didukung: Ubuntu 20.04+, GPU NVIDIA Volta(7.0+) atau lebih tinggi, CUDA 11.2+, CMake 3.30.4 atau lebih tinggi (disarankan 16 vCPU atau lebih) Metode instalasi: tersedia 3 opsi, yaitu AWS AMI (image yang sudah dikonfigurasi), image Docker, dan instalasi dependensi manual Docker: sudo docker run --gpus all -it yifeiyang7/sirius_dependencies:latest bash Manual: perlu memasang dependensi DuckDB, CUDA, libcudf (dipasang dengan conda), dan lainnya secara terpisah Batasan utama Hanya berjalan dalam kapasitas memori GPU (dukungan partisi/batch, disk spill, dan multi-GPU direncanakan ke depan) Jumlah baris maksimum dibatasi oleh batas int32_t libcudf (~2 miliar baris) Tipe data: mendukung INTEGER, BIGINT, FLOAT, DOUBLE, VARCHAR, DATE, DECIMAL; tipe tambahan sedang dikembangkan Operator: mendukung FILTER, PROJECTION, JOIN, GROUP-BY, ORDER-BY, AGGREGATION, TOP-N, LIMIT, CTE; fungsi WINDOW dan lainnya sedang dikembangkan Kolom Partially NULL belum didukung (patch direncanakan di masa mendatang) Jika terjadi masalah, otomatis fallback ke mesin CPU DuckDB

(github.com/sirius-db)

10 poin oleh xguru 2025-07-03 | 1 komentar | Bagikan ke WhatsApp

Mesin generasi berikutnya yang dioptimalkan untuk mempercepat kueri SQL dengan memanfaatkan perangkat keras GPU terbaru
Melalui format kueri Substrait, kueri yang dibuat di mesin CPU (DuckDB) diteruskan ke lingkungan GPU (Sirius)
Di dalam memori GPU, Raw Data Cache Region dan Processing Region dipisahkan untuk memaksimalkan performa pemuatan dan pemrosesan data
Tanpa modifikasi kueri atau perubahan sistem, mencatat kecepatan lebih dari 10x dengan biaya yang sama pada skala TPC-H 100
Optimal untuk workload data berskala besar seperti analitik real-time, keuangan, dan ETL
Lingkungan yang didukung: Ubuntu 20.04+, GPU NVIDIA Volta(7.0+) atau lebih tinggi, CUDA 11.2+, CMake 3.30.4 atau lebih tinggi (disarankan 16 vCPU atau lebih)
Metode instalasi: tersedia 3 opsi, yaitu AWS AMI (image yang sudah dikonfigurasi), image Docker, dan instalasi dependensi manual
- Docker: sudo docker run --gpus all -it yifeiyang7/sirius_dependencies:latest bash
- Manual: perlu memasang dependensi DuckDB, CUDA, libcudf (dipasang dengan conda), dan lainnya secara terpisah
Batasan utama
- Hanya berjalan dalam kapasitas memori GPU (dukungan partisi/batch, disk spill, dan multi-GPU direncanakan ke depan)
- Jumlah baris maksimum dibatasi oleh batas int32_t libcudf (~2 miliar baris)
- Tipe data: mendukung INTEGER, BIGINT, FLOAT, DOUBLE, VARCHAR, DATE, DECIMAL; tipe tambahan sedang dikembangkan
- Operator: mendukung FILTER, PROJECTION, JOIN, GROUP-BY, ORDER-BY, AGGREGATION, TOP-N, LIMIT, CTE; fungsi WINDOW dan lainnya sedang dikembangkan
- Kolom Partially NULL belum didukung (patch direncanakan di masa mendatang)
- Jika terjadi masalah, otomatis fallback ke mesin CPU DuckDB

1 komentar

xguru 2025-07-03

Substrait - standar pertukaran lintas platform untuk operasi pemrosesan data

Sirius - Mesin SQL Native-GPU

Bacaan terkait

1 komentar