10 poin oleh xguru 2025-07-03 | 1 komentar | Bagikan ke WhatsApp
  • Mesin generasi berikutnya yang dioptimalkan untuk mempercepat kueri SQL dengan memanfaatkan perangkat keras GPU terbaru
  • Melalui format kueri Substrait, kueri yang dibuat di mesin CPU (DuckDB) diteruskan ke lingkungan GPU (Sirius)
  • Di dalam memori GPU, Raw Data Cache Region dan Processing Region dipisahkan untuk memaksimalkan performa pemuatan dan pemrosesan data
  • Tanpa modifikasi kueri atau perubahan sistem, mencatat kecepatan lebih dari 10x dengan biaya yang sama pada skala TPC-H 100
  • Optimal untuk workload data berskala besar seperti analitik real-time, keuangan, dan ETL
  • Lingkungan yang didukung: Ubuntu 20.04+, GPU NVIDIA Volta(7.0+) atau lebih tinggi, CUDA 11.2+, CMake 3.30.4 atau lebih tinggi (disarankan 16 vCPU atau lebih)
  • Metode instalasi: tersedia 3 opsi, yaitu AWS AMI (image yang sudah dikonfigurasi), image Docker, dan instalasi dependensi manual
    • Docker: sudo docker run --gpus all -it yifeiyang7/sirius_dependencies:latest bash
    • Manual: perlu memasang dependensi DuckDB, CUDA, libcudf (dipasang dengan conda), dan lainnya secara terpisah
  • Batasan utama
    • Hanya berjalan dalam kapasitas memori GPU (dukungan partisi/batch, disk spill, dan multi-GPU direncanakan ke depan)
    • Jumlah baris maksimum dibatasi oleh batas int32_t libcudf (~2 miliar baris)
    • Tipe data: mendukung INTEGER, BIGINT, FLOAT, DOUBLE, VARCHAR, DATE, DECIMAL; tipe tambahan sedang dikembangkan
    • Operator: mendukung FILTER, PROJECTION, JOIN, GROUP-BY, ORDER-BY, AGGREGATION, TOP-N, LIMIT, CTE; fungsi WINDOW dan lainnya sedang dikembangkan
    • Kolom Partially NULL belum didukung (patch direncanakan di masa mendatang)
    • Jika terjadi masalah, otomatis fallback ke mesin CPU DuckDB