- Library implementasi C murni tingkat produksi yang dikembangkan untuk mendukung format Apache Parquet secara langsung di lingkungan C
- Ditulis berbasis standar C11, sehingga berjalan tanpa runtime C++ atau penanganan exception, dan hanya menggunakan zstd dan zlib sebagai dependensi eksternal
- Cocok untuk pemrosesan data di lingkungan terbatas seperti sistem embedded, IoT, mikrokontroler, dan lingkungan legacy
- Dengan ukuran biner sekitar 200KB, build ini lebih kecil lebih dari 50MB dan lebih ringan dibanding Apache Arrow
- Mendukung berbagai arsitektur melalui optimisasi SIMD (SSE4.2, AVX2, AVX-512, NEON, SVE) serta fitur deteksi otomatis saat runtime
- Mendukung semua tipe fisik (BOOLEAN, INT32, DOUBLE, dll.) serta berbagai encoding dan codec kompresi (ZSTD, LZ4, SNAPPY, GZIP)
- Mendukung penanganan urutan byte yang benar bahkan pada sistem Big-Endian (s390x, SPARC, PowerPC, dll.)
- Menyertakan fitur produksi seperti kolom nullable, skema nested dasar, verifikasi halaman CRC32, statistik kolom, memory-mapped I/O, dan pembacaan paralel OpenMP
- Dengan streaming API, file berukuran besar dapat diproses tanpa harus memuat seluruh isi ke memori
- Sepenuhnya kompatibel dengan PyArrow, mendukung baca-tulis timbal balik dengan lingkungan Python
- Dibandingkan dengan Apache Arrow
- Kecepatan tulis 1.5~5x lebih cepat di lingkungan ARM, dan kecepatan baca juga meningkat hingga 1.3x
- Di lingkungan x86, kecepatan baca sedikit lebih lambat, tetapi ukuran file sekitar 1.4x lebih kecil
- Minim dependensi, build lebih sederhana, dan kemudahan integrasi di lingkungan khusus C adalah keunggulan utamanya
- Tipe nested yang kompleks, enkripsi, dan dekompresi ZSTD multithread belum didukung
- Telah diverifikasi lewat pengujian interoperabilitas dengan PyArrow, DuckDB, fastparquet
- File yang dibuat Carquet dapat langsung dibaca juga di Spark, DuckDB
- Mendukung Linux, macOS, Windows, dan sistem POSIX
- Lisensi MIT
Belum ada komentar.