Tuplex - Framework Pemrosesan Big Data Paralel
(github.com)- Menyediakan API Python yang mirip dengan Apache Spark / Dask, tetapi
→ tidak memanggil interpreter Python
→ menghasilkan bytecode LLVM yang dioptimalkan untuk pipeline dan dataset input yang diberikan
→ 5~91x lebih cepat dibanding interpreter
-
Secara internal berbasis kompilasi data-driven dan pemrosesan mode ganda, sehingga memberikan kecepatan yang mirip dengan pipeline yang dikodekan dan dioptimalkan dalam C++
-
Mendukung MacOS / Linux
-
Makalah "Tuplex: Data Science in Python at Native Code Speed" yang dipresentasikan di SIGMOD '21
Belum ada komentar.