Koheesio - Framework open source dari Nike untuk membangun pipeline data

xguru · 2024-06-05T09:37:10+09:00

Framework Python untuk membangun pipeline data yang efisien Mendorong modularitas dan kolaborasi, sehingga memungkinkan pembuatan pipeline yang kompleks dengan komponen yang sederhana dan dapat digunakan ulang Dirancang agar bekerja mulus dengan berbagai pustaka atau framework pemrosesan data Menggunakan Pydantic untuk menyediakan pemeriksaan tipe yang kuat, validasi data, dan manajemen konfigurasi Menjamin eksekusi pipeline yang dapat diprediksi melalui kode yang telah teruji dengan baik dan kumpulan fitur yang kaya Perbedaan Koheesio dari pustaka lain Dirancang secara khusus untuk pipeline data, integrasi PySpark, transformasi data, tugas ETL, validasi data, dan pemrosesan data skala besar Menyediakan kemampuan Reader, Writer, dan Transformation untuk semua jenis tugas pemrosesan data Mendorong kolaborasi dan inovasi di dalam komunitas data engineering Komponen inti Koheesio Step: unit kerja dasar di Koheesio yang merepresentasikan satu tugas tunggal dalam pipeline data. Menerima input dan menghasilkan output Context: kelas konfigurasi yang menetapkan lingkungan kerja. Dapat berbagi variabel antar tugas dan menyesuaikan perilaku tugas sesuai lingkungan Logger: kelas yang mencatat pesan pada berbagai tingkat

(github.com/Nike-Inc)

9 poin oleh xguru 2024-06-05 | 1 komentar | Bagikan ke WhatsApp

Framework Python untuk membangun pipeline data yang efisien
Mendorong modularitas dan kolaborasi, sehingga memungkinkan pembuatan pipeline yang kompleks dengan komponen yang sederhana dan dapat digunakan ulang
Dirancang agar bekerja mulus dengan berbagai pustaka atau framework pemrosesan data
Menggunakan Pydantic untuk menyediakan pemeriksaan tipe yang kuat, validasi data, dan manajemen konfigurasi
Menjamin eksekusi pipeline yang dapat diprediksi melalui kode yang telah teruji dengan baik dan kumpulan fitur yang kaya

Perbedaan Koheesio dari pustaka lain

Dirancang secara khusus untuk pipeline data, integrasi PySpark, transformasi data, tugas ETL, validasi data, dan pemrosesan data skala besar
Menyediakan kemampuan Reader, Writer, dan Transformation untuk semua jenis tugas pemrosesan data
Mendorong kolaborasi dan inovasi di dalam komunitas data engineering

Komponen inti Koheesio

Step: unit kerja dasar di Koheesio yang merepresentasikan satu tugas tunggal dalam pipeline data. Menerima input dan menghasilkan output
Context: kelas konfigurasi yang menetapkan lingkungan kerja. Dapat berbagi variabel antar tugas dan menyesuaikan perilaku tugas sesuai lingkungan
Logger: kelas yang mencatat pesan pada berbagai tingkat

1 komentar

xguru 2024-06-06

Komentar Hacker News

Saya penasaran seperti apa data engineering di Nike sebenarnya. Saya sering menerima tawaran kerja kontrak bergaji rendah karena profil LinkedIn saya. Peran-peran ini ditujukan untuk orang yang berpengalaman di AS, tetapi kompensasinya rendah. Bisa jadi peran-peran ini juga penipuan.
Alat ini bisa berguna di lingkungan dengan banyak pengembang yang kurang berpengalaman. Ada 2-3 pengembang yang membuat alat, lalu tim yang lebih besar mengerjakan tugas ETL yang sederhana. Tim alat menanggung beban untuk menangani kebutuhan baru.
Strong typing menghambat masalah data engineering. Bahasa dinamis membantu mengurangi kompleksitas kode dan beban pemeliharaan. Bersikeras memakai framework bertipe lebih didasarkan pada pengalaman akademis daripada pengalaman industri.
Saya pernah menangani ETL, Spark, Storm, dan lainnya, tetapi saya tidak memahami value proposition dari library ini. Saya bukan spesialis data engineering, tetapi saya berharap alat ini akan berguna.
Perlu penjelasan yang lebih baik tentang apa alat ini dan mengapa harus dipakai. Lihat tautan.
Beberapa minggu lalu saya menulis pipeline data menggunakan Apache Beam. Koheesio memiliki beberapa fungsi yang sama, tetapi Apache Beam lebih unggul.
Mirip Luigi. Bagus!
Saya merekomendasikan untuk melihat CloudQuery. Itu framework ELT berbasis Arrow. (Penulisnya adalah saya sendiri)
Koheesio bilang tidak bersaing dengan library lain, tetapi pada kenyataannya tetap bersaing. Orkestrasi workflow adalah kategori yang sudah matang. Menggunakan Python bukanlah keunggulan besar.
Saya penasaran apakah mereka sudah melihat library dlt. Library itu menyediakan EL yang mudah digunakan di Python. Saya ingin tahu perbedaan antara Koheesio dan dlt serta apakah keduanya bisa saling melengkapi.