- Library data frame Python modern yang dirancang untuk AI
- Dibuat untuk menyusun data tidak terstruktur menjadi dataset dan melakukan wrangling dalam skala besar di mesin lokal
- Terintegrasi dengan postmodern data stack tanpa mengabstraksikan atau menyembunyikan model AI dan pemanggilan API
Fitur utama
- Repositori source of truth
- Memproses data tidak terstruktur di S3, GCP, Azure, dan sistem file lokal tanpa salinan duplikat
- Mendukung data multimodal: gambar, video, teks, PDF, JSON, CSV, parquet, dan lainnya
- Menggabungkan file dan metadata menjadi dataset persisten, berversi, dan berbasis kolom
- Pipeline data yang ramah Python
- Bekerja dengan objek Python dan field objek
- Paralelisasi bawaan dan operasi out-of-memory tanpa SQL atau Spark
- Pengayaan (Enrichment) dan pemrosesan data
- Menghasilkan metadata menggunakan model AI lokal dan API LLM
- Memfilter, join, dan mengelompokkan berdasarkan metadata. Mencari dengan vector embedding
- Meneruskan dataset ke Pytorch atau Tensorflow, atau mengekspornya kembali ke repositori
- Efisiensi
- Paralelisasi, pekerjaan out-of-memory, dan caching data
- Operasi tervektorisasi pada field objek Python: jumlah, hitung, rata-rata, dan lainnya
- Pencarian vektor yang dioptimalkan
Belum ada komentar.