- Alat berbasis Rust untuk memproses file CSV berukuran besar di terminal dengan cepat dan efisien
- Selain berbagai fitur manipulasi data, juga mendukung tampilan, visualisasi, analisis, web scraping, pemrosesan teks, hingga analisis jaringan
- Secara internal memanfaatkan multithreading, bahasa ekspresi, dan pemrosesan paralel untuk performa tinggi
- Bahkan file CSV superbesar (skala gigabita) dapat diproses tanpa masalah
- Menyediakan bahasa ekspresi khusus yang jauh lebih cepat daripada Python atau Lua
- Dengan perangkaian perintah tunggal, alur data yang kompleks dapat diwujudkan
- Mulai dari statistik sederhana hingga visualisasi dasar seperti heatmap dan histogram
- Mencakup fitur lanjutan untuk peneliti ilmu sosial dan analisis data web
- Mendukung Linux, macOS, dan Windows
- Mengenali otomatis berbagai format seperti
.tsv, .psv, .ssv, .gz
Contoh perintah inti
-
Eksplorasi
xan headers: menampilkan daftar kolom
xan view: melihat dalam bentuk tabel di terminal
xan flatten: menampilkan semua nilai dalam satu baris secara terbuka
xan hist, xan plot, xan heatmap: fitur visualisasi
-
Pemfilteran & pencarian
xan search -s 키워드 파일.csv: mencari baris yang memuat kata kunci tertentu
xan filter '조건식' 파일.csv: memfilter baris dengan ekspresi
-
Transformasi
xan select: memilih kolom
xan map: membuat kolom baru dengan ekspresi
xan transform: mengubah kolom yang ada dengan ekspresi
-
Agregasi dan analisis
xan count: menghitung jumlah baris
xan frequency: membuat tabel frekuensi
xan stats: menampilkan statistik deskriptif
xan agg: agregasi kustom
xan groupby: melakukan agregasi per grup
-
Pengurutan & penghapusan duplikasi
xan sort -s 컬럼: mengurutkan
xan dedup -s 컬럼: menghapus duplikasi
-
Penggabungan
xan join: join berdasarkan kunci
xan merge: menggabungkan file yang sudah diurutkan
xan cat: menggabungkan berdasarkan baris atau kolom
-
Bahasa ekspresi
xan map 'fmt("{} ({})", name, foundation_year)' key
xan filter 'batch > 1'
xan transform name 'split(name, ".") | first | upper'
- Bahasa ekspresi adalah DSL ringan yang dioptimalkan untuk manipulasi CSV; lihat lembar contekan, daftar fungsi, dan daftar fungsi agregasi di dokumentasi resmi
-
Fitur visualisasi
xan hist: histogram berbasis teks
xan plot: scatter plot/grafik garis
xan heatmap: heatmap korelasi
xan view -p: menampilkan seluruh tabel di terminal
Fitur lanjutan
- Dukungan penuh untuk pipeline input/output standar
- Penanganan otomatis file terkompresi gzip
- DSL scraping bawaan (konversi HTML → CSV)
- Mendukung lexicometry, fuzzy matching:
tokenize, vocab, cluster
- Transformasi jaringan/matriks:
network, matrix
1 komentar
Saya sempat berpikir bagaimana ini bisa diterapkan, tetapi bahkan hanya menggunakan
sortataudropsaja sudah cukup bermakna.