10 poin oleh xguru 2025-04-09 | 1 komentar | Bagikan ke WhatsApp
  • Alat berbasis Rust untuk memproses file CSV berukuran besar di terminal dengan cepat dan efisien
  • Selain berbagai fitur manipulasi data, juga mendukung tampilan, visualisasi, analisis, web scraping, pemrosesan teks, hingga analisis jaringan
  • Secara internal memanfaatkan multithreading, bahasa ekspresi, dan pemrosesan paralel untuk performa tinggi
  • Bahkan file CSV superbesar (skala gigabita) dapat diproses tanpa masalah
  • Menyediakan bahasa ekspresi khusus yang jauh lebih cepat daripada Python atau Lua
  • Dengan perangkaian perintah tunggal, alur data yang kompleks dapat diwujudkan
  • Mulai dari statistik sederhana hingga visualisasi dasar seperti heatmap dan histogram
  • Mencakup fitur lanjutan untuk peneliti ilmu sosial dan analisis data web
  • Mendukung Linux, macOS, dan Windows
  • Mengenali otomatis berbagai format seperti .tsv, .psv, .ssv, .gz

Contoh perintah inti

  • Eksplorasi

    • xan headers: menampilkan daftar kolom
    • xan view: melihat dalam bentuk tabel di terminal
    • xan flatten: menampilkan semua nilai dalam satu baris secara terbuka
    • xan hist, xan plot, xan heatmap: fitur visualisasi
  • Pemfilteran & pencarian

    • xan search -s 키워드 파일.csv: mencari baris yang memuat kata kunci tertentu
    • xan filter '조건식' 파일.csv: memfilter baris dengan ekspresi
  • Transformasi

    • xan select: memilih kolom
    • xan map: membuat kolom baru dengan ekspresi
    • xan transform: mengubah kolom yang ada dengan ekspresi
  • Agregasi dan analisis

    • xan count: menghitung jumlah baris
    • xan frequency: membuat tabel frekuensi
    • xan stats: menampilkan statistik deskriptif
    • xan agg: agregasi kustom
    • xan groupby: melakukan agregasi per grup
  • Pengurutan & penghapusan duplikasi

    • xan sort -s 컬럼: mengurutkan
    • xan dedup -s 컬럼: menghapus duplikasi
  • Penggabungan

    • xan join: join berdasarkan kunci
    • xan merge: menggabungkan file yang sudah diurutkan
    • xan cat: menggabungkan berdasarkan baris atau kolom
  • Bahasa ekspresi

    • xan map 'fmt("{} ({})", name, foundation_year)' key
    • xan filter 'batch > 1'
    • xan transform name 'split(name, ".") | first | upper'
    • Bahasa ekspresi adalah DSL ringan yang dioptimalkan untuk manipulasi CSV; lihat lembar contekan, daftar fungsi, dan daftar fungsi agregasi di dokumentasi resmi
  • Fitur visualisasi

    • xan hist: histogram berbasis teks
    • xan plot: scatter plot/grafik garis
    • xan heatmap: heatmap korelasi
    • xan view -p: menampilkan seluruh tabel di terminal

Fitur lanjutan

  • Dukungan penuh untuk pipeline input/output standar
  • Penanganan otomatis file terkompresi gzip
  • DSL scraping bawaan (konversi HTML → CSV)
  • Mendukung lexicometry, fuzzy matching: tokenize, vocab, cluster
  • Transformasi jaringan/matriks: network, matrix

1 komentar

 
halfenif 2025-04-09

Saya sempat berpikir bagaimana ini bisa diterapkan, tetapi bahkan hanya menggunakan sort atau drop saja sudah cukup bermakna.