43 poin oleh GN⁺ 2025-12-04 | 2 komentar | Bagikan ke WhatsApp
  • Buku pegangan online yang membahas alat dan teknik inti untuk data science berbasis Python, dengan seluruh isinya tersedia secara terbuka di situs web dan GitHub
  • Disediakan dalam format notebook Jupyter sehingga memungkinkan pembelajaran berbasis praktik, dengan kode dan teks disertakan bersama
  • Teks didistribusikan dengan lisensi CC-BY-NC-ND, dan contoh kode dengan lisensi MIT, sehingga dapat dimanfaatkan secara bebas untuk penggunaan nonkomersial
  • Membahas secara sistematis library inti untuk analisis data dan machine learning seperti IPython, NumPy, Pandas, Matplotlib, dan Scikit-Learn
  • Merupakan sumber yang berguna bagi pemula hingga praktisi data science untuk mempelajari workflow standar ekosistem Python

Gambaran umum

  • Situs ini memuat seluruh isi 『Python Data Science Handbook』 karya Jake VanderPlas
    • Buku aslinya diterbitkan oleh O’Reilly, dan versi webnya tersedia gratis
    • Seluruh konten disediakan dalam bentuk notebook Jupyter di repositori GitHub
  • Teks didistribusikan dengan lisensi CC-BY-NC-ND, dan contoh kode dengan lisensi MIT
    • Penggunaan nonkomersial dan penggunaan ulang kode dimungkinkan
  • Jika pembaca merasa buku ini bermanfaat, mereka dapat mendukung penulis dengan membeli edisi aslinya

Struktur daftar isi

  • Buku ini terdiri dari total 5 bab utama dan lampiran

Bab 1: IPython – Melampaui Python biasa

  • Menjelaskan fitur dan cara penggunaan lingkungan IPython
    • Termasuk sistem bantuan, pintasan keyboard, magic command, integrasi perintah shell, dan lainnya
    • Membahas riwayat eksekusi kode, debugging, dan fitur pengukuran performa

Bab 2: Pengenalan NumPy

  • Membahas dasar-dasar komputasi numerik menggunakan array NumPy
    • Termasuk tipe data, broadcasting, boolean mask, sorting, structured array, dan lainnya
    • Menjelaskan cara memanfaatkan operasi berbasis array dan fungsi agregasi

Bab 3: Manipulasi data dengan Pandas

  • Membahas objek inti dan fitur pemrosesan data dari Pandas
    • Termasuk indexing, penanganan missing value, grouping, pivot table, pemrosesan time series, dan lainnya
    • Juga memperkenalkan fitur komputasi berkinerja tinggi melalui eval() dan query()

Bab 4: Visualisasi dengan Matplotlib

  • Menjelaskan cara visualisasi data menggunakan Matplotlib dan Seaborn
    • Termasuk berbagai jenis grafik seperti line plot, scatter plot, histogram, density plot, dan lainnya
    • Membahas fitur lanjutan seperti legend, color bar, stylesheet, grafik 3D, dan visualisasi data geografis

Bab 5: Machine learning

  • Membahas konsep dasar dan algoritme machine learning dengan fokus pada Scikit-Learn
    • Termasuk prosedur inti seperti hyperparameter, validasi model, dan feature engineering
    • Menjelaskan model-model utama seperti Naive Bayes, regresi linear, SVM, random forest, PCA, k-means, dan GMM
    • Menyajikan contoh pipeline pengenalan wajah sebagai kasus aplikasi nyata

Lampiran: Kode gambar

  • Menyediakan kumpulan kode visualisasi yang digunakan di isi buku
    • Memungkinkan setiap gambar direproduksi dan dimodifikasi

Signifikansi penggunaan

  • Memberikan pemahaman terpadu tentang ekosistem Python bagi para pembelajar data science
  • Dapat dimanfaatkan untuk pendidikan, riset, dan prototyping melalui format notebook yang bisa langsung dipraktikkan
  • Dirilis dengan lisensi open source sehingga memudahkan ekspansi berkelanjutan dan kontribusi komunitas

2 komentar

 
aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Analisis data menggunakan library Python
Ini buku yang ditulis oleh Wes McKinney, pembuat pandas, dan buku ini juga bagus sebagai buku pengantar data science. Saya membaca buku ini saat edisi keduanya pertama kali terbit... sekarang setelah saya cari lagi, ternyata edisi ketiganya sudah terbit.

 
GN⁺ 2025-12-04
Opini Hacker News
  • Sangat menyukai ceramah Statistics for Hackers oleh Jake VanderPlas
    Lihat materi presentasi

    • Terima kasih sudah membagikannya. Ini mengingatkan bahwa berpikir dalam frekuensi alih-alih probabilitas bisa sangat mengurangi kesalahan
      Misalnya, jika prevalensi penyakit adalah 1/10.000 dan akurasi tes 99%, hasil positif tidak berarti ada peluang 99% bahwa orang tersebut benar-benar sakit
  • Buku seperti ini selalu menarik
    Buku ini membahas berbagai topik seperti manipulasi data, visualisasi, dan machine learning secara luas tapi dangkal, padahal masing-masing topik itu sendiri bisa menjadi satu buku penuh
    Sulit menyeimbangkan pengajaran pemrograman dengan pengenalan konsep dan teori, tetapi buku ini tampaknya mencapai keseimbangan yang baik sebagai buku pengantar

  • Buku ini benar-benar sangat berguna saat mulai belajar data science pada 2017~2018
    Jake adalah pengajar yang hebat

  • Menarik bahwa Pandas yang dipilih dari sudut pandang masa kini
    Mungkin fokusnya lebih pada penyampaian konsep umum daripada tool terbaru

    • Karena buku ini awalnya terbit pada 2016, kemungkinan besar ini masih edisi pertama
    • Menurut saya Pandas masih menjadi standar industri. Polars dan Spark lebih berfokus pada performa data engineering, dan kurang cocok untuk mencakup keseluruhan data science
    • Karena bukunya sudah cukup lama, mungkin istilah “masa kini” kurang tepat
    • Saya tidak begitu paham apa masalahnya dengan Pandas
  • Di pekerjaan pertama saya, saya merujuk ke blog tentang Kernel Density Estimation (KDE), dan itu sangat berguna
    Sejak saat itu saya menyukai karya Jake

  • Versi online buku ini tersedia di learningds.org
    Lisensinya adalah CC-BY-NC-ND

  • Saya kurang paham alasan orang membenci Pandas
    Ini memang bukan tool yang sempurna, tetapi di codebase kami ada ribuan baris kode Pandas dan hampir tidak pernah menyebabkan bug produksi
    Kami juga menjalankan Pandas secara stabil dengan wrapper skema statis dan type checker

    • Penasaran apakah itu wrapper skema buatan sendiri, atau ada paket di PyPI yang layak direkomendasikan
  • Dia adalah penulis yang hebat, dan saya merindukan blognya
    Tulisan tentang pivot table sangat berkesan, dan sepertinya sekarang isinya sudah dimasukkan ke dalam buku

    • Dia juga pembuat library visualisasi Python Altair (berbasis Vega-Lite)
      Bisa dilihat di situs resmi Altair
  • Buku ini ditulis 8 tahun lalu, tetapi ada edisi kedua dari penulis yang sama

    • Ada versi notebook edisi kedua di repositori GitHub
      Tertulis “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
      Bisa dibandingkan dengan edisi 2016 dari tautan asli
  • Saat belajar data science pada 2020~2021, ini adalah salah satu dari sedikit buku yang benar-benar saya baca tuntas dari awal sampai akhir
    Sampai sekarang pun masih layak direkomendasikan