Buku Pegangan Data Science Python

(jakevdp.github.io)

43 poin oleh GN⁺ 2025-12-04 | 2 komentar | Bagikan ke WhatsApp

Buku pegangan online yang membahas alat dan teknik inti untuk data science berbasis Python, dengan seluruh isinya tersedia secara terbuka di situs web dan GitHub
Disediakan dalam format notebook Jupyter sehingga memungkinkan pembelajaran berbasis praktik, dengan kode dan teks disertakan bersama
Teks didistribusikan dengan lisensi CC-BY-NC-ND, dan contoh kode dengan lisensi MIT, sehingga dapat dimanfaatkan secara bebas untuk penggunaan nonkomersial
Membahas secara sistematis library inti untuk analisis data dan machine learning seperti IPython, NumPy, Pandas, Matplotlib, dan Scikit-Learn
Merupakan sumber yang berguna bagi pemula hingga praktisi data science untuk mempelajari workflow standar ekosistem Python

Gambaran umum

Situs ini memuat seluruh isi 『Python Data Science Handbook』 karya Jake VanderPlas
- Buku aslinya diterbitkan oleh O’Reilly, dan versi webnya tersedia gratis
- Seluruh konten disediakan dalam bentuk notebook Jupyter di repositori GitHub
Teks didistribusikan dengan lisensi CC-BY-NC-ND, dan contoh kode dengan lisensi MIT
- Penggunaan nonkomersial dan penggunaan ulang kode dimungkinkan
Jika pembaca merasa buku ini bermanfaat, mereka dapat mendukung penulis dengan membeli edisi aslinya

Struktur daftar isi

Buku ini terdiri dari total 5 bab utama dan lampiran

Bab 1: IPython – Melampaui Python biasa

Menjelaskan fitur dan cara penggunaan lingkungan IPython
- Termasuk sistem bantuan, pintasan keyboard, magic command, integrasi perintah shell, dan lainnya
- Membahas riwayat eksekusi kode, debugging, dan fitur pengukuran performa

Bab 2: Pengenalan NumPy

Membahas dasar-dasar komputasi numerik menggunakan array NumPy
- Termasuk tipe data, broadcasting, boolean mask, sorting, structured array, dan lainnya
- Menjelaskan cara memanfaatkan operasi berbasis array dan fungsi agregasi

Bab 3: Manipulasi data dengan Pandas

Membahas objek inti dan fitur pemrosesan data dari Pandas
- Termasuk indexing, penanganan missing value, grouping, pivot table, pemrosesan time series, dan lainnya
- Juga memperkenalkan fitur komputasi berkinerja tinggi melalui eval() dan query()

Bab 4: Visualisasi dengan Matplotlib

Menjelaskan cara visualisasi data menggunakan Matplotlib dan Seaborn
- Termasuk berbagai jenis grafik seperti line plot, scatter plot, histogram, density plot, dan lainnya
- Membahas fitur lanjutan seperti legend, color bar, stylesheet, grafik 3D, dan visualisasi data geografis

Bab 5: Machine learning

Membahas konsep dasar dan algoritme machine learning dengan fokus pada Scikit-Learn
- Termasuk prosedur inti seperti hyperparameter, validasi model, dan feature engineering
- Menjelaskan model-model utama seperti Naive Bayes, regresi linear, SVM, random forest, PCA, k-means, dan GMM
- Menyajikan contoh pipeline pengenalan wajah sebagai kasus aplikasi nyata

Lampiran: Kode gambar

Menyediakan kumpulan kode visualisasi yang digunakan di isi buku
- Memungkinkan setiap gambar direproduksi dan dimodifikasi

Signifikansi penggunaan

Memberikan pemahaman terpadu tentang ekosistem Python bagi para pembelajar data science
Dapat dimanfaatkan untuk pendidikan, riset, dan prototyping melalui format notebook yang bisa langsung dipraktikkan
Dirilis dengan lisensi open source sehingga memudahkan ekspansi berkelanjutan dan kontribusi komunitas

2 komentar

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Analisis data menggunakan library Python
Ini buku yang ditulis oleh Wes McKinney, pembuat pandas, dan buku ini juga bagus sebagai buku pengantar data science. Saya membaca buku ini saat edisi keduanya pertama kali terbit... sekarang setelah saya cari lagi, ternyata edisi ketiganya sudah terbit.

GN⁺ 2025-12-04

Opini Hacker News

Sangat menyukai ceramah Statistics for Hackers oleh Jake VanderPlas
Lihat materi presentasi
- Terima kasih sudah membagikannya. Ini mengingatkan bahwa berpikir dalam frekuensi alih-alih probabilitas bisa sangat mengurangi kesalahan
  Misalnya, jika prevalensi penyakit adalah 1/10.000 dan akurasi tes 99%, hasil positif tidak berarti ada peluang 99% bahwa orang tersebut benar-benar sakit
Buku seperti ini selalu menarik
Buku ini membahas berbagai topik seperti manipulasi data, visualisasi, dan machine learning secara luas tapi dangkal, padahal masing-masing topik itu sendiri bisa menjadi satu buku penuh
Sulit menyeimbangkan pengajaran pemrograman dengan pengenalan konsep dan teori, tetapi buku ini tampaknya mencapai keseimbangan yang baik sebagai buku pengantar
Buku ini benar-benar sangat berguna saat mulai belajar data science pada 2017~2018
Jake adalah pengajar yang hebat
Menarik bahwa Pandas yang dipilih dari sudut pandang masa kini
Mungkin fokusnya lebih pada penyampaian konsep umum daripada tool terbaru
- Karena buku ini awalnya terbit pada 2016, kemungkinan besar ini masih edisi pertama
- Menurut saya Pandas masih menjadi standar industri. Polars dan Spark lebih berfokus pada performa data engineering, dan kurang cocok untuk mencakup keseluruhan data science
- Karena bukunya sudah cukup lama, mungkin istilah “masa kini” kurang tepat
- Saya tidak begitu paham apa masalahnya dengan Pandas
Di pekerjaan pertama saya, saya merujuk ke blog tentang Kernel Density Estimation (KDE), dan itu sangat berguna
Sejak saat itu saya menyukai karya Jake
Versi online buku ini tersedia di learningds.org
Lisensinya adalah CC-BY-NC-ND
Saya kurang paham alasan orang membenci Pandas
Ini memang bukan tool yang sempurna, tetapi di codebase kami ada ribuan baris kode Pandas dan hampir tidak pernah menyebabkan bug produksi
Kami juga menjalankan Pandas secara stabil dengan wrapper skema statis dan type checker
- Penasaran apakah itu wrapper skema buatan sendiri, atau ada paket di PyPI yang layak direkomendasikan
Dia adalah penulis yang hebat, dan saya merindukan blognya
Tulisan tentang pivot table sangat berkesan, dan sepertinya sekarang isinya sudah dimasukkan ke dalam buku
- Dia juga pembuat library visualisasi Python Altair (berbasis Vega-Lite)
  Bisa dilihat di situs resmi Altair
Buku ini ditulis 8 tahun lalu, tetapi ada edisi kedua dari penulis yang sama
- Ada versi notebook edisi kedua di repositori GitHub
  Tertulis “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
  Bisa dibandingkan dengan edisi 2016 dari tautan asli
Saat belajar data science pada 2020~2021, ini adalah salah satu dari sedikit buku yang benar-benar saya baca tuntas dari awal sampai akhir
Sampai sekarang pun masih layak direkomendasikan