- Buku pegangan online yang membahas alat dan teknik inti untuk data science berbasis Python, dengan seluruh isinya tersedia secara terbuka di situs web dan GitHub
- Disediakan dalam format notebook Jupyter sehingga memungkinkan pembelajaran berbasis praktik, dengan kode dan teks disertakan bersama
- Teks didistribusikan dengan lisensi CC-BY-NC-ND, dan contoh kode dengan lisensi MIT, sehingga dapat dimanfaatkan secara bebas untuk penggunaan nonkomersial
- Membahas secara sistematis library inti untuk analisis data dan machine learning seperti IPython, NumPy, Pandas, Matplotlib, dan Scikit-Learn
- Merupakan sumber yang berguna bagi pemula hingga praktisi data science untuk mempelajari workflow standar ekosistem Python
Gambaran umum
- Situs ini memuat seluruh isi 『Python Data Science Handbook』 karya Jake VanderPlas
- Buku aslinya diterbitkan oleh O’Reilly, dan versi webnya tersedia gratis
- Seluruh konten disediakan dalam bentuk notebook Jupyter di repositori GitHub
- Teks didistribusikan dengan lisensi CC-BY-NC-ND, dan contoh kode dengan lisensi MIT
- Penggunaan nonkomersial dan penggunaan ulang kode dimungkinkan
- Jika pembaca merasa buku ini bermanfaat, mereka dapat mendukung penulis dengan membeli edisi aslinya
Struktur daftar isi
- Buku ini terdiri dari total 5 bab utama dan lampiran
Bab 1: IPython – Melampaui Python biasa
- Menjelaskan fitur dan cara penggunaan lingkungan IPython
- Termasuk sistem bantuan, pintasan keyboard, magic command, integrasi perintah shell, dan lainnya
- Membahas riwayat eksekusi kode, debugging, dan fitur pengukuran performa
Bab 2: Pengenalan NumPy
- Membahas dasar-dasar komputasi numerik menggunakan array NumPy
- Termasuk tipe data, broadcasting, boolean mask, sorting, structured array, dan lainnya
- Menjelaskan cara memanfaatkan operasi berbasis array dan fungsi agregasi
Bab 3: Manipulasi data dengan Pandas
- Membahas objek inti dan fitur pemrosesan data dari Pandas
- Termasuk indexing, penanganan missing value, grouping, pivot table, pemrosesan time series, dan lainnya
- Juga memperkenalkan fitur komputasi berkinerja tinggi melalui
eval() dan query()
Bab 4: Visualisasi dengan Matplotlib
- Menjelaskan cara visualisasi data menggunakan Matplotlib dan Seaborn
- Termasuk berbagai jenis grafik seperti line plot, scatter plot, histogram, density plot, dan lainnya
- Membahas fitur lanjutan seperti legend, color bar, stylesheet, grafik 3D, dan visualisasi data geografis
Bab 5: Machine learning
- Membahas konsep dasar dan algoritme machine learning dengan fokus pada Scikit-Learn
- Termasuk prosedur inti seperti hyperparameter, validasi model, dan feature engineering
- Menjelaskan model-model utama seperti Naive Bayes, regresi linear, SVM, random forest, PCA, k-means, dan GMM
- Menyajikan contoh pipeline pengenalan wajah sebagai kasus aplikasi nyata
Lampiran: Kode gambar
- Menyediakan kumpulan kode visualisasi yang digunakan di isi buku
- Memungkinkan setiap gambar direproduksi dan dimodifikasi
Signifikansi penggunaan
- Memberikan pemahaman terpadu tentang ekosistem Python bagi para pembelajar data science
- Dapat dimanfaatkan untuk pendidikan, riset, dan prototyping melalui format notebook yang bisa langsung dipraktikkan
- Dirilis dengan lisensi open source sehingga memudahkan ekspansi berkelanjutan dan kontribusi komunitas
2 komentar
https://product.kyobobook.co.kr/detail/S000201558138
Analisis data menggunakan library Python
Ini buku yang ditulis oleh Wes McKinney, pembuat pandas, dan buku ini juga bagus sebagai buku pengantar data science. Saya membaca buku ini saat edisi keduanya pertama kali terbit... sekarang setelah saya cari lagi, ternyata edisi ketiganya sudah terbit.
Opini Hacker News
Sangat menyukai ceramah Statistics for Hackers oleh Jake VanderPlas
Lihat materi presentasi
Misalnya, jika prevalensi penyakit adalah 1/10.000 dan akurasi tes 99%, hasil positif tidak berarti ada peluang 99% bahwa orang tersebut benar-benar sakit
Buku seperti ini selalu menarik
Buku ini membahas berbagai topik seperti manipulasi data, visualisasi, dan machine learning secara luas tapi dangkal, padahal masing-masing topik itu sendiri bisa menjadi satu buku penuh
Sulit menyeimbangkan pengajaran pemrograman dengan pengenalan konsep dan teori, tetapi buku ini tampaknya mencapai keseimbangan yang baik sebagai buku pengantar
Buku ini benar-benar sangat berguna saat mulai belajar data science pada 2017~2018
Jake adalah pengajar yang hebat
Menarik bahwa Pandas yang dipilih dari sudut pandang masa kini
Mungkin fokusnya lebih pada penyampaian konsep umum daripada tool terbaru
Di pekerjaan pertama saya, saya merujuk ke blog tentang Kernel Density Estimation (KDE), dan itu sangat berguna
Sejak saat itu saya menyukai karya Jake
Versi online buku ini tersedia di learningds.org
Lisensinya adalah CC-BY-NC-ND
Saya kurang paham alasan orang membenci Pandas
Ini memang bukan tool yang sempurna, tetapi di codebase kami ada ribuan baris kode Pandas dan hampir tidak pernah menyebabkan bug produksi
Kami juga menjalankan Pandas secara stabil dengan wrapper skema statis dan type checker
Dia adalah penulis yang hebat, dan saya merindukan blognya
Tulisan tentang pivot table sangat berkesan, dan sepertinya sekarang isinya sudah dimasukkan ke dalam buku
Bisa dilihat di situs resmi Altair
Buku ini ditulis 8 tahun lalu, tetapi ada edisi kedua dari penulis yang sama
Tertulis “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
Bisa dibandingkan dengan edisi 2016 dari tautan asli
Saat belajar data science pada 2020~2021, ini adalah salah satu dari sedikit buku yang benar-benar saya baca tuntas dari awal sampai akhir
Sampai sekarang pun masih layak direkomendasikan