Pengantar Visual ke Machine Learning (2015)

(r2d3.us)

6 poin oleh GN⁺ 2026-03-16 | 1 komentar | Bagikan ke WhatsApp

Menjelaskan secara visual proses komputer menggunakan teknik statistical learning untuk secara otomatis mengidentifikasi pola dalam data dan membuat prediksi
Memvisualisasikan langkah demi langkah proses membangun model yang membedakan rumah di New York dan San Francisco dengan memanfaatkan dataset perumahan
Dengan berfokus pada decision tree, materi ini menunjukkan secara konkret proses pembelajaran dan prediksi melalui konsep seperti split point, branch, dan leaf node
Dalam proses meningkatkan akurasi model, materi ini juga menampilkan secara visual masalah overfitting serta menjelaskan perbedaan antara training data dan test data
Ini adalah materi pembelajaran visual interaktif yang dirancang agar konsep inti machine learning dapat dipahami secara intuitif

Konsep dasar machine learning

Machine learning adalah teknologi yang memungkinkan komputer menerapkan teknik statistical learning untuk secara otomatis mengidentifikasi pola dalam data dan, berdasarkan itu, melakukan prediksi yang akurat
Sebagai contoh, dibangun model untuk mengklasifikasikan rumah di New York dan San Francisco menggunakan data perumahan
Tugas klasifikasi semacam ini dalam machine learning disebut masalah classification

Pembedaan intuitif dan feature

San Francisco memiliki banyak perbukitan sehingga elevasinya tinggi
- Karena itu, elevation rumah dapat menjadi kriteria yang berguna untuk membedakan dua kota tersebut
- Misalnya, jika elevasi di atas 240 kaki, rumah dapat diklasifikasikan sebagai San Francisco
Jika ditambahkan price per square foot, pembedaan bisa menjadi lebih rinci
- Jika elevasi 240 kaki atau kurang dan harga per kaki persegi $1776 atau lebih, rumah diklasifikasikan sebagai New York
Setiap dimensi data disebut feature, predictor, atau variable

Boundary dan pembelajaran model

Boundary dapat divisualisasikan pada scatterplot berdasarkan elevasi dan harga
Mengidentifikasi boundary data secara matematis adalah inti dari statistical learning
Dataset aktual memiliki 7 dimensi, dan berdasarkan itu model dilatih (training)
- Hubungan antarvariabel dieksplorasi secara visual melalui scatterplot matrix

Cara kerja Decision Tree

Machine learning memanfaatkan statistical learning untuk menemukan pola dalam data, dan salah satu metodenya adalah decision tree
Decision tree membagi data dengan menerapkan aturan if-then berdasarkan satu variabel pada satu waktu
Contoh: menerapkan aturan “jika elevasi berada di atas nilai tertentu, maka San Francisco”
Titik percabangan seperti ini disebut split point dan membentuk setiap branch pada tree

Akurasi pemisahan dan trade-off

Pemisahan awal (misalnya berdasarkan 240 kaki) salah mengklasifikasikan sebagian rumah San Francisco (false negatives)
Sebaliknya, jika ingin memasukkan semua rumah San Francisco, rumah New York juga ikut masuk (false positives)
Best split adalah pemisahan yang membuat data pada setiap branch semaksimal mungkin homogeneous
- Metode untuk menghitungnya antara lain Gini index dan cross entropy

Recursion dan pertumbuhan tree

Algoritme mengulangi proses ini untuk setiap subset data dan memperluas tree secara recursive
Pada elevasi rendah, harga per kaki persegi dipilih sebagai variabel pemisahan berikutnya, sedangkan pada elevasi tinggi, harga total dipilih
Semakin banyak pemisahan diulang, semakin tinggi prediction accuracy tree
- Menambahkan satu tahap meningkatkan akurasi menjadi 84%, dan beberapa tahap dapat meningkatkannya hingga 96%
- Jika semua percabangan ditambahkan, akurasi 100% dapat dicapai
Titik percabangan akhir adalah leaf node, dan setiap node mengklasifikasikan rumah berdasarkan kelas mayoritas

Prediksi dan validasi

Decision tree yang telah dilatih memprediksi kota dengan mengikuti percabangan tree untuk setiap titik data
Data yang digunakan untuk pelatihan dibedakan sebagai training data, sedangkan data baru disebut test data
Model bisa bekerja sempurna pada training data, tetapi performanya dapat menurun pada data baru
Hal ini terjadi karena overfitting, yaitu ketika model mempelajari detail yang tidak perlu

Ringkasan dan langkah berikutnya

Machine learning melakukan prediksi dengan menemukan boundary data dan mengidentifikasi pola
Decision tree adalah metode representatif untuk mengklasifikasikan data melalui aturan if-then
Overfitting adalah fenomena ketika model mempelajari pemisahan yang tidak bermakna sehingga kemampuan generalisasinya menurun
Tulisan berikutnya akan membahas hubungan antara overfitting dan bias/variance tradeoff

1 komentar

GN⁺ 2026-03-16

Komentar Hacker News

Saya adalah salah satu pembuat R2D3. Senang sekali melihat tulisan ini lagi hari ini. Saya terbuka untuk pertanyaan di sini atau di Bluesky
- Saya ingin memvisualisasikan pipeline pengumpulan data dengan cara seperti ini, tetapi bingung harus mulai dari mana. Saya punya gambaran di kepala, namun saat harus mewujudkannya sebagai situs web saya mentok
- Setelah 10 tahun berlalu, saya penasaran apakah ada rencana untuk menulis artikel baru
Ini benar-benar sebuah mahakarya. Setiap kali memperkenalkan machine learning, saya memakai penjelasan interaktif ini. Ada kumpulan materi serupa di sini
- Daftarnya bagus. Dulu Seeing Theory sempat ramai di HN, tetapi sekarang tampaknya situsnya sudah turun. Saya menambahkan alat visualisasi data saya ke PR ini. Saya juga menemukan tautan Seeing Theory yang sudah diperbarui dan memasukkannya
Saya pernah menyebut daftar resource pembelajaran S-TIER yang saya buat.
S-TIER berarti konten dengan kombinasi sempurna antara animasi, visualisasi, dan elemen interaktif.
A-TIER tetap informatif tetapi kurang visual, dan blog yang berfokus pada opini saya tempatkan paling bawah.
Situs S-TIER pilihan saya adalah:
growingswe.com/blog, ciechanow.ski/archives, mlu-explain.github.io, seeing-theory.brown.edu, svg-tutorial.com, lumafield.com/scan-of-the-month/health-wearables
Berdasarkan kriteria ini, saya ingin membuat bookmark manager yang secara otomatis mengklasifikasikan semua tautan blog di HN
- visxai.io juga punya banyak contoh yang luar biasa. Lihat saja bagian Hall of Fame di bawah.
  Dua proyek lama buatan saya yang paling saya sukai adalah Fill in the Blank dan Grokking
Disimpan ke bookmark. Sebagian besar tulisan penjelasan LLM kekurangan referensi visual seperti ini.
Biasanya isinya entah makalah 10 ribu kata, atau sekadar ringkasan satu baris seperti tweet, jadi tidak ada tahap perantaranya
- Konten 3Blue1Brown benar-benar luar biasa. Dia punya bahasa visualnya sendiri
Ini adalah karya dari 2015. Baik secara teknis maupun konseptual, ini adalah karya yang melampaui zamannya
- Sayang sekali tidak banyak materi lain dari Tony Hschu dan Stephanie Jyee. Penasaran apakah ada yang tahu karya lain mereka
Sangat keren. Ini adalah bidang menarik di persimpangan visualisasi data dan AI/ML.
Tempat yang layak dijadikan referensi antara lain mlu-explain.github.io, visxai.io, explorables dari Google PAIR, dan poloclub dari GA Tech
Saya berharap ada lebih banyak tulisan seperti ini. Saya suka belajar secara visual.
Ini mengingatkan saya pada tulisan Build Your Own React. Tidak terkait langsung, tetapi blog itu mudah diikuti dengan gaya yang serupa. Tulisan dengan format seperti ini sangat efisien untuk belajar
Ini adalah penjelasan decision tree terbaik yang pernah saya lihat sejauh ini.
Animasi yang memperlihatkan proses pemisahan saat kita scroll terasa jauh lebih intuitif daripada penjelasan panjang di buku teks
Penjelasan interaktif seperti ini masih merupakan contoh terbaik untuk membuat konsep ML terasa intuitif.
Pendekatan seperti ini jauh lebih efektif daripada tulisan teknis yang langsung dimulai dari rumus
Saya penasaran apakah ada materi yang menjelaskan konsep tingkat tinggi seperti mekanisme attention pada Transformer dengan gaya R2D3
- Tidak persis sama, tetapi ada materi yang membantu seperti Transformer Explainer dan video YouTube ini

Pengantar Visual ke Machine Learning (2015)

Konsep dasar machine learning

Pembedaan intuitif dan feature

Boundary dan pembelajaran model

Cara kerja Decision Tree

Akurasi pemisahan dan trade-off

Recursion dan pertumbuhan tree

Prediksi dan validasi

Ringkasan dan langkah berikutnya

Bacaan terkait

1 komentar

Komentar Hacker News