- Sebuah buku untuk pemula hingga tingkat menengah yang membahas dasar-dasar computer vision dari perspektif pemrosesan citra dan machine learning
- Setiap bab disusun singkat dan jelas agar fokus pada konsep-konsep inti
- Menjelaskan perubahan setelah revolusi deep learning dan proses rekonstruksi ulang gagasan-gagasan klasik, disertai pengalaman penulisan buku
- Terdiri dari 15 bagian yang membahas topik-topik luas dalam computer vision seperti pemrosesan citra, jaringan saraf, model generatif, pemrosesan sekuens, dan pemahaman adegan
- Disusun dengan fokus pada pembangunan teori esensial dan intuisi, bukan pada tren riset terbaru atau aplikasi tertentu
Kata Pengantar
- Dipersembahkan untuk semua piksel
Tentang Buku Ini
- Buku ini membahas topik-topik inti computer vision dari sudut pandang pemrosesan citra dan machine learning
- Memuat berbagai materi visualisasi untuk membantu mengembangkan intuisi pembaca
- Sasaran pembaca utamanya adalah mahasiswa sarjana dan pascasarjana yang baru memasuki computer vision, tetapi juga bermanfaat bagi praktisi berpengalaman
- Awalnya menargetkan cakupan yang sangat luas, tetapi karena luasnya bidang computer vision, setiap bab dibatasi hingga 5 halaman agar fokus pada konsep inti
- Penulis dengan jujur membagikan pengalaman bahwa meski menargetkan buku yang singkat, hasil akhirnya tetap menjadi cukup panjang
Proses Penulisan Buku
- Menunjukkan dengan data nonlinearitas antara niat awal saat mulai menulis dan proses nyata yang dijalani, dengan waktu lebih dari 10 tahun hingga selesai
- Selama proses penulisan, terjadi revolusi deep learning (2012) yang mendorong proses penggabungan antara metode tradisional dan pendekatan modern
- Karena popularitas awal deep learning, gagasan-gagasan sebelumnya sempat terlupakan, tetapi seiring waktu konsep-konsep esensial kembali mendapat perhatian
- Disebutkan bahwa perjalanan menulis ini berat, tetapi melalui berbagai contoh dan eksperimen langsung, penulis memperoleh banyak pembelajaran
- Menampilkan secara visual bagaimana peristiwa-peristiwa penting di bidang computer vision dan AI berubah seiring waktu penulisan buku
Struktur Buku
- Bidang computer vision mengalami perkembangan pesat dalam sekitar 10 tahun terakhir, dan meskipun pendekatan saat ini tampak sangat berbeda dari masa lalu, buku ini menekankan kesinambungan historis
- Di sepanjang buku, pentingnya tema dan sudut pandang yang terpadu, serta beragam perspektif, dibahas berulang kali
- Buku ini terdiri dari 15 bagian, dan setiap bagian berfokus pada tema yang konsisten dalam computer vision
Pengenalan Tiap Bagian
- Part I: Motivasi terhadap masalah-masalah computer vision, konteks sosial, dan pengenalan dasar matematika
- Part II: Proses pembentukan citra
- Part III: Penjelasan konsep dasar machine learning melalui contoh-contoh citra
- Part IV: Pengantar pemrosesan sinyal dan citra
- Part V: Filter linear yang berguna (Gaussian kernel, filter biner, turunan citra, Laplacian, filter waktu) dan aplikasinya
- Part VI: Representasi citra multiskala
- Part VII: Jaringan saraf untuk computer vision (convolutional neural networks, recurrent neural networks, transformer)
- Part VIII: Model statistik citra dan model graf
- Part IX: Pendekatan modern yang berpusat pada model generatif dan representation learning (seperti vector embedding)
- Part X: Tantangan yang muncul saat membangun sistem visi berbasis pembelajaran
- Part XI: Alat geometris untuk rekonstruksi struktur 3D
- Part XII: Pemrosesan sekuens dan pengukuran gerak
- Part XIII: Pemahaman adegan dan deteksi objek
- Part XIV: Saran bagi peneliti junior tentang presentasi, penulisan makalah, dan pola pikir riset yang efektif
- Part XV: Upaya menyelesaikan masalah yang diajukan di Part I dengan berbagai metodologi yang dibahas dalam buku
Hal yang Tidak Dibahas
- Tidak membahas tren terbaru computer vision maupun berbagai bidang aplikasi praktis (analisis bentuk, pelacakan objek, analisis gerakan, pengenalan wajah, dll.)
- Untuk aplikasi-aplikasi rinci seperti itu, merujuk ke makalah konferensi atau buku khusus akan lebih efektif
Ucapan Terima Kasih
- Menyampaikan terima kasih kepada dosen, mahasiswa, dan rekan yang memengaruhi pendidikan dan riset computer vision dalam berbagai bentuk
- Menyebutkan secara spesifik rasa terima kasih atas berbagai kolaborasi seperti materi kuliah dari berbagai konferensi, eksperimen, dukungan per bab, desain sampul, dan lainnya
- Masing-masing penulis juga menyampaikan terima kasih kepada keluarga dan orang-orang terdekat atas dukungan berkelanjutan
Informasi Sitasi
- Menyediakan format BibTeX yang dapat digunakan saat mengutip buku
Sumber Daya untuk Pengajar
- Edisi cetak buku dapat dibeli melalui MIT Press
- Menyediakan slide kuliah yang terkait dengan buku secara online
Referensi
- Menyediakan daftar buku klasik utama dan buku terbaru terkait computer vision, machine learning, pemrosesan sinyal, geometri, ilmu penglihatan, dan bidang terkait lainnya
1 komentar
Opini Hacker News
Ada bagian menarik dalam buku "On Research, Writing and Speaking". "Ini kelihatannya sulit." Benar. Tidak lagi bisa menang hanya dengan mengandalkan kepintaran. Dibagikan gagasan bahwa di sekolah pascasarjana, orang yang bekerja keras akan lebih unggul
Meminta komentar dari orang yang bekerja di industri apakah, dengan perubahan teknologi dalam 2 tahun terakhir, materi lama di bidang machine learning, khususnya computer vision, masih tetap relevan
Masih sangat relevan. Teknik-teknik terbaru pun pada dasarnya merupakan perkembangan yang dibangun di atas fondasi dasar yang sama. Justru lebih baik membaca lebih banyak konsep dasar dan algoritma tradisional. Teknik klasik seperti Hough transform, canny edge, sift, Harris corner harus benar-benar dipahami untuk bisa disebut ahli sejati. Di situlah muncul perbedaan kemampuan dibanding developer yang hanya menghafal kata kunci teknologi yang sedang naik daun dan sekadar menempelkan API
Bahkan sekarang, pada sistem yang masih sulit memanfaatkan akselerasi GPU, teknik computer vision "klasik" tetap esensial. Saya adalah praktisi yang menangani masalah Simultaneous localization and mapping di lingkungan dengan sumber daya terbatas. Saya berencana benar-benar membaca bab Structure from Motion
Ada pendapat bahwa bagian "Writing this book" bisa terlihat seolah LLM menulis 2/3 isi naskah. Karena kemungkinan maksud sebenarnya adalah isi buku bertambah karena ada banyak hal yang perlu ditulis terkait LLM, sebaiknya dibuat lebih jelas
Merekomendasikan buku berikut sebagai buku bagus lain di bidang computer vision
Sangat memuji buku ini, sampai-sampai sulit dipercaya bahwa buku ini tersedia gratis untuk umum
Memang benar sekali. Saya penasaran apakah ada yang menemukan cara untuk mengunduhnya sebagai PDF. Menurut saya pribadi, saat belajar itu sangat perlu meninggalkan catatan atau bahan referensi sendiri
Komunitas machine learning, computer vision, dan robotics punya budaya yang luar biasa dalam membuka buku ajar secara gratis di internet. Buku ajar kelas dunia di bidang ini pun bisa didapatkan gratis secara online. Di bidang lain, profesor di AS sering meminta mahasiswa membeli edisi terbaru dengan biaya tinggi, tetapi di bidang ini materi terbaik dibuka untuk negara berkembang maupun siapa saja di seluruh dunia. Materi kuliah dan video juga banyak dibagikan bersama
Meminta rekomendasi buku bagus tentang machine vision. Menurut saya, inti dari machine vision yang efektif, bahkan juga computer vision, ada pada pemilihan kamera, optik, dan pencahayaan. Jika kualitas gambar masukan buruk, hasil keluarannya juga pasti buruk