Dasar-Dasar Computer Vision (2024)

(visionbook.mit.edu)

6 poin oleh GN⁺ 2025-06-16 | 1 komentar | Bagikan ke WhatsApp

Foundations of Computer Vision adalah buku ajar dasar computer vision yang membahas pemrosesan citra dan machine learning secara bersama, dengan sasaran pembaca tidak hanya mahasiswa sarjana dan pascasarjana pemula tetapi juga praktisi berpengalaman
Setelah pertama kali diajukan ke MIT Press pada November 2010, penulisannya berlanjut selama lebih dari 10 tahun, dan tujuan awal untuk membuat bab-bab yang singkat serta padat terus meluas seiring perubahan bidang ini
Revolusi deep learning pada 2012 menyediakan alat untuk menghubungkan ide-ide lama ke implementasi nyata, dan konsep-konsep awal yang sempat tersisih pun kembali menjadi penting seiring waktu
Buku ini terdiri dari 15 Part yang mencakup pembentukan citra, pembelajaran, pemrosesan sinyal dan citra, filter, representasi multiskala, neural network, model generatif, geometri 3D, gerak, pemahaman adegan, hingga nasihat bagi peneliti
Alih-alih merangkum pencapaian terbaru computer vision atau membahas morfological analysis, pelacakan objek, analisis pose manusia, dan pengenalan wajah secara mendalam, buku ini berfokus pada konsep dasar yang diperlukan untuk memahami berbagai aplikasi

Buku ini untuk pembaca seperti apa

Foundations of Computer Vision membahas topik-topik dasar computer vision dari sudut pandang pemrosesan citra dan machine learning
Pembaca utamanya adalah mahasiswa sarjana dan pascasarjana yang memasuki bidang computer vision, sekaligus ditujukan agar tetap berguna bagi praktisi berpengalaman
Buku ini memuat banyak visualisasi untuk membangun intuisi terhadap konsep
Awalnya direncanakan sebagai buku besar yang membahas bidang ini secara luas, tetapi karena cakupan computer vision terlalu besar, arahnya diubah menjadi buku yang lebih kecil
- Setiap bab awalnya ingin dibatasi hingga 5 halaman atau kurang
- Batasan ini membuat penulis fokus pada konsep-konsep penting yang diperlukan untuk memahami tiap topik
- Namun tujuan untuk menulis buku yang pendek pada akhirnya juga tidak tercapai

Proses penulisan yang berlangsung lebih dari 10 tahun

Ide buku ini pertama kali diajukan ke MIT Press pada 24 November 2010
Penulisannya tidak berjalan secara linear, dan panjang naskah bukan hanya terus bertambah, tetapi sempat menyusut lalu bertambah lagi
Seluruh pekerjaan ini memakan waktu lebih dari 10 tahun
Selama proses penulisan, banyak contoh dibuat dan disempurnakan, dengan tujuan agar pembaca dapat belajar sambil mereproduksi contoh tersebut secara langsung

Ide-ide lama yang tetap berlanjut setelah deep learning

Computer vision telah berubah besar selama 10 tahun terakhir, tetapi metode saat ini berakar kuat pada sejarah computer vision dan AI di masa lalu
Meski namanya berubah dan beberapa ide baru muncul, metode masa kini tidak terputus dari konsep-konsep sebelumnya
Buku ini menekankan tema-tema pemersatu yang berada di balik berbagai konsep
Salah satu metafora utamanya adalah banyak sudut pandang (view)
- Melihat adegan fisik yang sama dari sudut, sensor, dan waktu yang berbeda
- Mengumpulkan berbagai sudut pandang untuk memahami realitas yang mendasarinya
- Buku ini juga mengambil struktur yang menggabungkan berbagai sudut pandang untuk menemukan dasar-dasar computer vision
Revolusi deep learning pada 2012 membuat fondasi computer vision menjadi lebih kokoh, serta menyediakan alat untuk mengubah banyak ide yang diajukan pada masa awal bidang ini menjadi implementasi yang benar-benar bekerja
Setelah deep learning, sebagian ide awal sempat dilupakan untuk sementara, tetapi seiring waktu banyak di antaranya kembali lagi

Cakupan buku dalam 15 Part

Sebagian besar bab mengandaikan pemahaman atas topik yang dibahas sebelumnya, sehingga sebaiknya dibaca secara berurutan
Part I: topik motivasi yang memperkenalkan masalah vision dan menempatkannya dalam konteks sosial, sistem vision sederhana, serta alat matematika dasar
Part II: proses pembentukan citra
Part III: dasar-dasar pembelajaran menggunakan contoh-contoh vision dan konsep yang dapat diterapkan secara luas
Part IV: pengantar pemrosesan sinyal dan citra yang menjadi fondasi computer vision
Part V: filter linear dan aplikasinya seperti Gaussian kernels, binomial filters, image derivatives, Laplacian filter, dan temporal filters
Part VI: representasi citra multiskala
Part VII: neural network untuk vision
- convolutional neural networks
- recurrent neural networks
- transformers
- Fokus pada prinsip-prinsip utama, bukan arsitektur tertentu
Part VIII: model statistik citra dan graphical models
Part IX: dua pendekatan pemodelan yang kuat di era neural network
- Pemodelan generatif membahas model citra statistik yang menghasilkan citra alami dan citra sintetis yang mengikuti aturan geometri yang sesuai
- Pembelajaran representasi mencari representasi abstrak citra yang berguna, seperti vector embeddings
Part X: tantangan yang muncul saat membangun sistem vision berbasis pembelajaran
Part XI: alat geometri dan pemanfaatannya untuk merekonstruksi struktur dunia 3D dari citra 2D
Part XII: pemrosesan sekuens dan pengukuran gerak
Part XIII: pemahaman adegan dan deteksi objek
Part XIV: saran untuk peneliti junior tentang presentasi, penulisan makalah, dan sikap peneliti yang efektif
Part XV: kembali ke sistem visual sederhana yang diperkenalkan di Part I dan menerapkan teknik dalam buku ini pada masalah mainan

Hal-hal yang memang tidak dibahas mendalam

Buku ini tidak menyediakan ulasan tentang pencapaian terbaru computer vision modern
Banyak aplikasi seperti analisis bentuk, pelacakan objek, analisis pose manusia, dan pengenalan wajah tidak dibahas secara mendalam
Topik-topik aplikasi seperti ini lebih tepat dipelajari melalui makalah konferensi computer vision terbaru dan monograf khusus
Fokus buku ini bukan hasil terbaru di berbagai aplikasi, melainkan konsep dasar

Buku-buku terkait yang juga disebutkan

Sebagai buku ajar computer vision umum, buku-buku berikut disebutkan
- Computer Vision: A Modern Approach
- Computer Vision: Algorithms and Applications karya Rick Szeliski
Dasar berbasis fisika dibahas dengan baik dalam Robot Vision karya Horn
Vision karya David Marr disebut sebagai buku yang membuat penulis masuk ke computer vision, dan dinilai unggul dari sisi intuisi maupun penulisan
Geometri vision dengan banyak kamera dibahas secara rinci dalam Multiple View Geometry in Computer Vision karya Hartley dan Zisserman
Terkait geometri 3D, disebutkan Solid Shape karya Koenderink, Three-Dimensional Computer Vision karya Faugeras, dan Introductory Techniques for 3D Computer Vision karya Trucco dan Verri
Untuk buku ajar terkait pembelajaran, disebutkan buku-buku karya Mackay, Bishop, Murphy, serta Goodfellow·Bengio·Courville
Model probabilistik untuk vision dibahas dengan baik dalam buku ajar Prince
Untuk persepsi visual manusia, Vision Science: Photons to Phenomenology karya Steve Palmer disebut secara penting
Untuk low-level vision disebut Signal Processing for Computer Vision karya Granlund dan Knutsson, dan untuk high-level vision disebut High-level Vision karya Ullman
Sebagai buku tentang cahaya dan vision, disebut Light and Color in the Outdoors karya Minnaert

Informasi sitasi dan materi kuliah

Entri BibTeX untuk sitasi buku memuat informasi berikut
- title: Foundations of Computer Vision
- author: Torralba, A. and Isola, P. and Freeman, W.T.
- isbn: 9780262378666
- lccn: 2023024589
- series: Adaptive Computation and Machine Learning series
- year: 2024
- publisher: MIT Press
Edisi cetak dapat dibeli di MIT Press
Slide untuk pengajar dapat diunduh dari Dropbox

1 komentar

GN⁺ 2025-06-16

Opini di Hacker News

Ada bagian menarik di On Research, Writing and Speaking: “Kedengarannya seperti kerja keras.” Benar. Pada titik ini, ini bukan lagi soal kecerdasan. Di tahap ini, orang-orang di sekitar Anda juga semuanya cerdas. Di sekolah pascasarjana, orang yang bekerja keras akan maju lebih dulu
- Ini jelas berwawasan. Semua orang akan mencapai tahap ketika bertahan hanya dengan kecerdasan tidak lagi cukup
  Banyak orang menyadarinya saat masuk universitas, tetapi di tingkat sarjana materi yang harus dipelajari jelas dan ada batas atasnya, jadi sampai batas tertentu masih bisa bertahan. Sebaliknya, program doktor hampir tidak punya batas atas, tidak ada jumlah makalah yang ditetapkan untuk dibaca tiap minggu, dan tidak ada hal seperti “ini tidak akan keluar di ujian.” Imbal hasil dari menjadi lebih cerdas bukannya mendatar; memang tidak ada plafonnya. Anda bisa membaca lebih banyak, mengikuti banjir literatur, serta terus memperbaiki eksperimen dan metode
  Selain itu, soft skill dan jejaring juga diperlukan. Anda harus pergi ke konferensi untuk memahami arus komunitas, bertemu orang, minum kopi, atau makan malam bersama. Alih-alih menunggu instruksi seperti saat S1, Anda harus bergerak sendiri, cukup skeptis dan kritis terhadap metode yang ada, sekaligus menghasilkan ide baru yang relevan dan menarik agar dapat dipahami dan diterima komunitas
  Tanpa sinkronisasi eksternal dari kuliah dan ujian, Anda harus mengelola waktu sendiri serta menetapkan tenggat dan rutinitas. Hal-hal ini pada dasarnya tidak punya batas atas dan ekspektasinya juga samar. Meski sudah cukup teliti, Anda bisa saja untuk pertama kalinya mengalami penolakan karena reviewer tidak merasakan kebaruannya atau karena tidak terlalu cocok dengan tren saat itu
  Pada akhirnya, program doktor dapat mendorong siapa pun sampai ke batas mental. Ini membuat frustrasi dan terkenal sebagai masa yang berat bagi banyak mahasiswa doktoral. Tentu, jika tujuannya hanya mendapatkan gelar, strategi “bertahan” juga mungkin, tetapi orang yang mengincar karier akademik biasanya mengharapkan lebih dari standar minimum, terlebih mereka yang dulu bertahan dengan nilai bagus saat S1
- Saat tahun ketiga S1, rasanya meski sudah bekerja keras pun saya tidak bisa mengikuti perkuliahan. Itu adalah program teknik yang menerima mahasiswa dengan rata-rata nilai SMA sekitar 90%, dan sangat sulit sampai 75% mahasiswa keluar sebelum akhir tahun kedua
- Rasanya akan bagus kalau ada yang memberi tahu hal seperti ini saat saya di pascasarjana. Saya butuh terlalu lama untuk belajar cara menjadi mahasiswa pascasarjana yang sukses, dan sejujurnya baru benar-benar memahaminya setelah menyelesaikan sekolah
Buku bagus lain di bidang ini adalah: Computer Vision, Fifth Edition, E.R. Davies, Academic Press, ISBN-13 978-0128092842
- Buku rujukan lain adalah Computer Vision 2nd Ed edisi 2022 karya Szeliski: https://szeliski.org/Book/
  Forsyth & Ponce juga bagus, tetapi sekarang agak lama. Untuk klasik di bidang 3D, rujukannya masih Multiple View Geometry karya Hartley & Zisserman
Mengejutkan bahwa buku ini tersedia gratis. Terima kasih kepada siapa pun yang membukanya, entah penulis atau penerbitnya
- Komunitas machine learning, computer vision, dan robotika punya budaya yang sangat baik dalam menyediakan buku secara gratis di internet. Buku ajar terbaik di bidang ini bisa diakses gratis
  Ini cukup kontras dengan bidang lain di AS, tempat profesor pada dasarnya mewajibkan mahasiswa membeli edisi terbaru buku ajar seharga ratusan dolar. Berkat itu, orang-orang di negara yang secara ekonomi kurang mampu pun dapat mengakses materi terbaik dari mana saja di dunia. Materi kuliah dan video juga sering dibagikan secara online
- Benar sekali, dan saya ikut berterima kasih. Namun saya penasaran apakah ada cara untuk mengunduhnya sebagai PDF. Saat membaca materi belajar, menurut saya kita perlu bisa membuat catatan dan penanda referensi
Bagian “Writing this book” bisa secara keliru terbaca seolah-olah LLM digunakan pada 2/3 naskah
Mungkin maksudnya LLM menyediakan jauh lebih banyak bahan untuk ditulis, tetapi akan lebih baik jika diperjelas
- Saya tidak membacanya seperti itu. Faktanya, ChatGPT adalah alat pertama yang bisa membantu penulisan, dan kurang dari 1/3 buku ini ditulis setelah ChatGPT dirilis ke publik
  Dari tampilannya, itu seperti menandai peristiwa penting di bidang machine learning/kecerdasan buatan pada grafik
Sebagai orang yang bekerja di bidang ini, saya penasaran seberapa valid materi ini sekarang. Dari luar, sebagian besar machine learning, termasuk computer vision, tampak seperti benar-benar terguncang oleh perkembangan dua tahun terakhir
- Masih sangat valid. Tidak ada teknik terbaru yang benar-benar revolusioner; semuanya berdiri di atas fondasi yang sama. Justru menurut saya buku-buku yang lebih lama pun baik untuk dibaca
  Ada banyak aplikasi computer vision nyata yang menguntungkan yang dibuat dengan metode klasik seperti transformasi Hough, Canny edge, SIFT, dan Harris corner. Jika ingin terlihat seperti profesional serius, bukan seperti orang yang hanya melontarkan buzzword dan menempelkan API tanpa pemahaman dasar, Anda perlu mengetahui hal-hal ini
- Masih sangat relevan. Sebagian besar computer vision yang digunakan di luar akademia masih berbasis materi lama atau algoritma computer vision klasik
  Kesempatan untuk memakai model dan teknik terbaru tidak sebanyak yang dibayangkan. Biasanya itu tidak terlalu relevan, hanya cocok untuk kasus yang sangat spesifik, atau sejak awal tidak membutuhkan kompleksitas sebesar itu
- Khususnya pada sistem yang tidak mudah memakai akselerasi GPU, masih banyak masalah yang harus diselesaikan dengan computer vision “klasik”. Karena saya praktisi yang melakukan simultaneous localization and mapping (SLAM) pada platform dengan sumber daya komputasi terbatas, saya berencana membaca bab Structure from Motion
Saya penasaran apakah ada kuliah computer vision yang berbasis buku ini. Jika ada materi seperti video, saya ingin mengetahuinya
Saya ingin mendapat rekomendasi buku bagus tentang machine vision. Menurut saya dasar dari machine vision yang efektif, bahkan computer vision, adalah memilih kamera, sistem optik, dan pencahayaan yang tepat. Jika input buruk, output juga buruk, jadi citra berkualitas tinggi itu wajib
- Saya penasaran apakah Anda bisa memberi satu atau dua use case ketika faktor-faktor seperti ini benar-benar membuat perbedaan besar

Dasar-Dasar Computer Vision (2024)

Buku ini untuk pembaca seperti apa

Proses penulisan yang berlangsung lebih dari 10 tahun

Ide-ide lama yang tetap berlanjut setelah deep learning

Cakupan buku dalam 15 Part

Hal-hal yang memang tidak dibahas mendalam

Buku-buku terkait yang juga disebutkan

Informasi sitasi dan materi kuliah

Bacaan terkait

1 komentar

Opini di Hacker News