6 poin oleh GN⁺ 2025-06-16 | 1 komentar | Bagikan ke WhatsApp
  • Sebuah buku untuk pemula hingga tingkat menengah yang membahas dasar-dasar computer vision dari perspektif pemrosesan citra dan machine learning
  • Setiap bab disusun singkat dan jelas agar fokus pada konsep-konsep inti
  • Menjelaskan perubahan setelah revolusi deep learning dan proses rekonstruksi ulang gagasan-gagasan klasik, disertai pengalaman penulisan buku
  • Terdiri dari 15 bagian yang membahas topik-topik luas dalam computer vision seperti pemrosesan citra, jaringan saraf, model generatif, pemrosesan sekuens, dan pemahaman adegan
  • Disusun dengan fokus pada pembangunan teori esensial dan intuisi, bukan pada tren riset terbaru atau aplikasi tertentu

Kata Pengantar

  • Dipersembahkan untuk semua piksel

Tentang Buku Ini

  • Buku ini membahas topik-topik inti computer vision dari sudut pandang pemrosesan citra dan machine learning
  • Memuat berbagai materi visualisasi untuk membantu mengembangkan intuisi pembaca
  • Sasaran pembaca utamanya adalah mahasiswa sarjana dan pascasarjana yang baru memasuki computer vision, tetapi juga bermanfaat bagi praktisi berpengalaman
  • Awalnya menargetkan cakupan yang sangat luas, tetapi karena luasnya bidang computer vision, setiap bab dibatasi hingga 5 halaman agar fokus pada konsep inti
  • Penulis dengan jujur membagikan pengalaman bahwa meski menargetkan buku yang singkat, hasil akhirnya tetap menjadi cukup panjang

Proses Penulisan Buku

  • Menunjukkan dengan data nonlinearitas antara niat awal saat mulai menulis dan proses nyata yang dijalani, dengan waktu lebih dari 10 tahun hingga selesai
  • Selama proses penulisan, terjadi revolusi deep learning (2012) yang mendorong proses penggabungan antara metode tradisional dan pendekatan modern
  • Karena popularitas awal deep learning, gagasan-gagasan sebelumnya sempat terlupakan, tetapi seiring waktu konsep-konsep esensial kembali mendapat perhatian
  • Disebutkan bahwa perjalanan menulis ini berat, tetapi melalui berbagai contoh dan eksperimen langsung, penulis memperoleh banyak pembelajaran
  • Menampilkan secara visual bagaimana peristiwa-peristiwa penting di bidang computer vision dan AI berubah seiring waktu penulisan buku

Struktur Buku

  • Bidang computer vision mengalami perkembangan pesat dalam sekitar 10 tahun terakhir, dan meskipun pendekatan saat ini tampak sangat berbeda dari masa lalu, buku ini menekankan kesinambungan historis
  • Di sepanjang buku, pentingnya tema dan sudut pandang yang terpadu, serta beragam perspektif, dibahas berulang kali
  • Buku ini terdiri dari 15 bagian, dan setiap bagian berfokus pada tema yang konsisten dalam computer vision

Pengenalan Tiap Bagian

  • Part I: Motivasi terhadap masalah-masalah computer vision, konteks sosial, dan pengenalan dasar matematika
  • Part II: Proses pembentukan citra
  • Part III: Penjelasan konsep dasar machine learning melalui contoh-contoh citra
  • Part IV: Pengantar pemrosesan sinyal dan citra
  • Part V: Filter linear yang berguna (Gaussian kernel, filter biner, turunan citra, Laplacian, filter waktu) dan aplikasinya
  • Part VI: Representasi citra multiskala
  • Part VII: Jaringan saraf untuk computer vision (convolutional neural networks, recurrent neural networks, transformer)
  • Part VIII: Model statistik citra dan model graf
  • Part IX: Pendekatan modern yang berpusat pada model generatif dan representation learning (seperti vector embedding)
  • Part X: Tantangan yang muncul saat membangun sistem visi berbasis pembelajaran
  • Part XI: Alat geometris untuk rekonstruksi struktur 3D
  • Part XII: Pemrosesan sekuens dan pengukuran gerak
  • Part XIII: Pemahaman adegan dan deteksi objek
  • Part XIV: Saran bagi peneliti junior tentang presentasi, penulisan makalah, dan pola pikir riset yang efektif
  • Part XV: Upaya menyelesaikan masalah yang diajukan di Part I dengan berbagai metodologi yang dibahas dalam buku

Hal yang Tidak Dibahas

  • Tidak membahas tren terbaru computer vision maupun berbagai bidang aplikasi praktis (analisis bentuk, pelacakan objek, analisis gerakan, pengenalan wajah, dll.)
  • Untuk aplikasi-aplikasi rinci seperti itu, merujuk ke makalah konferensi atau buku khusus akan lebih efektif

Ucapan Terima Kasih

  • Menyampaikan terima kasih kepada dosen, mahasiswa, dan rekan yang memengaruhi pendidikan dan riset computer vision dalam berbagai bentuk
  • Menyebutkan secara spesifik rasa terima kasih atas berbagai kolaborasi seperti materi kuliah dari berbagai konferensi, eksperimen, dukungan per bab, desain sampul, dan lainnya
  • Masing-masing penulis juga menyampaikan terima kasih kepada keluarga dan orang-orang terdekat atas dukungan berkelanjutan

Informasi Sitasi

  • Menyediakan format BibTeX yang dapat digunakan saat mengutip buku

Sumber Daya untuk Pengajar

  • Edisi cetak buku dapat dibeli melalui MIT Press
  • Menyediakan slide kuliah yang terkait dengan buku secara online

Referensi

  • Menyediakan daftar buku klasik utama dan buku terbaru terkait computer vision, machine learning, pemrosesan sinyal, geometri, ilmu penglihatan, dan bidang terkait lainnya

1 komentar

 
GN⁺ 2025-06-16
Opini Hacker News
  • Ada bagian menarik dalam buku "On Research, Writing and Speaking". "Ini kelihatannya sulit." Benar. Tidak lagi bisa menang hanya dengan mengandalkan kepintaran. Dibagikan gagasan bahwa di sekolah pascasarjana, orang yang bekerja keras akan lebih unggul

    • Ini benar-benar pandangan yang sangat tajam. Pada titik tertentu, semua orang menyadari bahwa pengetahuan saja tidak cukup. Banyak orang merasakan tembok semacam ini saat masuk universitas. Namun di universitas, cakupan belajar sudah ditentukan sehingga bagaimanapun masih bisa bertahan dengan kemampuan. Sebaliknya, dalam program doktor, tidak ada batas pada jumlah yang harus dipelajari. Tidak ada bacaan yang sudah ditetapkan, tidak ada pula hal seperti “di luar materi ujian”. Belajar, eksperimen, membaca makalah, dan lain-lain harus dilakukan tanpa batas sejauh yang sanggup dikerjakan. Tidak cukup hanya pintar; perlu juga memahami soft skill, jaringan, dan konteks komunitas. Harus rapat, makan, dan berjejaring dengan orang-orang di komunitas sambil tetap menjaga kontak. Perlu memotivasi diri sendiri, mengelola tenggat waktu, dan menjaga rutinitas. Tidak seperti motivasi yang datang dari kelas dan ujian formal, semuanya harus dikelola sendiri. Standarnya samar, dan ekspektasinya tidak terbatas. Berbeda dari sebelumnya, ada juga kemungkinan mengalami penolakan. Program doktor adalah masa sulit yang mendorong siapa pun untuk menghadapi batas dirinya. Jika tujuannya hanya lulus, mungkin bisa dijalani seadanya, tetapi biasanya mahasiswa yang bercita-cita meniti karier akademik punya sasaran yang lebih besar
  • Meminta komentar dari orang yang bekerja di industri apakah, dengan perubahan teknologi dalam 2 tahun terakhir, materi lama di bidang machine learning, khususnya computer vision, masih tetap relevan

    • Masih sangat relevan. Teknik-teknik terbaru pun pada dasarnya merupakan perkembangan yang dibangun di atas fondasi dasar yang sama. Justru lebih baik membaca lebih banyak konsep dasar dan algoritma tradisional. Teknik klasik seperti Hough transform, canny edge, sift, Harris corner harus benar-benar dipahami untuk bisa disebut ahli sejati. Di situlah muncul perbedaan kemampuan dibanding developer yang hanya menghafal kata kunci teknologi yang sedang naik daun dan sekadar menempelkan API

    • Bahkan sekarang, pada sistem yang masih sulit memanfaatkan akselerasi GPU, teknik computer vision "klasik" tetap esensial. Saya adalah praktisi yang menangani masalah Simultaneous localization and mapping di lingkungan dengan sumber daya terbatas. Saya berencana benar-benar membaca bab Structure from Motion

  • Ada pendapat bahwa bagian "Writing this book" bisa terlihat seolah LLM menulis 2/3 isi naskah. Karena kemungkinan maksud sebenarnya adalah isi buku bertambah karena ada banyak hal yang perlu ditulis terkait LLM, sebaiknya dibuat lebih jelas

    • Saya tidak membacanya seperti itu. Tampaknya kurang dari 1/3 buku ini ditulis setelah kemunculan ChatGPT. Malah terasa seperti penandaan peristiwa-peristiwa utama di bidang ML/AI pada sebuah grafik
  • Merekomendasikan buku berikut sebagai buku bagus lain di bidang computer vision

    Computer Vision, Fifth Edition
    E.R. Davies
    Academic Press
    ISBN-13 978-0128092842
    
    • Sebagai buku ajar utama lainnya, saya juga merekomendasikan Szeliski, "Computer Vision 2nd Ed" (2022) https://szeliski.org/Book/. Buku Forsyth & Ponce juga bagus, tetapi agak lama. Jika tertarik pada 3D, Hartley & Zisserman, Multiple View Geometry, masih merupakan karya klasik
  • Sangat memuji buku ini, sampai-sampai sulit dipercaya bahwa buku ini tersedia gratis untuk umum

    • Memang benar sekali. Saya penasaran apakah ada yang menemukan cara untuk mengunduhnya sebagai PDF. Menurut saya pribadi, saat belajar itu sangat perlu meninggalkan catatan atau bahan referensi sendiri

    • Komunitas machine learning, computer vision, dan robotics punya budaya yang luar biasa dalam membuka buku ajar secara gratis di internet. Buku ajar kelas dunia di bidang ini pun bisa didapatkan gratis secara online. Di bidang lain, profesor di AS sering meminta mahasiswa membeli edisi terbaru dengan biaya tinggi, tetapi di bidang ini materi terbaik dibuka untuk negara berkembang maupun siapa saja di seluruh dunia. Materi kuliah dan video juga banyak dibagikan bersama

  • Meminta rekomendasi buku bagus tentang machine vision. Menurut saya, inti dari machine vision yang efektif, bahkan juga computer vision, ada pada pemilihan kamera, optik, dan pencahayaan. Jika kualitas gambar masukan buruk, hasil keluarannya juga pasti buruk

    • Saya penasaran apakah bisa dibagikan contoh penggunaan atau kasus nyata di mana elemen-elemen seperti itu benar-benar membuat perbedaan