1 poin oleh GN⁺ 2023-12-01 | 1 komentar | Bagikan ke WhatsApp

Pembuatan ilusi visual multi-sudut pandang: penelitian menggunakan model difusi

  • Daniel Geng, Inbum Park, dan Andrew Owens dari University of Michigan memperkenalkan metode baru untuk menghasilkan ilusi visual dari banyak sudut pandang menggunakan model difusi.
  • Metode ini menghasilkan gambar yang tampak sebagai wujud atau identitas berbeda ketika gambar tersebut ditransformasikan, dan mendukung beragam transformasi seperti rotasi, pembalikan, inversi warna, kemiringan, penyusunan ulang puzzle jigsaw, serta permutasi acak.
  • Penelitian ini membuktikan efektivitas metodenya tidak hanya secara teoretis tetapi juga melalui contoh-contoh nyata.

Metodologi

  • Metode yang digunakan secara konseptual sederhana, dan memakai model difusi yang tersedia di pasaran untuk memperkirakan noise pada berbagai tampilan atau transformasi gambar.
  • Noise yang diperkirakan kemudian disejajarkan dengan menerapkan tampilan kebalikan dan dirata-ratakan, lalu estimasi noise yang telah dirata-ratakan ini digunakan untuk menjalankan langkah difusi.

Syarat untuk view

  • Tidak semua fungsi view kompatibel dengan metode di atas, dan fungsi view harus dapat dibalik.
  • Agar fungsi view mempertahankan bobot antara sinyal dan noise, fungsi tersebut harus bersifat linear, yang dapat dicapai melalui matriks persegi A yang merepresentasikan transformasi linear.
  • Model difusi mengasumsikan bahwa noise diambil secara independen dan identik dari distribusi normal standar, sehingga noise yang ditransformasikan juga harus mengikuti statistik tersebut.
  • Untuk transformasi linear, hal ini setara dengan syarat bahwa A harus merupakan matriks ortogonal.

Transformasi ortogonal

  • Sebagian besar transformasi ortogonal tidak bermakna secara visual, tetapi matriks permutasi merupakan subset dari matriks ortogonal dan dapat diinterpretasikan sebagai penyusunan ulang piksel dalam gambar.
  • Sebagian besar ilusi yang ditunjukkan dalam penelitian ini dapat ditafsirkan sebagai penyusunan ulang piksel tertentu, misalnya rotasi, pembalikan, kemiringan, "rotasi internal", penyusunan ulang puzzle jigsaw, dan permutasi patch.
  • Inversi warna bukan permutasi, tetapi merupakan transformasi ortogonal sebagai negasi nilai piksel.

Opini GN⁺

  • Penelitian ini berkontribusi memperluas batas antara teknologi kecerdasan buatan dan seni dengan menghadirkan metode baru untuk menghasilkan beragam ilusi visual melalui transformasi gambar.
  • Secara khusus, metode untuk menciptakan berbagai efek visual dengan menyusun ulang piksel gambar ini sangat kreatif, dan diharapkan memungkinkan terciptanya bentuk karya seni baru.
  • Alasan artikel ini menarik adalah karena mengeksplorasi pendekatan orisinal untuk membuat ilusi visual dengan memanfaatkan model difusi yang sudah ada, dan ini juga merupakan penelitian yang dapat memberi inspirasi baru bagi insinyur perangkat lunak pemula.

1 komentar

 
GN⁺ 2023-12-01
Komentar Hacker News
  • Seorang pengguna mengatakan bahwa ia memiliki ide serupa pada awal tahun lalu dan bereksperimen menggunakan metode papan catur. Ia memberi contoh satu gambar kucing yang dibuat dari gambar kucing bergaya 9 pelukis terkenal. Ia juga menyebut bahwa teknik ini tidak berkaitan dengan gambar ControlNet "spiral" yang sempat kontroversial beberapa bulan lalu, dan dibuat berbasis DeepFloyd-IF.
  • Pengguna lain menilai gambar inversi warna pria/wanita sangat mengesankan, dan merasa bahwa dirinya bisa memutar gambar secara mental untuk melihat perspektif lain, tetapi inversi warna terasa sulit.
  • Pengguna lain lagi sangat menyukai gambar inversi pria/wanita, dan penasaran sejauh mana teknik yang sama bisa diperluas untuk menghasilkan berapa banyak permutasi dari satu gambar. Ia merasa pemahaman matematikanya kurang tentang apakah menerapkan dua transformasi ortogonal secara berurutan akan tetap menghasilkan transformasi ortogonal.
  • Seorang pengguna menilai semua contoh yang ditampilkan "lumayan saja", sambil menyebut gambar penguin/jerapah mungkin yang terbaik. Ia merasa gambar orang tua/gaun tidak terlalu mirip dengan salah satunya.
  • Ada juga pengguna yang berpikir bahwa menggunakan jaringan saraf mungkin berlebihan untuk pekerjaan ini, dan mungkin bukan pengganti terbaik untuk pemahaman teoretis tentang ilusi optik, tetapi hasilnya sulit dibantah.
  • Ada juga pengguna yang menikmati gambar-gambar semacam ini dan menilai ini sebagai posting yang bagus.
  • Seorang pengguna juga mengusulkan ide bahwa akan keren jika bisa membuat gambar yang tampak berbeda di bawah cahaya merah/biru.
  • Pengguna lain berpendapat bahwa akan sangat keren jika gambar bebek/kelinci digunakan pada sliding puzzle sehingga memberikan dua solusi valid.
  • Ada juga pengguna yang penasaran apakah jigsaw puzzle seperti ini benar-benar ada dan bisa dibeli.