Toon3D: Komik Dilihat dari Sudut Pandang Baru

(toon3d.studio)

1 poin oleh GN⁺ 2024-05-18 | 1 komentar | Bagikan ke WhatsApp

Toon3D adalah metode yang memulihkan pose kamera dan struktur 3D padat dari gambar komik/animasi yang menggambarkan adegan yang sama, lalu menyintesis tampilan dari sudut pandang yang sebenarnya tidak pernah digambar
Adegan gambar tangan kurang memiliki konsistensi 3D eksplisit sehingga SfM konvensional mudah gagal; Toon3D menyesuaikan kamera dan geometri adegan secara bersamaan sambil mendeformasi gambar
Pipeline-nya menggabungkan prediksi kedalaman Marigold, kandidat transient mask dari SAM, serta pelabelan manusia di Toon3D Labeler untuk memasukkan titik korespondensi dan area transient ke dalam proses penyelarasan
Dense point cloud yang dipulihkan digunakan untuk inisialisasi Gaussian Splatting, lalu optimisasi berbasis Nerfstudio dan regularisasi kedalaman menghasilkan render fly-through untuk adegan komik
Berfokus pada perolehan pose kamera dan geometri adegan yang lebih stabil dibanding COLMAP, Bundle Adjustment, dan DUSt3R, serta diterapkan juga pada contoh rekonstruksi kamar Airbnb dan lukisan

Mengapa SfM sulit pada adegan gambar tangan

Manusia dapat mengenali adegan 3D dasar bahkan dari gambar yang tidak sepenuhnya konsisten secara 3D, tetapi mesin mengalami kesulitan dalam kondisi yang sama
Gambar komik dan animasi sering kali digambar tanpa konsistensi geometri eksplisit demi penceritaan dan ekspresi kreatif
Metode Structure-from-Motion(SfM) konvensional mengasumsikan konsistensi 3D, sehingga gagal besar pada gambar tangan seperti ini
COLMAP tidak dapat merekonstruksi gambar tangan non-geometris meskipun tersedia titik korespondensi yang sempurna, dan Bundle Adjustment serta DUSt3R juga menunjukkan kinerja yang sangat buruk

Metode penyelarasan yang menyerap ketidaksesuaian

Toon3D memulihkan pose kamera dan geometri adegan secara bersamaan sambil mendeformasi gambar yang tidak selaras secara geometris
Ide intinya adalah menyerap ketidaksesuaian geometri antar-gambar melalui deformasi, sehingga adegan dapat dicocokkan ke struktur 3D yang lebih konsisten
Informasi struktur yang diperoleh dari prediksi kedalaman monokular memandu proses penyelarasan ini
Berdasarkan keypoint yang dilabeli secara manual, Toon3D melakukan optimisasi piecewise-rigid deformation untuk memulihkan pose kamera dan geometri padat

Pipeline pemrosesan

Kedalaman tiap gambar diprediksi dengan Marigold
Kandidat transient mask diperoleh dengan SAM
Pengguna melabeli titik korespondensi antar-gambar dan menandai area transient menggunakan Toon3D Labeler
Pada tahap optimisasi, pose kamera diselaraskan dan gambar di-warp untuk memperoleh kamera perspektif yang telah dikoreksi
Terakhir, Gaussians diinisialisasi dari dense point cloud yang telah disejajarkan, lalu refinement dijalankan

Optimisasi kamera dan deformasi secara simultan

Dua tujuan utama Toon3D adalah camera alignment dan deformation alignment
Camera alignment objective memulihkan parameter kamera
Deformation alignment objective melakukan warping pada mesh agar penyelarasan lebih dekat
Dalam optimisasi sebenarnya, kedua tujuan ini dicocokkan secara simultan
Visualisasi metode mencakup berbagai layer seperti kamera, sparse correspondences, warping meshes, point clouds, dan gaussians

Sintesis sudut pandang baru dan render fly-through

Toon3D terlebih dahulu memulihkan pose kamera dan point cloud yang telah disejajarkan
Setelah itu, Gaussians diinisialisasi dari dense point cloud, dan Gaussian Splatting dioptimalkan menggunakan kamera yang dipulihkan
Implementasinya berbasis Nerfstudio dan mencakup regularisasi kedalaman
Hasilnya dapat dilihat sebagai render fly-through dari adegan komik
Contoh adegannya mencakup Bob's Burgers, Family Guy, SpongeBob SquarePants, Rick and Morty, Simpsons, Spirited Away, Futurama, Avatar, BoJack Horseman, Magic School Bus, dan Scooby-Doo

Toon3D Dataset dan alat pelabelan

Toon3D Dataset terdiri dari gambar multiview dari komik dan animasi
Dataset ini mencakup anotasi sparse correspondences yang tepercaya
Proses anotasi menggunakan Toon3D annotation tool yang ramah pengguna
Point cloud yang dipulihkan dihubungkan ke metode novel-view synthesis, sehingga komik dapat dilihat dari sudut pandang yang sebenarnya tidak pernah digambar
Halaman tersebut memvisualisasikan point cloud dan kamera yang dipulihkan untuk 12 adegan komik

Rekonstruksi interior rumah Rick and Morty

Interior rumah Rick and Morty direkonstruksi dengan cara melabeli area antara dinding dan langit-langit untuk menghubungkan ruangan-ruangan
Video pertama menampilkan point cloud, kamera, dan antarmuka pelabelan kustom
Pada video kedua, slider memungkinkan walkthrough interior rumah
Gambar dari kamera terdekat ditampilkan di kanan bawah layar

Sparse-view dan contoh input lain

Toon3D juga dapat merekonstruksi adegan dengan sedikit gambar dan perubahan sudut pandang yang besar
Dalam situasi ketika COLMAP dapat gagal, titik korespondensi yang dilabeli manusia dapat ditambahkan dengan Toon3D Labeler
Render fly-through disajikan untuk dua ruangan dari listing Airbnb, yaitu “Living room” dan “Bedroom 2”
COLMAP tidak berhasil memulihkan semua kamera, tetapi label dapat membuat COLMAP berhasil
Toon3D menghasilkan hasil terbaik dari sisi kelengkapan adegan

Visualisasi warping dan rekonstruksi lukisan

Karena komik digambar tangan, gambar perlu di-warp untuk mendapatkan konsistensi 3D
Video menunjukkan proses warping selama optimisasi penyelarasan
Juga disertakan visualisasi yang membandingkan gambar asli, gambar yang di-warp, dan overlap kedua gambar
Area buram menunjukkan bagian tempat banyak warping terjadi
Toon3D juga diterapkan pada lukisan gambar tangan; setelah memprediksi kedalaman tiap gambar, sistem menyelaraskan dan me-warp point cloud, lalu menghasilkan video dengan Gaussian refinement

Materi publik

arXiv: paper Toon3D
Code: kode implementasi
Toon3D Labeler: alat pelabelan titik korespondensi dan area transient
Demo: demo Hugging Face
Overview Video: video gambaran umum tentang perumusan masalah dan metode

1 komentar

GN⁺ 2024-05-18

Opini Hacker News

Menarik bahwa gedung Planet Express dari Futurama dijadikan contoh ketidakkonsistenan 3D
Menurut saya, eksteriornya sebenarnya lebih dekat ke sesuatu yang dihasilkan komputer dari model 3D. Kalau menonton serialnya, sering ada shot pembuka yang bergerak mulus dan kompleks mengitari gedung itu
- Setuju. Sebagian besar atau mungkin seluruh gedung Planet Express dan pesawat luar angkasanya sudah berupa rendering 3D sejak musim-musim awal, dan beberapa adegan Bender di luar angkasa juga memakai rendering 3D ketika membutuhkan perubahan perspektif yang kompleks dan kontinu
  Seni 3D yang tidak tampak seperti foto (NPR) sudah dipakai dalam animasi lebih lama dari yang banyak orang kira. Baru-baru ini saya menonton ulang animasi Disney tahun 1988, "Oliver and Company", dan terkejut karena mobil serta bangunannya adalah model 3D yang diberi "cel shading". Awalnya saya kira itu hasil remaster, tetapi setelah mencari tahu, ternyata itu adalah film Disney pertama yang menggunakan CGI secara besar-besaran[0], dan yang saya lihat memang sudah ada di versi aslinya
  Halaman yang saya temukan menuliskan: "This was the first Disney movie to make heavy use of computer animation. CGI effects were used for making the skyscrapers, the cars, trains, Fagin's scooter-cart and the climactic Subway chase. It was also the first Disney film to have a department created specifically for computer animation."
  Referensi
  0: https://disney.fandom.com/wiki/Oliver_%26_Company
- Saya rasa 3D dalam acara atau game sering memakai trik agar terlihat bagus bagi penonton
  Saya ingat pernah membaca artikel tentang apa saja yang dilakukan animator 3D supaya terlihat alami. Misalnya membuat karakter setinggi 9 kaki karena, saat kamera lewat, tinggi sebenarnya terlihat terlalu pendek dalam sistem; membuat pintu lengkung raksasa tetapi terlihat normal pada shot perspektif tertentu; atau menaruh karakter kecil di atas kotak biru di luar frame agar perbedaan tinggi badan yang ekstrem tidak terlihat canggung. Ada juga koridor yang kalau di dunia nyata panjangnya 1.000 kaki, tetapi karena cara kamera melewatinya, di dalam dunia itu terlihat seperti 100 kaki, sementara setiap pintu di koridor tersebut tingginya 18 kaki
  Jika karya seperti Futurama juga memakai teknik semacam ini, maka saat merekayasa balik dan merekonstruksi ruang 3D yang dikerjakan animator, kita bisa melihat pintu raksasa, orang setinggi 9 kaki, dan koridor non-Euklides. Fakta bahwa ia terlihat mulus saat kamera lewat tidak berarti model 3D sebenarnya juga masuk akal dari sudut pandang lain
- Sekarang, animasi yang tidak terlihat seperti animasi 3D pun sering memiliki model 3D di suatu bagian pipeline produksinya
  Bahkan tanpa model 3D digital, studio kadang menyimpan maket fisik lokasi-lokasi utama sebagai referensi bagi animator
- Benar. Futurama memakai elemen 3D yang dikompositkan sejak episode pertamanya pada 1999, dan kendaraan hampir selalu 3D
- Eksteriornya bukan dihasilkan dari satu model 3D, melainkan lebih dekat ke hasil dari beberapa model 3D yang merepresentasikan objek yang sama
  Bisa saja berubah seiring waktu atau berbeda dari adegan ke adegan, mirip seperti model Enterprise di Star Trek
Keren memang, tetapi saya sulit membayangkan penerapan nyatanya
Gambar 2D biasanya tidak memiliki ruang 3D yang konsisten, dan makalahnya juga mengakui hal itu, tetapi tampaknya mereka belum benar-benar mengatasi masalah itu dalam arti yang berguna. Begitu keluar dari posisi kamera tempat gambar aslinya dibuat, konsistensi adegannya menjadi cukup lemah
- Futurama dan Family Guy, misalnya, memakai rendering 3D untuk kendaraan, merendernya agar tampak seperti kartun, lalu mengompositkannya dengan animasi 2D datar
  Jenis pekerjaan serupa bisa menjadi salah satu penerapannya
  Pemanfaatan lain mungkin untuk studio pengembang game yang membuat game 3D berlisensi berdasarkan kartun 2D. Ini bisa dipakai sebagai alat visualisasi selama perencanaan dan pengembangan untuk iterasi cepat, sekaligus sebagai referensi bagaimana 2D asli akan diterjemahkan ke 3D
- SpongeBob secara terang-terangan melanggar aturan ruang 3D. Dari awal memang itu karya yang bisa memunculkan api di bawah air
  Penulis dan artisnya sama-sama banyak terinspirasi oleh Looney Tunes, dan di sana aturan semacam itu dilanggar karena melanggarnya memang lucu
- Versi yang lebih matang mungkin bisa dipakai untuk mengubah kartun menjadi video stereoskopik
  Namun, dibanding proses pemetaan ini, kemungkinan lebih baik hanya memakai prediksi kedalaman lalu mengisi ruang kosong dengan generasi gambar
- Saya melihat ini lebih sebagai sarana untuk memamerkan dan mengembangkan teknologi
  Lingkungan seperti ini tidak membutuhkan banyak upaya pemodelan 3D, jadi saya ragu apakah ada penerapan nyata dalam konteks ini
- Jika kelak berkembang lebih jauh, rasanya ini bisa menghasilkan video game dari berbagai seri
  Meski masih kasar, tampilannya terlihat lebih berhasil memindahkan gambar asli dibanding beberapa implementasi game berbasis kartun
Gagasan membuat ruang 3D dari gambar-gambar sumber yang tidak konsisten benar-benar menarik
Beberapa tahun lalu saya pernah mencoba hal serupa dengan cara yang kasar dan buruk; bukan hanya pada ruang yang saling tidak cocok tanpa jawaban jelas, tetapi juga pada gambar abstrak murni yang sejak awal tidak berusaha merepresentasikan ruang 3D. Itu adalah upaya mengubah lukisan abstrak seperti karya Kandinsky atau Pollock menjadi ruang realitas virtual yang bisa dijelajahi. Tentu saja tidak ada jawaban benar untuk apa arti "berjalan di dalam lukisan Pollock", dan tujuannya hanya melihat apa yang terjadi kalau dipaksakan
Alur kerjanya seperti ini: 1. Mulai dari satu gambar sumber berupa lukisan abstrak 2. Dengan SinGan, buat "sudut pandang" lain dari "adegan" tersebut 3. Terapkan 3d-photo-inpainting atau proyek ala Ken Burns pada gambar asli dan gambar SinGan, lalu keluarkan video zoom/rotasi/pan dengan pemetaan kedalaman monokular 4. Masukkan frame 3d-photo-inpainting ke aplikasi fotogrametri. Saat itu NeRF belum ada, dan semua pengaturan dinaikkan agar sebisa mungkin mentoleransi error dan ketidaksesuaian 5. Berdoa agar proses fotogrametri tidak meledak. 9 dari 10 kali, setelah 24 jam prosesnya crash, dan itu kejam sekali
Seharusnya saya pernah mengunggah contoh di Twitter, tetapi tidak bisa menemukan kata kuncinya. Meski begitu, dengan pemetaan kedalaman tingkat 2019 saja, lukisan abstrak menghasilkan video yang cukup menarik: https://x.com/jonathanfly/status/1174033265524690949 Yang paling mendekati adalah hasil fotogrametri dari video NVIDIA GauGAN yang tidak konsisten antar-frame: https://x.com/jonathanfly/status/1258127899401609217
Saya penasaran apakah proyek ini bisa melakukan ide yang sama dengan lebih baik. Mungkin akan saya coba akhir pekan ini
- Teknik atau library apa yang bisa menerima gambar lingkungan 3D atau gambar ruangan lalu mendeteksi mesh kasar yang menonjolkan lantai, dinding, dan rintangan?
Dulu setelah membeli Quest 2, saya mendalami dunia fotogrametri dan melihat keseluruhan pipeline untuk membuat model 3D dari foto objek yang diambil dari berbagai sudut
Saya menggunakan MeshRoom dan beberapa software untuk membersihkan mesh serta memindahkannya ke Unity
Dari pemahaman saya yang dangkal, kunci saat memindahkan sesuatu ke VR agar kita bisa berjalan mengelilingi objek di Unity adalah membuat mesh yang bersih. Model 3D yang dibuat oleh alat seperti yang ada di artikel ini—meski saya belum melihatnya secara mendalam—lebih mirip point cloud di ruang 3D. Mereka tidak menghasilkan mesh 3D
Salah satu alat yang saya lihat saat riset adalah https://developer.nvidia.com/blog/getting-started-with-nvidi..., tetapi ini juga tidak membuat mesh. Menurut saya ini lebih seperti video, bukan sesuatu yang bisa sekadar dijelajahi dengan berjalan di VR
Motivasi terselubungnya adalah meniru atau membuat model seperti Matterport lalu menjualnya ke perusahaan real estat. Bagian yang sangat kosong dalam pemahaman saya, sekaligus yang membuat saya kehilangan minat, adalah tidak yakin bagaimana mengotomatiskan tahap pembuatan mesh yang bersih dari banyak foto kamera. Bagi saya, bagian ini tampak paling padat karya. Belakangan saya mendengar ada model machine learning yang bisa melakukan tahap ini, tetapi saya tidak terlalu tahu bidang itu
- Mungkin lebih baik memakai Unreal + Nanite + PCVR
  Nanite bisa menangani mesh yang sangat kompleks dan menyederhanakannya secara algoritmis secara real-time. Pada dasarnya ini adalah sistem LOD tingkat lanjut. Saya tidak tahu batasannya, tetapi layak dicoba. Untuk fotogrametri, saya sangat merekomendasikan Reality Capture. Harganya sangat murah dan dibayar per scan
- NeRF kurang lebih adalah teknologi tahun lalu, dan minat yang sedang panas sekarang mengarah ke Gaussian splat
  Sejauh yang saya pahami, teknologi seperti ini menerima beberapa gambar sebagai input lalu melatih model, dan model itu dalam arti tertentu belajar cara terbaik merender gambar sebagai model adegan. Gaussian splat merepresentasikan gambar sebagai semacam "gumpalan" di ruang, dan setiap gambar harus dirender dari sudut pandang tertentu menggunakan kumpulan gumpalan yang sama. Jadi jika posisi splat diatur agar setiap gambar ter-render dengan benar, adegannya bisa direkonstruksi
  Saat ini pelatihan ini sangat mahal dan harus dilakukan ulang untuk tiap model, tetapi hasilnya bisa dijelajahi secara real-time
  Pendekatan fotogrametri yang digunakan Matterport dan lainnya adalah cara yang lebih lama dan membutuhkan data input berkualitas jauh lebih tinggi, tetapi menurut saya pendekatan terbaru bisa bekerja dengan data yang lebih sedikit dan kualitasnya lebih rendah
- https://www.reddit.com/r/sdforall/comments/13lenfm/free_seam...
  https://github.com/3DTopia/OpenLRM
  Katanya terinspirasi dari NeRF, tetapi paper dasarnya tampak memilih menggunakan vision transformer. Versi open-source-nya sepertinya memakai DINO dari Meta sebagai salah satu komponen inti
- Apakah ini seperti shrink wrap di Rhino?
Cukup mengejutkan bahwa adegan yang dibayangkan dan digambar seseorang bisa diubah menjadi model 3D, meski hasilnya buruk
Di masa depan, bisa dibayangkan seorang artis cukup menggambar beberapa sketsa adegan untuk memperoleh model 3D yang akurat
Atau seorang artis 2D cukup membuat sketsa beberapa pose, lalu model 3D yang strukturnya rapi dan teksturnya otomatis keluar
Di industri, ada banyak kekhawatiran tentang dampak AI dan alat serupa terhadap artis, tetapi tampaknya juga mungkin membayangkan masa depan di mana sistem machine learning berkolaborasi lebih langsung dengan artis dibanding rendering berbasis prompt bahasa
Mengenai perdebatan moral tentang pelatihan AI, perasaan saya belum jelas. Yang lebih saya khawatirkan bukan bagaimana model itu dilatih, melainkan dampaknya terhadap manusia. Bahkan jika model yang dilatih sepenuhnya secara "etis" bisa membuat seni yang sempurna dan artis menjadi pekerjaan niche, itu bisa menjadi hasil buruk bagi peradaban secara keseluruhan, karena menurut saya ada nilai dalam manusia membuat seni dan ada nilai juga dalam masyarakat tempat pekerjaan itu sampai taraf tertentu tetap berkelanjutan
Di sisi lain, hasil yang dibuat orang dengan model gambar juga menakjubkan, jadi saya tidak yakin. Idealnya, akan bagus jika kita bisa mendukung orang melakukan hal yang mereka inginkan meski tidak ada pasar, tetapi dunia belum siap untuk itu
Saya bukan seniman grafis, tetapi saya merasa karya ilustrator memuat banyak teknik ekspresi kreatif untuk menyampaikan makna yang kompleks
Namun rekonstruksi ruang 3D yang berantakan seperti yang terlihat di video itu mengingatkan pada demam model bahasa berskala besar belakangan ini
Dengan kata lain, hasil ekspresinya memang punya kaitan jelas dengan "kebenaran" atau "fakta" dari materi dasarnya, tetapi tidak cukup akurat untuk dianggap berguna sebagai materi sumber bagi pekerjaan lanjutan
- Saya pernah mengatakan hal serupa sebelumnya, dan saya menantikan apakah LLM bisa menulis episode baru dengan nuansa yang sama seperti episode-episode yang sudah ada
  Melihat episode "baru" dari komik lama pasti sangat menarik. Tentu saja, kekacauan hak cipta yang akan menyusul adalah urusan lain
Saya terkejut karena sistemnya sangat buruk dalam mereproduksi tampilan dari sudut pandang gambar tertentu
Misalnya, jika melihat Magic School Bus di bagian bawah, sepertinya algoritmanya bisa disetel agar lebih memercayai gambar
- Bagian besar dari seni adalah membedakan antara apa yang benar dalam kenyataan dan apa yang terasa benar
  Bahkan dalam animasi 3D dan film, bidang yang terutama saya kerjakan, latar belakang atau objek latar depan yang buram sering kali didistorsi dan ditempatkan secara aneh agar terlihat benar, meskipun tidak masuk akal jika dipetakan sebagai susunan dunia nyata. Seni 2D bahkan lebih tidak terikat pada representasi dunia nyata daripada itu
  Melihat aplikasi seperti ini menunjukkan betapa hebatnya otak kita dalam menyusun konsep berdasarkan representasi yang relatif abstrak, dan betapa menakjubkannya kemampuan seniman untuk bekerja di wilayah yang kurang terdefinisi itu. Sebuah adegan bisa terasa bagi penonton seolah memiliki perspektif yang konsisten, tetapi sofa dan meja samping di latar belakang mungkin digambar seperti diambil dengan lensa 120mm, sementara latar depannya sengaja dibuat terasa sesak seperti lensa 30mm. Itu bisa tetap terlihat baik-baik saja karena kita tidak perlu menyimpulkan ruang 3D realistis tempat karakter-karakter itu berada; kita hanya perlu memahami bahwa mereka berada di ruang semacam itu. Kita tahu seperti apa rasanya berada di sebuah ruang, dan bagaimana orang berinteraksi dengan ruang tersebut
  Seni yang baik hanya menyediakan secukupnya untuk menyampaikan ide inti, menjadikannya fokus pesan, lalu membiarkan otak secara tidak sadar membuat koneksi dan menambahkan konteks untuk membentuk "pengalaman" yang utuh. Segala hal—jenis sofa dan meja samping, skala yang sering dipelintir atau dilebih-lebihkan, hingga hubungan antarobjek—bisa menjadi lapisan komunikasi untuk efek artistik yang disengaja, dan sering kali tidak memiliki representasi yang konsisten di dunia nyata. Dalam shot apa pun, objek juga jelas bisa dipindahkan untuk membantu komposisi atau menonjolkan interaksi. Jika Anda menyadarinya, itu menjadi masalah kontinuitas; jika tidak, berarti berhasil. Dalam mayoritas besar kasus, tidak ada yang menyadarinya, dan mereka hanya merasa telah melihat sebuah dunia yang komposisinya meyakinkan dari semua sudut
  Algoritma yang melihat garis lalu harus mencari skenario di dunia nyata yang cocok dengan representasi itu mungkin sedang mencoba membuat sesuatu yang sejak awal tidak mungkin ada dalam bentuk yang konsisten
Saya tidak mengerti mengapa situs yang penuh video menyalakan autoplay dan pengulangan tanpa henti untuk semuanya
Saya sedang menonton video di layar kedua, tetapi setiap kali membuka situsnya, semuanya tersendat
- Apakah ini masalah Chrome? Di Firefox pada Windows, videonya tidak autoplay
- Mungkin itu juga sebabnya ponsel saya macet saat memuatnya di Firefox pada iPhone
  Baru bisa pulih setelah restart daya
Jika contoh Spirited Away ditunjukkan kepada Miyazaki, ia mungkin akan menyebutnya penghinaan terhadap kehidupan itu sendiri
- Bagi yang penasaran, ini merujuk pada video lama ini: https://www.youtube.com/watch?v=ngZ0K3lWKRc
  Jadi itu bukan hiperbola
Saya terkejut sepertinya mereka tidak berbicara dengan animator 3D sebelum menulis artikel ini. Kalimat di bawah ini jelas keliru

The hand-drawn images are usually faithful representations of the world, but only in a qualitative sense, since it is difficult for humans to draw multiple perspectives of an object or scene 3D consistently. Nevertheless, people can easily perceive 3D scenes from inconsistent inputs!
Memang benar sulit bagi seniman manusia untuk menjaga konsistensi geometris yang sempurna. Namun bukan itu alasan mengapa adegan 3D dalam animasi 2D tidak konsisten secara geometris. Alasannya adalah karena seniman menstilisasikan dan menonjolkan adegan 3D demi maksud artistik tertentu. Ini terutama berlaku pada karya surealis seperti SpongeBob, dan bahkan King of the Hill pun punya stilisasi seperti “perspektif ruang tamu” dan “perspektif dapur”. Seniman bukan berusaha membuatnya tampak realistis, melainkan membuatnya enak dilihat. Dan tujuannya juga bukan membuat manusia merekonstruksi gambar 3D yang sempurna, melainkan membangkitkan imajinasi 3D kita. Itu hal yang sama sekali berbeda
Pixar dan studio animasi 3D berkualitas tinggi lainnya sengaja mendistorsi geometri nyata sebuah adegan demi efek sinematik. Anak kecil yang dilihat dari sudut pandang orang dewasa bisa dirender dengan leher yang anehnya panjang serta torso yang pendek dan gemuk, karena animator sengaja melebih-lebihkan foreshortening visual untuk menekankan efek emosional dari anak kecil. Perspektif yang realistis itu membosankan. Teknik seperti ini ada di mana-mana dalam film Pixar, dan itulah sebabnya hasilnya terlihat jauh lebih baik daripada sekadar menggerakkan kamera virtual di ruang 3D Euklides seperti studio murah
Saya tidak ingin mengomentari detail teknisnya, tetapi tampaknya para penulis melewatkan inti artistiknya
- Sebagai orang yang bekerja di bidang ini, rasanya belum pernah telapak tangan saya sedekat ini dengan wajah saya
  Tidak ada masalah dengan proyeknya sendiri. Riset ya riset, dan mereka juga tidak membungkusnya seolah-olah ini “masalah yang sudah terselesaikan”. Namun di kalangan tipe orang teknis tertentu, alat gambar AI memicu omong kosong kami sudah memecahkan seni yang sama sekali tidak berdasar. Akibatnya, mereka melontarkan asumsi tak berdasar tentang prinsip-prinsip dasar seni dengan arogan, kadang bahkan seolah menggurui
  Saya sudah lama bekerja di bidang perangkat lunak, dan kesombongan dalam pengembangan perangkat lunak bukan hal baru bagi saya, bahkan kadang bisa berguna. Namun rasanya saya hampir belum pernah melihat rasa percaya diri kolektif yang begitu kuat pada satu topik tertentu di dalam dunia perangkat lunak
- Ini makin lucu jika mengingat hal yang sama juga terjadi pada kamera TV sungguhan
  Contoh mudahnya, banyak set sitkom yang terlihat seperti ruangan persegi sebenarnya berbentuk trapesium, dengan dinding-dinding yang bertemu pada sudut tumpul. Hampir tidak ada yang menyadarinya
- Bahkan jika mengesampingkan stilisasi untuk alasan artistik tertentu, karya dalam konteks seperti ini memang selalu harus terdistorsi karena kebutuhan sederhana dari kamera atau “kamera”
  Ini lebih terasa pada karya sebelum era HD. Sebab, agar perspektif cukup dekat untuk membaca ekspresi wajah dan gerak tubuh, orang atau karakter harus masuk ke layar dengan cukup rapat. Kalau Anda membedah acara paling “realistis” dan kalem sekalipun dari era itu, pada akhirnya Anda akan menemukan momen ketika furnitur, atau bahkan dinding, diam-diam dipindahkan agar suatu shot bisa berhasil

Toon3D: Komik Dilihat dari Sudut Pandang Baru

Mengapa SfM sulit pada adegan gambar tangan

Metode penyelarasan yang menyerap ketidaksesuaian

Pipeline pemrosesan

Optimisasi kamera dan deformasi secara simultan

Sintesis sudut pandang baru dan render fly-through

Toon3D Dataset dan alat pelabelan

Rekonstruksi interior rumah Rick and Morty

Sparse-view dan contoh input lain

Visualisasi warping dan rekonstruksi lukisan

Materi publik

Bacaan terkait

1 komentar

Opini Hacker News