1 poin oleh GN⁺ 2024-05-18 | 1 komentar | Bagikan ke WhatsApp
  • Manusia dapat mengenali dunia 3D bahkan dari gambar yang tidak memiliki konsistensi 3D
  • Toon3D dapat memulihkan pose kamera dan geometri berdensitas tinggi melalui optimisasi deformasi piecewise-rigid
  • Adegan gambar tangan tidak memiliki konsistensi 3D, tetapi dapat dipulihkan dengan Toon3D dan digunakan untuk menginterpolasi sudut pandang baru yang belum pernah dilihat sebelumnya

Abstract

  • Mengusulkan Toon3D
    • Memulihkan struktur 3D dasar dari adegan yang tidak konsisten secara geometris
    • Berfokus pada gambar tangan dalam komik dan animasi
    • Banyak komik digambar langsung oleh seniman tanpa mesin rendering 3D
    • Gambar tangan merepresentasikan dunia dengan kesetiaan kualitatif, tetapi sulit untuk menggambar banyak sudut pandang secara konsisten dalam 3D
    • Manusia dapat dengan mudah mengenali adegan 3D bahkan dari input yang tidak konsisten
    • Memperbaiki ketidaksesuaian pada gambar 2D agar gambar yang baru dideformasi menjadi saling konsisten
    • Memulihkan struktur padat melalui alat anotasi yang ramah pengguna, estimasi pose kamera, dan deformasi gambar
    • Dapat di-plug-in ke metode rekonstruksi pembuatan tampilan baru dengan mendeformasi gambar agar sesuai dengan model kamera perspektif

Rekonstruksi komik

  • Pertama memulihkan pose kamera dan point cloud yang telah disejajarkan
  • Menginisialisasi Gaussian dari point cloud padat dan mengoptimalkan Gaussian Splatting dengan kamera yang telah dipulihkan
  • Memiliki regularisasi kedalaman dan dibangun di atas Nerfstudio
  • Menampilkan rendering fly-through dari adegan

Metode

  • Memprediksi kedalaman tiap gambar dengan Marigold dan memperoleh candidate transient masks dengan SAM
  • Melabeli gambar dengan Toon3D Labeler untuk mendapatkan korespondensi dan menandai area transient
  • Mengoptimalkan pose kamera dan me-warp gambar untuk memperoleh kamera perspektif yang telah dikoreksi
  • Menginisialisasi Gaussian dengan point cloud padat yang telah disejajarkan lalu menjalankan refinement

Toon3D Labeler

  • Menunjukkan dua tahap utama dari metode ini
    • Video penyelarasan jarang: estimasi kasar parameter kamera
    • Video penyelarasan padat: menunjukkan cara melakukan penyelarasan dalam 3D menggunakan berbagai layer (kamera, korespondensi jarang, mesh distorsi, dll.)

Menjelajahi interior rumah Rick and Morty

  • Merekonstruksi interior rumah Rick and Morty dengan menghubungkan ruangan melalui pelabelan dinding dan langit-langit
  • Video pertama: menunjukkan point cloud dan kamera serta antarmuka pelabelan kustom
  • Video kedua: dapat menelusuri interior rumah dengan menggeser slider

Point cloud dan kamera

  • Menunjukkan point cloud dan kamera yang dipulihkan untuk 12 adegan komik dalam dataset Toon3D
  • Anda dapat menjelajahi adegan dengan mengklik ikon

Rekonstruksi sparse-view

  • Dapat merekonstruksi adegan dengan sedikit gambar dan perubahan sudut pandang yang besar
  • Di tempat COLMAP dapat gagal, manusia dapat turun tangan dengan mendapatkan korespondensi yang dilabeli menggunakan Toon3D Labeler
  • Menampilkan rendering fly-through untuk dua ruangan dalam listing Airbnb ("ruang tamu" dan "kamar tidur 2")

Visualisasi ketidaksesuaian

  • Karena komik digambar dengan tangan, gambar perlu di-warp agar konsisten secara 3D
  • Item pertama: video yang menunjukkan distorsi selama optimisasi penyelarasan
  • Dua item berikutnya: gambar yang menunjukkan ilustrasi asli dan yang telah didistorsi serta tumpang tindih di antara keduanya
  • Area yang buram menunjukkan tempat terjadinya banyak distorsi

Rekonstruksi ilustrasi

  • Toon3D juga dapat merekonstruksi ilustrasi yang digambar dengan tangan
  • Memprediksi kedalaman tiap gambar, lalu menyelaraskan dan me-warp point cloud
  • Terakhir menghasilkan video menggunakan Gaussian refinement

Pendapat GN⁺

  • Toon3D adalah metode inovatif untuk merekonstruksi gambar tangan dari komik dan animasi ke dalam 3D
  • Teknologi ini menawarkan pengalaman visual baru dan dapat sangat membantu terutama dalam produksi animasi dan pengembangan game
  • Namun, proses pelabelan manual bisa agak merepotkan, dan akan lebih baik jika metode otomatis terus berkembang
  • Proyek lain dengan fungsi serupa mencakup COLMAP dan Nerfstudio
  • Saat mengadopsi teknologi ini, pelabelan yang akurat dan prediksi kedalaman sangat penting untuk memperoleh rekonstruksi 3D yang lebih konsisten

1 komentar

 
GN⁺ 2024-05-18
Opini Hacker News

Ringkasan komentar Hacker News

  • Contoh gedung Planet Express dari Futurama

    • Menarik bahwa gedung Planet Express dari Futurama digunakan sebagai contoh ketidakcocokan 3D. Sebenarnya terlihat seperti dibuat dari model 3D.
    • Bukan seorang seniman grafis, tetapi sangat menghargai bahwa karya ilustrator menggunakan teknik ekspresi kreatif untuk menyampaikan makna yang kompleks.
    • Mengingatkan pada rekonstruksi ruang 3D yang "membingungkan", mirip dengan hype LLMs (model bahasa besar) belakangan ini.
  • Serunya membuat ruang 3D

    • Membuat ruang 3D dari gambar sumber yang tidak konsisten adalah ide yang sangat menyenangkan.
    • Beberapa tahun lalu pernah mencoba mengubah gambar abstrak nonspasial menjadi ruang realitas virtual. Misalnya, mengubah lukisan abstrak Kandinsky atau Pollock menjadi ruang VR yang bisa dijelajahi.
    • Alur kerjanya dimulai dari gambar abstrak, lalu memakai SinGan untuk membuat "sudut pandang" alternatif dari "adegan", melakukan depth mapping lewat inpainting foto 3D, lalu memasukkan frame ke aplikasi photogrammetry.
  • Kemungkinan pembuatan model 3D di masa depan

    • Menakjubkan bahwa model 3D, meski berkualitas rendah, bisa dibuat berdasarkan gambar dari adegan yang dibayangkan.
    • Di masa depan, mungkin seniman bisa mendapatkan model 3D yang akurat hanya dari beberapa gambar.
    • Ada kekhawatiran tentang dampak AI dan alat serupa bagi seniman. Namun, bisa dibayangkan masa depan di mana sistem berbasis machine learning bekerja sama lebih langsung dengan seniman.
    • Jika memikirkan nilai dari seorang seniman yang menciptakan seni, AI yang menggantikan seniman bisa menimbulkan akibat buruk bagi peradaban secara keseluruhan.
  • Masalah konversi karya 2D ke 3D

    • Karya 2D tidak memiliki ruang 3D yang konsisten. Tampaknya masalah ini belum benar-benar diselesaikan dengan cara yang berguna.
    • Begitu keluar dari posisi kamera asli, adegannya hampir tidak lagi konsisten.
  • Photogrammetry dan VR

    • Ada pengalaman meneliti photogrammetry dengan menggunakan Quest 2. Pipeline pembuatan model 3D dari foto yang diambil dari berbagai sudut pernah dieksplorasi.
    • Hal penting saat dipindahkan ke VR adalah membuat mesh yang bersih. Alat-alat saat ini belum menghasilkan mesh 3D.
    • Ada motivasi untuk membuat model seperti Matterport dan menjualnya ke perusahaan properti. Namun, tahap untuk secara otomatis membuat mesh yang bersih adalah bagian yang paling memakan tenaga kerja.
  • Perlu perbaikan algoritme

    • Kinerjanya kurang baik dalam mereproduksi tampilan dari sudut pandang gambar tertentu. Contohnya ada pada contoh Magic School Bus.
    • Algoritmenya perlu disetel agar lebih mempercayai gambar.
  • Masalah autoplay video di situs

    • Situs yang memutar otomatis dan mengulang semua video terasa mengganggu. Saat menonton video di layar kedua, mengunjungi situs itu menyebabkan lag.
  • Reaksi Miyazaki

    • Jika contoh Spirited Away diperlihatkan kepada Miyazaki, rasanya dia akan menyebutnya sebagai penghinaan terhadap kehidupan itu sendiri.
  • Hasil yang tidak memenuhi harapan

    • Semua contohnya terlihat sangat buruk. Karena frame tengah penuh noise dan blur, hasilnya tidak bisa digunakan bersama versi asli.
    • Titik awal dan akhir tiap elemen hampir tidak tersambung. Dinding, pintu, dan sebagainya terbang ke tujuan, tetapi menghilang beberapa kaki sebelum mencapai posisi akhirnya.
    • Idenya bagus, tetapi ingin melihat versi yang benar-benar berfungsi.