Apa yang diketahui model generatif? Benarkah mereka benar-benar tahu?

(intrinsic-lora.github.io)

1 poin oleh GN⁺ 2024-02-25 | 1 komentar | Bagikan ke WhatsApp

Di dalam model GAN, autoregresif, dan diffusion yang membuat adegan nyata tampak meyakinkan, kemungkinan secara implisit terdapat atribut intrinsik adegan seperti kedalaman, normal, albedo, dan shading
Metode yang diusulkan memulihkan representasi intrinsik dengan LoRA yang tidak terlalu terikat pada struktur model, sambil tetap memanfaatkan decoder pembuat gambar yang sudah ada
Pada VQGAN dan Stable Diffusion, LoRA ringan dipasang pada attention layer, sedangkan pada StyleGAN dipasang pada affine layer, sehingga intrinsic image dapat diperoleh tanpa decoding head khusus tugas terpisah
Pada Stable Diffusion, dengan rank 2 hanya 0,04% dari total bobot model yang ditambahkan sebagai parameter yang dapat dilatih, dan intrinsic image tetap bisa dihasilkan hanya dengan 250 gambar berlabel
Dalam eksperimen terkontrol, semakin tinggi kualitas model generatif, semakin tinggi pula akurasi atribut intrinsik adegan yang dipulihkan, tetapi kemampuan ekstraksinya berbeda tergantung model dan domain

Pertanyaan riset dan pendekatan LoRA

Penelitian ini berangkat dari pertanyaan bahwa jika model generatif dapat meniru adegan nyata dengan baik, maka di dalam representasi internalnya mungkin juga terdapat atribut intrinsik adegan (scene intrinsic)
Ada empat hal yang ingin diverifikasi penelitian ini
- Jenis intrinsic knowledge apa yang dienkode oleh model GAN, autoregresif, dan diffusion
- Apakah mungkin membuat kerangka umum untuk memulihkan representasi intrinsik tanpa bergantung pada arsitektur atau jenis model
- Seberapa sedikit parameter pelatihan dan data berlabel yang dibutuhkan
- Apakah ada hubungan langsung antara kualitas model generatif dan akurasi intrinsik yang dipulihkan
Inti metodenya adalah Low-Rank Adaptation (LoRA)
- Pada VQGAN dan Stable Diffusion, LoRA diterapkan pada attention layer
- Pada StyleGAN, LoRA diterapkan pada affine layer
- Tanpa menambahkan decoding head atau layer khusus tugas, metode ini menggunakan decoder head yang sama seperti yang dipakai untuk menghasilkan gambar
Materi terkait

Hasil pemulihan dan perbedaan antar model

Hanya dengan LoRA kecil, depth, normals, albedo, dan shading dapat dipulihkan dari berbagai model generatif
Pada Stable Diffusion, dengan LoRA rank 2, parameter yang dapat dilatih dapat ditekan hingga 0,04% dari total bobot model
Bahkan dengan hanya 250 gambar berlabel, intrinsic image tetap dapat dihasilkan melalui modul LoRA
Dalam eksperimen terkontrol, terkonfirmasi adanya korelasi positif antara kualitas model dan akurasi intrinsik yang dipulihkan
Hasil ekstraksi intrinsik berbeda menurut model dan domain
- VQGAN / Autoregressive / FFHQ: normal dan depth berkualitas sedang, albedo dan shading berkualitas tinggi
- StyleGAN-v2 / GAN / FFHQ: normal, albedo, dan shading berkualitas tinggi, depth berkualitas sedang
- StyleGAN-v2 / GAN / LSUN Bed: normal, depth, albedo, dan shading semuanya berkualitas tinggi
- StyleGAN-XL / GAN / FFHQ: normal, albedo, dan shading berkualitas tinggi, depth berkualitas sedang
- StyleGAN-XL / GAN / ImageNet: normal, depth, albedo, dan shading semuanya tidak dapat diekstraksi
- Stable Diffusion-UNet / Diffusion / Open: normal, depth, albedo, dan shading semuanya berkualitas tinggi
- Stable Diffusion / Diffusion / Open: normal, depth, albedo, dan shading semuanya berkualitas tinggi
Intrinsic map dari metode yang memperluas Stable Diffusion 2.1 dibandingkan dengan pseudo ground truth, dengan item perbandingan surface normals, depth, albedo, dan shading

1 komentar

GN⁺ 2024-02-25

Komentar Hacker News

Salah satu alasan ekspektasi terhadap Sora begitu tinggi adalah, dari beberapa videonya terasa seolah ada simulasi dunia fisik yang berjalan di dalamnya, dan video itu seperti direkam dengan kamera dari adegan 3D tersebut.
Ada intuisi bahwa jauh lebih banyak hal terjadi di balik layar daripada sekadar menyambung potongan-potongan video lain, dan makalah ini tampak seperti buktinya.
Bahkan pada generator gambar diam pun terlihat bahwa model pada dasarnya belajar merender adegan 3D dan mengambil fotonya. Bukan karena ada niat membuat engine 3D, melainkan hanya memasukkan tumpukan gambar ke aljabar linear lalu mengoptimalkannya, tetapi ternyata sebuah simulator dunia muncul—itu yang mengejutkan.
- Manusia hidup di dunia 3D, dan data pembelajaran kita juga berupa aliran visual binokular kontinu yang melihat adegan yang sama dari berbagai sudut. Sebaliknya, Sora bisa dibilang belajar tentang dunia dengan menonton TV, jadi agar bisa mempelajari representasi implisit dan rendering adegan 3D, mungkin ia perlu lebih banyak bermain video game.
- Saya masih heran masih ada orang yang berpikir sebenarnya ini hanya menempelkan potongan-potongan video.
- Kalimat “bukan karena ingin membuat engine 3D, tapi ketika gambar-gambar dilempar ke aljabar linear lalu dioptimalkan, keluarlah simulator dunia” terdengar seperti sesuatu yang akan dikatakan evolusi yang dipersonifikasikan tentang pikiran.
- Bahkan dalam video yang dipilih pembuatnya, ada adegan kucing punya kaki kelima lalu segera menghilang; saya bertanya-tanya bagaimana fenomena seperti itu cocok dengan narasi optimistis ini.
- Jaringan saraf bukan aljabar linear. Jika menganggap kebanyakan saat ini memakai aktivasi ReLU, inti jaringan saraf adalah struktur yang setengah linear, dan linearitas setengah-setengah itulah yang memberi kekuatan.
Namanya diambil dari game show fiktif dalam Bojack Horseman, Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- Saya sangat suka acara itu sampai menempelkan stikernya di laptop. Kalau belum menonton Bojack Horseman, karya itu lucu sekaligus tulus, dengan nuansa eksistensial yang kuat; kalau cocok dengan selera, sangat layak ditonton.
  Sebagai paket animasi yang matang, menurut saya jauh lebih bagus daripada Futurama. Ada banyak kedalaman yang bisa membuat kita relate dan pukulannya keras, tetapi tetap cukup ringan sehingga setelah menonton suasana hati masih terasa baik-baik saja.
  Sekarang karena saya bekerja di bidang filmtech, stiker Hollywoo itu jadi semakin cocok.
- Saya memberi upvote pada tulisan ini hanya dari judulnya.
- Saya cukup sering mengutip judul game show spesifik ini, tetapi sayang tidak banyak yang paham, jadi saya hanya terlihat seperti orang aneh.
- Lucu juga bahwa di dalam acaranya mereka terus menyebutnya HSaCWDTKDTKTLFO. Mengeja satu per satu akronim panjang itu seolah-olah akronim pendek mungkin adalah running gag favorit saya di acara ini.
- Rasanya seperti menemukan orang-orang saya. Saya sudah menonton acara ini sekitar 6 kali.
Ini mengingatkan saya pada saat mencoba mengekstrak G-buffer dari proyek uji Unity High Definition Rendering Pipeline: https://www.youtube.com/watch?v=Fwtc694qNUM
Namun saya tidak yakin makalah ini benar-benar membuktikan sesuatu. Di sini mereka melatih model UNet LoRA yang besar, dan agak ambigu apakah mereka “mengekstrak” sesuatu dari model yang sudah ada, atau membuat model baru yang menghasilkan kanal-kanal yang biasanya muncul dari pipeline deferred rendering.
Deferred rendering yang menggabungkan normal, albedo, dan depth hanyalah salah satu dari banyak teknik untuk membuat adegan 3D, dan bahkan dalam video game teknik ini belum digunakan sampai game Shrek untuk Xbox pada awal 2000-an (https://sites.google.com/site/richgel99/the-early-history-of...)
Yang benar-benar keren sepertinya adalah model LoRA yang bisa mengekstrak matriks rotasi dan translasi “kamera” dari model generasi gambar. Itu akan menjadi bukti yang jauh lebih kuat dan sekaligus cukup berguna.
- Jika melihat materi tambahan, ada eksperimen melatih LoRA dengan UNet yang diinisialisasi acak. Dalam kasus itu, berbeda dengan saat memakai Stable Diffusion UNet yang sudah dilatih sebelumnya, mereka hampir tidak bisa mengekstrak surface normal, sehingga cukup jelas bahwa fitur yang sudah ada di dalam model penting untuk kinerjanya.
- Saya bukan ahli, tetapi bagian “parameter yang baru dilatih kurang dari 0,6% dari total parameter model generatif” mungkin menjawab pertanyaan itu.
  0,6% terdengar kecil, tetapi saya penasaran apakah itu mengukur hal yang tepat. Model tidak harus mengenkode representasi yang persis sama dengan yang kita ekstrak, tetapi jika dari sisi ukuran model ia mengenkode sesuatu yang bisa dipetakan secara murah dan stabil ke normal, albedo, dan depth, itu saja sudah tampak sangat berarti.
  Tidak masalah vektor basis apa yang dipakai; yang penting kita tahu cara memetakannya ke representasi saya.
Saya membaca sekilas makalahnya, tetapi banyak bagian terasa sulit. Sebagai orang yang tidak akrab dengan AI generasi gambar, saya penasaran apa sebenarnya arti kalimat yang tampak seperti inti ini: “I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics”.
Saya ingin memahami apa maksud “memodulasi feature map kunci untuk mengekstrak properti intrinsik adegan”, dan bagaimana gambar properti adegan seperti ini bisa dibuat tanpa layer decoding tambahan.
- Misalkan ada jaringan saraf dengan 1 miliar parameter; mereka menambahkan sekitar 5 juta parameter di berbagai tempat, lalu dengan metode LoRA terus melatih hanya parameter baru itu sementara jaringan dasar tidak disentuh. Dengan begitu, jadilah jaringan termodulasi yang memprediksi properti adegan.
  Hal menariknya adalah parameter tambahan yang diperlukan sangat sedikit, sehingga tampaknya jaringan asli sudah cukup dekat dengan titik tersebut.
Entah mengapa Toyota atau Adobe mendanai riset dengan nama seperti ini, tapi saya benar-benar menyukainya. Saya berharap sisi jenaka kembali hadir dalam sains
Secara lebih praktis, melihat penjelasan bahwa “pendekatan agnostik-model yang dioptimalkan dengan sedikit gambar berlabel dapat beradaptasi ke berbagai arsitektur generatif seperti model Diffusion, GAN, dan model Autoregressive”, saya jadi penasaran apakah ini murni alat visual-spasial
Apakah contohnya hanya kebetulan bersifat visual, atau memang tidak ada cara untuk memperluasnya ke model teks? Saya baru pertama kali melihat pendekatan interpretabilitas seperti ini, dan ini sangat mengesankan
- Ada juga riset tentang mengedit informasi faktual pada model bahasa. https://rome.baulab.info/
- Apakah benar-benar sulit dipahami mengapa Toyota atau Adobe mendanai riset computer vision?
- Ini referensi Bojack Horseman yang ternyata kita butuhkan tanpa kita sadari
Cukup mengejutkan. Model-model ini bukan hanya melakukan sulap di hyperplane berdimensi miliaran yang tak bisa diurai, melainkan benar-benar mempelajari representasi yang dapat ditafsirkan manusia
- Dari sudut pandang engineer grafis 3D lama, fakta bahwa ada albedo di dalamnya terasa dapat diduga sekaligus benar-benar mengesankan
  Komponen inti rendering berbasis fisika adalah posisi, normal permukaan, cahaya yang masuk, dan setidaknya salah satu properti material permukaan seperti albedo serta reflektivitas/kekasaran. Posisi dapat diturunkan dari XY gambar dan kedalaman
  AI yang memodelkan kedalaman cukup bisa diduga, dan normal permukaan bisa dilihat seperti konvolusi lokal dari kedalaman. Namun memodelkan albedo yang terpisah dari cahaya yang masuk itu luar biasa. Saya penasaran apakah reflektivitas juga tersembunyi di suatu tempat
- Meski ada banyak bukti bahwa model generatif memiliki model dunia internal yang cukup kompleks, mengejutkan masih ada orang yang bersikeras bahwa itu hanya “burung beo stokastik” dan “tidak benar-benar memahami apa pun”
Ini kabar baik untuk VR, atau spatial computing. Jika model memahami dunia fisik sejauh yang ditunjukkan makalah ini, menghasilkan dua proyeksi dari satu adegan terdengar bukan permintaan yang terlalu sulit. Masa depan benar-benar menarik
Jika ini bisa memprediksi albedo dan pencahayaan dari gambar nyata, saya berharap seseorang membuat adegan Gaussian splatting yang bisa diberi pencahayaan ulang. Pencahayaan dinamis akan sangat memperluas kegunaan pemindaian 3D yang dibuat dari foto, tetapi saya belum pernah melihat hasil yang bisa disebut “bagus” di bidang itu
- Apakah benar-benar bisa memakai gambar nyata? Kalau bisa, mengekstrak peta kedalaman dari gambar nyata sepertinya akan menjadi aplikasi yang paling berguna
Bukan bermaksud skeptis, tapi saya penasaran bagaimana kita tahu bahwa perusahaan pembuat gambar tidak memperkuat dataset mereka dengan hal seperti normal map
Saya paham makalah ini membahas model open source yang bisa diverifikasi, tetapi mungkinkah bumbu rahasia model yang lebih maju adalah hal semacam itu?
- Untuk itu, mereka harus melatih dengan memasangkan gambar normal map dan gambar asli. Sejauh yang saya tahu, itu bukan teknik pelatihan yang umum, dan kemampuan ini tampaknya muncul di berbagai model terbuka
Akan menarik menguji apakah kemampuan persepsi model generatif lebih baik daripada manusia dengan ilusi optik yang menipu manusia. Misalnya, saya penasaran apakah model dapat menilai kedalaman dengan benar dalam situasi seperti ilusi Ponzo

Apa yang diketahui model generatif? Benarkah mereka benar-benar tahu?

Pertanyaan riset dan pendekatan LoRA

Hasil pemulihan dan perbedaan antar model

Bacaan terkait

1 komentar

Komentar Hacker News