1 poin oleh GN⁺ 2024-02-25 | 1 komentar | Bagikan ke WhatsApp

Menemukan kemampuan tersembunyi INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) mengungkap kemampuan tersembunyi dari model generatif seperti VQGAN, StyleGAN-XL, StyleGAN-v2, dan Stable Diffusion.
  • Metode ini mengekstrak sifat intrinsik permukaan seperti normal, kedalaman, albedo, dan shading dengan menggunakan decoder bawaan model tanpa layer tambahan.

Pemahaman laten pada model generatif

  • Model generatif memiliki kemampuan untuk mensintesis gambar yang sangat detail dan realistis.
  • Diperkirakan bahwa model-model ini secara implisit mempelajari karakteristik intrinsik gambar seperti normal permukaan, kedalaman, atau bayangan.
  • Makalah ini menyajikan bukti kuat bahwa model generatif secara internal benar-benar menghasilkan peta intrinsik adegan berkualitas tinggi.

Pengenalan INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) memperkenalkan pendekatan universal dan plug-and-play yang mengubah model generatif apa pun menjadi prediktor intrinsik adegan.
  • Peta intrinsik adegan dapat diekstrak langsung dari jaringan generator asli tanpa decoder tambahan atau fine-tuning seluruh jaringan.
  • Metode ini memanfaatkan low-rank adaptation (LoRA) pada feature map inti menggunakan parameter baru yang mencakup kurang dari 0,6% dari total parameter model generatif.
  • Dioptimalkan dengan sejumlah kecil gambar berlabel, dan dapat diterapkan pada berbagai arsitektur generatif termasuk model Diffusion, GAN, dan autoregressive.

Ringkasan kemampuan ekstraksi intrinsik adegan pada berbagai model generatif

  • Merangkum bahwa karakteristik intrinsik berkualitas tinggi dapat diekstrak dari berbagai model generatif tanpa mengubah head generator.
  • ✓: dapat mengekstrak karakteristik intrinsik dengan kualitas tinggi.
  • ~: dapat mengekstrak karakteristik intrinsik dengan kualitas menengah.
  • ✗: tidak dapat mengekstrak karakteristik intrinsik.

Perbandingan pembuatan peta intrinsik dengan I-LoRA

  • Menampilkan ilustrasi perbandingan antara peta intrinsik yang dihasilkan dengan metode ini menggunakan Stable Diffusion 2.1 yang telah ditingkatkan dan ground truth serupa.

Opini GN⁺

  • INTRINSIC LoRA (I-LoRA) adalah pendekatan inovatif yang memperluas kemampuan laten model generatif yang sudah ada ke dimensi baru.
  • Riset ini menunjukkan bahwa model generatif tidak hanya melampaui sekadar pembuatan gambar, tetapi juga memahami karakteristik intrinsik adegan nyata, sehingga memberikan wawasan baru tentang kemampuan pemahaman visual kecerdasan buatan.
  • Teknologi ini memiliki potensi untuk diterapkan di berbagai bidang seperti computer vision, grafika, dan AR/VR, sehingga menjadi perkembangan yang sangat menarik bagi para peneliti maupun pengembang di bidang ini.

1 komentar

 
GN⁺ 2024-02-25
Komentar Hacker News
  • Salah satu reaksi antusias terhadap Sora adalah kesan bahwa tampaknya ada simulasi dunia fisik di dalamnya. Ini menunjukkan bahwa ada sesuatu yang terjadi di balik layar yang lebih dari sekadar menyambung berbagai video.

    • Model belajar merender adegan 3D dan mengambil foto. Yang mengejutkan adalah, kita bukan sedang mencoba membuat mesin 3D, melainkan melemparkan gambar ke aljabar linear lalu melakukan optimisasi, dan yang muncul justru simulator dunia.
  • Namanya merujuk pada acara kuis fiksi dari serial Bojack Horseman, yaitu Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!.

  • Ini mengingatkan pada pengalaman mencoba mengekstrak G-buffer dari proyek uji Unity High Definition Rendering Pipeline.

    • Tidak yakin apakah makalah ini benar-benar membuktikan sesuatu. Karena model UNET LoRA raksasa sedang dilatih, tidak jelas apakah ini “mengekstrak” sesuatu dari model yang sudah ada, atau sekadar membuat model baru yang dapat menghasilkan kanal yang tampak seperti keluaran dari pipeline deferred rendering.
  • Sebagai seseorang yang tidak akrab dengan AI pembuat gambar, saya membaca sekilas makalahnya tetapi sulit dipahami.

    • Disebutkan bahwa I-LoRA mengekstrak properti intrinsik adegan seperti normal, kedalaman, albedo, dan shading menggunakan decoder model yang sudah ada tanpa layer tambahan, tetapi saya ingin penjelasan tentang apa tepatnya arti hal itu.
  • Ini cukup luar biasa. Model benar-benar mempelajari representasi yang bisa dipahami manusia, bukan hanya melakukan sihir di hiperbidang berdimensi miliaran yang tidak bisa kita uraikan.

  • Riset ini kabar baik untuk VR (atau komputasi spasial). Jika model memahami dunia fisik dengan baik, membuat dua proyeksi dari sebuah adegan tampaknya bukan hal yang sulit. Sangat antusias menantikan apa yang akan muncul berikutnya.

  • Teknik ini bisa mengambil gambar nyata lalu memprediksi albedo dan pencahayaan. Seseorang meminta agar ini dipakai untuk membuat adegan Gaussian splatting yang bisa diberi pencahayaan ulang. Pencahayaan dinamis akan sangat memperluas kegunaan pemindaian 3D yang dibuat dari foto, dan saya belum pernah melihat hasil yang benar-benar bisa dibilang “bagus”.

  • Apakah ini GPT untuk gambar? Mereka mengambil model generatif, lalu melakukan fine-tuning melalui LoRA untuk subtugas seperti normal permukaan, dan menyimpulkan bahwa model-model ini secara intrinsik mempelajari representasi semacam itu. Hasilnya juga lebih baik daripada pendekatan terawasi.

  • Bukan bermaksud skeptis, tetapi bagaimana kita tahu bahwa normal map dan semacamnya tidak sudah banyak dimasukkan ke dalam dataset oleh perusahaan pembuat gambar?

    • Makalah ini menautkan model open source yang bisa memverifikasi itu, tetapi ini juga bisa saja menjadi salah satu bahan rahasia dari model-model yang lebih canggih.
  • Sebagai contoh, bagaimana normal map diperoleh? Apakah AI membuatnya sebelum menghasilkan gambar, lalu membacanya kembali dari keadaan internalnya?