4 poin oleh GN⁺ 2025-06-02 | 1 komentar | Bagikan ke WhatsApp
  • RenderFormer adalah pipeline neural rendering yang secara langsung mewujudkan efek global illumination pada scene berbasis mesh segitiga
  • Tidak memerlukan pelatihan terpisah atau proses fine-tuning untuk setiap scene
  • Rendering didefinisikan sebagai transformasi sequence-to-sequence, yang langsung mengubah token segitiga menjadi token patch piksel
  • Seluruh pipeline dirancang berbasis transformer dengan hanya menerapkan kendala awal yang minimal
  • Menghasilkan gambar tanpa menggunakan rasterisasi atau ray tracing

Pengenalan

  • RenderFormer adalah pipeline neural yang merender gambar secara langsung dari representasi scene berbasis segitiga
  • Menghasilkan gambar dengan efek global illumination yang diterapkan sepenuhnya
  • Bekerja dengan struktur yang tidak memerlukan pelatihan atau fine-tuning terpisah untuk setiap scene

Pendekatan

  • Berbeda dari pendekatan rendering berbasis fisika yang ada, rendering didefinisikan ulang sebagai masalah transformasi sequence-to-sequence
    • Mengubah urutan token yang berisi segitiga dan karakteristik refleksi menjadi urutan token keluaran yang masing-masing diubah menjadi patch piksel kecil

Struktur pipeline

  • RenderFormer terdiri dari struktur 2 tahap
    • Tahap independen terhadap view: memodelkan fenomena perpindahan pencahayaan antar segitiga
    • Tahap dependen terhadap view: mengubah token yang merepresentasikan bundel sinar menjadi nilai piksel. Pada tahap ini, urutan segitiga dari tahap sebelumnya berperan sebagai panduan
  • Kedua tahap sama-sama berbasis arsitektur transformer
  • Dilatih dengan hanya memberikan kendala awal yang minimal

Karakteristik teknis

  • Saat rendering, sama sekali tidak menggunakan metode tradisional seperti rasterisasi atau ray tracing
  • Secara aktif memanfaatkan kemampuan transformasi sekuens dari transformer

Kesimpulan

  • Dibandingkan teknologi neural rendering yang ada, ini adalah pendekatan yang menghasilkan gambar fleksibel dan berkualitas tinggi tanpa perlu persiapan tambahan atau penyesuaian per scene

1 komentar

 
GN⁺ 2025-06-02
Opini Hacker News
  • Bagian yang paling mengesankan adalah kecepatannya. Pada adegan yang sama, RenderFormer selesai dalam 0,076 detik, sedangkan Blender Cycles membutuhkan 3,97 detik (atau 12,05 detik pada pengaturan yang lebih tinggi). Namun indeks kemiripan strukturalnya (SSIM) mencapai 0,9526, jadi perbedaannya nyaris tidak terlihat. Disarankan melihat Tabel 2 dan 1 di makalah. Arti praktisnya adalah desainer 3D bisa melihat pratinjau render instan dengan kualitas jauh lebih tinggi di web atau aplikasi native menggunakan model transformer on-device. Tentu, hasil di atas diukur pada GPU A100 tanpa optimasi PyTorch, jadi GPU pengguna biasa tidak akan secepat itu, tetapi tetap diperkirakan ada peningkatan kecepatan yang cukup berarti dibanding rendering konvensional. Atau jika sistemnya berbasis web, hasilnya juga bisa di-stream ke browser dengan menghubungkan backend ke A100. Namun keterbatasannya juga jelas. Semakin kompleks adegannya, akurasinya menurun, dan khususnya pada bayangan kompleks (termasuk partikel atau rambut) kemungkinan error cukup besar, jadi render final tetap perlu diproses dengan metode tradisional agar terhindar dari artefak yang sering muncul pada gambar/video berbasis AI. Meski begitu, jika peningkatan kecepatannya cukup besar, ini tampaknya bisa dipakai di studio animasi besar yang membutuhkan render pratinjau sepanjang film untuk keperluan seperti peninjauan musik atau cerita

    • Saya tidak merasa para peneliti sengaja memelintir fakta, tetapi dengan GPU sekelas itu Blender Cycles seharusnya bisa merender semua adegan di makalah dalam waktu kurang dari 4 detik. Adegan yang dipakai di makalah sendiri kompleksitasnya rendah, dan Blender diatur untuk melakukan 4.000 sampel berulang, padahal dalam praktiknya beberapa ratus sampel saja sudah hampir mencapai kualitas akhir sehingga sisanya nyaris tidak memberi efek. Akibatnya, resource GPU terpakai secara tidak perlu. Selain itu, tampaknya proses persiapan render awal Blender dimasukkan ke waktu rendering, sementara waktu inisialisasi transformer tidak dimasukkan. Saya juga penasaran berapa waktu yang dibutuhkan untuk merender frame kedua di masing-masing sistem. Dugaan saya Blender akan jauh lebih cepat. Bagaimanapun, hasil makalahnya sendiri menarik, tetapi ada nuansa tertentu pada bagian pengaturan Blender dan perbandingan timingnya

    • Untuk adegan yang mereka tampilkan, 76 ms justru terasa agak lambat. Tentu saya yakin ke depannya akan jauh lebih cepat, tetapi menurut saya masih terlalu dini untuk menilai ini lebih baik daripada render tradisional yang sudah ada

    • Perbandingan waktu di makalah agak kurang akurat. Dalam ray tracing, error berkurang mengikuti akar kuadrat dari jumlah sampel. Di makalah, jumlah sampel yang dipakai untuk menghasilkan gambar referensi sangat tidak realistis, sementara renderer offline nyata biasanya memakai sampel 10~100 kali lebih sedikit. Gambar yang dibuat dengan sampel setinggi itu memang cocok untuk membandingkan kualitas, tetapi tidak lazim dipakai untuk membandingkan waktu. Karena hasilnya tidak terlalu ketat secara metodologis, akan lebih adil jika dibandingkan dengan algoritme rendering lain yang juga menghasilkan pendekatan nilai yang mirip. Saat ini kombinasi real-time path tracer dan denoiser juga bisa merender adegan yang jauh lebih kompleks dalam waktu di bawah 16 ms pada GPU konsumen. Khususnya model transformer memerlukan waktu yang bertambah secara kuadrat baik terhadap jumlah segitiga maupun jumlah piksel. Mungkin ada peningkatan dalam riset machine learning terbaru, tetapi akan sulit mengalahkan scaling traditional path tracer sebesar O(log n triangles), O(n pixels) (dalam praktiknya bahkan kurang sensitif terhadap kenaikan jumlah piksel berkat konsistensi antar piksel yang berdekatan)

    • Klaim tentang kecepatannya terasa mengejutkan. Saya membaca makalahnya sekilas, tetapi sulit memastikan apakah Blender Cycles memakai CPU dari A100 atau benar-benar memanfaatkan kernel CUDA. Jika hanya satu frame, sebagian waktu startup renderer mungkin ikut terhitung. Kalau render sequence, waktu per frame akan turun jauh. Dan seperti yang disebut orang lain, kompleksitas segitiga (scaling O(n^2)) jelas juga akan berpengaruh

    • Di makalah mereka memang menyebut bahwa "kompleksitas runtime lapisan Attention meningkat secara kuadrat terhadap jumlah token, yang dalam kasus ini adalah jumlah segitiga. Karena itu jumlah segitiga dalam adegan dibatasi hingga maksimum 4096"

  • Deep learning juga sudah sangat sukses dipakai untuk denoise gambar render global illumination. Caranya adalah menghasilkan gambar global illumination kasar dengan ray tracing tradisional, lalu jaringan saraf menghilangkan noise dari gambar output tersebut. Tautan terkait: Open Image Denoise

    • Gambar output demonya terasa anehnya sangat mulus, seperti gambar hasil AI upscale. Tepi-tepinya tetap tajam, tetapi informasi teksturnya banyak hilang saat mencoba memperbesar melebihi data aslinya. (Tambahan) Jika membandingkan denoise pada zoom 100%, hasilnya tampak lebih baik daripada pembesaran DPI 125%, dan tanaman pakis di bagian bawah juga jadi lebih mudah dikenali
  • Saya punya teman yang benar-benar mengembangkan renderer berbasis fisika untuk industri film, dan setiap kali mendengar cara kerja atau cerita dari industri itu selalu menarik. Saya penasaran perusahaan mana yang sedang merekrut talenta seperti ini sekarang. Apakah perusahaan AI juga merekrut rendering engineer untuk membangun environment pelatihan? Kalau ada yang ingin merekrut engineer riset/industri rendering berpengalaman, saya bisa menghubungkan kalian karena teman saya tidak memakai media sosial

    • Tolong sampaikan ke teman Anda agar mengirim email ke Gmail atas nama ID saya
  • Aneh rasanya tidak ada satu pun contoh yang menunjukkan objek di belakang kamera. Saya tidak tahu apakah ini keterbatasan susunan contoh atau keterbatasan pendekatan itu sendiri, tetapi untuk refleksi dan pencahayaan, bagian belakang kamera adalah elemen yang sangat penting

  • Sekali lagi ini terasa seperti momen "the bitter lesson". Sekarang alur itu tampaknya juga mulai berlaku pada bidang rendering grafis. Nerf sebagian memakai prior berbasis ray tracing, Gaussian splat sebagian memakai prior berbasis rasterisasi, tetapi pendekatan ini mencoba membuang domain prior atau pengetahuan khusus semacam itu dan menyelesaikan semuanya hanya dengan data dan attention. Rasanya pendekatan seperti inilah masa depan

  • Menarik melihat bahwa struktur siklik antara rendering dan compute yang berpusat pada GPU kini seolah sudah lengkap

  • Hasilnya cukup bagus, tetapi terasa agak blur. Saya berharap ada lebih banyak perbandingan waktu render antara neural network dan renderer klasik

    • Dalam animasi (terutama Animated Crab dan Robot Animation) tampak artefak khas AI art, yaitu fenomena berputar tidak alami di sekitar model saat objek atau kamera bergerak

    • Ada sedikit pembahasan soal perbandingan waktu di makalah. Dibandingkan dengan Blender Cycles (path tracing), setidaknya untuk adegan di bawah 4K segitiga pendekatan neural jauh lebih cepat. Namun untuk adegan yang lebih kompleks dari itu mungkin kurang cocok (karena runtime attention meningkat secara kuadrat terhadap jumlah segitiga). Tautan makalah: RenderFormer paper PDF. Menurut saya, pendekatan yang realistis juga bisa berupa memakai metode neural hanya untuk indirect lighting, membuat gambar dasar dengan rasterizer tradisional, lalu menambahkan Global Illumination secara neural

  • Mungkin saya kurang paham, tetapi jika adegan seperti ini pada akhirnya tetap dirender dengan cara yang bisa diprediksi, saya penasaran apa keunggulan pendekatan ini dibanding metode langsung yang lebih sederhana (kalau memang tidak lebih cepat, apakah ada alasan kuat untuk memakainya)

    • Sebenarnya pendekatan ini mungkin bisa menghasilkan efek yang lebih menarik daripada yang terlihat. Misalnya, adegan bisa dianggap sebagai satu kumpulan input weight lalu ditambahkan noise, atau beberapa adegan berbeda bisa di-interpolate (dicampur) untuk menghasilkan output yang tak terduga

    • Pada akhirnya saya rasa ini lebih dekat ke "Cool Research". Kegunaan praktisnya rendah, karena biaya meningkat secara kuadrat saat jumlah segitiga bertambah. Itulah sebabnya makalah membatasinya pada 4096 per adegan

    • Seperti yang disebut di komentar lain, pendekatan ini memang lebih cepat. Global illumination memang sangat lambat jika dikerjakan dengan metode langsung

  • Ini terasa seperti riset yang segar. Transformer tampaknya dapat diterapkan bukan hanya pada bahasa alami, tetapi juga pada berbagai input data kontinu dan domain yang dicirikan oleh korelasi antar token, sehingga riset penerapannya ke domain non-teks ke depan terasa menjanjikan. Saya penasaran domain non-teks lain apa yang menurut pengguna Hacker News paling menarik dan tampak cocok untuk transformer

  • Menurut saya ini ide yang sangat cerdas dan menarik. Mereka melatih transformer yang mengubah deskripsi scene berbasis kumpulan segitiga menjadi array piksel 2D, dan hasilnya bisa langsung menghasilkan gambar yang hampir sama dengan output renderer global illumination konvensional. Jika melihat riset lima tahun terakhir, seharusnya fakta bahwa hal seperti ini mungkin sudah tidak terlalu mengejutkan lagi, tetapi tetap saja sangat mengesankan. Ini benar-benar menunjukkan betapa serbagunanya arsitektur transformer. Kecepatannya juga luar biasa tinggi, output-nya nyaris sama dengan Blender, modelnya berukuran sekitar 1B parameter, dan saya tidak yakin apakah fp16 atau 32, tetapi file-nya cukup besar yaitu 2GB. Saya ingin melihat demo scene yang lebih realistis, tetapi saya juga suka bahwa saya bisa langsung mengunduhnya ke Mac saya dan menjalankannya sendiri sekarang juga