3 poin oleh GN⁺ 2024-08-02 | 1 komentar | Bagikan ke WhatsApp
  • Menghasilkan aset 3D berkualitas tinggi dari satu gambar hanya dalam 0,5 detik
  • Dibangun di atas TripoSR, dengan peningkatan arsitektur besar dan fitur yang ditingkatkan
  • Dapat diterapkan tidak hanya untuk pengembang game dan realitas virtual, tetapi juga bagi profesional di ritel, arsitektur, desain, dan pekerjaan intensif grafis lainnya
  • Model tersedia di Hugging Face dan dirilis di bawah Stability AI Community License
  • Model dapat diakses dengan mudah melalui Stability AI API dan chatbot Stable Assistant, serta kreasi 3D dapat dibagikan lewat penampil 3D dan dicoba dalam augmented reality
  • Dapat dicoba melalui uji coba gratis

Cara kerja

  • Pengguna memulai dengan mengunggah satu gambar objek
  • Stable Fast 3D dengan cepat menghasilkan aset 3D lengkap yang mencakup UV unwrapped mesh, parameter material, warna albedo dengan pencahayaan yang dikurangi, dan lainnya
  • Secara opsional dapat melakukan rekonstruksi quad atau segitiga, yang hanya menambahkan 100-200 ms pada waktu pemrosesan

Kasus penggunaan

  • Memanfaatkan waktu inferensi cepat saat eksperimen menjadi kunci selama pra-produksi
  • Aset statis untuk game (objek latar belakang, barang kecil, furnitur)
  • Model 3D untuk e-commerce
  • Pembuatan model cepat untuk AR/VR

Perpaduan kecepatan dan kualitas

  • Unggul dalam performa di beberapa area kunci dibanding pesaing
  • Kecepatan cepat 0,5 detik per pembuatan aset 3D pada GPU dengan 7GB VRAM
  • UV unwrapped mesh dan parameter material berkualitas tinggi
  • Mengurangi keterikatan pencahayaan pada tekstur
  • Dapat menghasilkan parameter material tambahan dan normal map

Riset dan pengembangan

  • Berbasis TripoSR, tetapi menampilkan model yang sepenuhnya dilatih ulang dan perubahan arsitektur penting
  • Peningkatannya mencakup pembuatan mesh eksplisit dan teknik baru untuk pembuatan mesh bertekstur yang cepat
  • Laporan teknis menyoroti cara mencapai kecepatan inferensi tinggi dengan baked lighting yang dikurangi dan parameter material

Ketersediaan

  • Kode model Stable Fast 3D tersedia di Github dan Hugging Face
  • Di bawah Stability AI Community License, penggunaan nonkomersial dan penggunaan komersial hingga pendapatan tahunan maksimum $1M diizinkan
  • Model dapat diakses melalui API dan Stable Assistant

Opini GN⁺

  • Teknologi pembuatan model 3D ini menarik karena dapat dimanfaatkan di berbagai bidang seperti game, virtual/augmented reality, desain, dan arsitektur. Khususnya, kemampuan membuat aset 3D berkualitas tinggi dengan cepat dari satu gambar akan membantu meningkatkan produktivitas.
  • Namun, seiring model berbasis AI seperti ini makin aktif digunakan, pekerjaan tenaga profesional seperti desainer grafis atau modeler dapat terdampak. Ini karena aset 3D yang sebelumnya dibuat secara manual bisa diotomatisasi. AI mungkin sulit sepenuhnya menggantikan manusia, tetapi penyusutan peran tertentu tampaknya tak terhindarkan.
  • Selain itu, isu hak cipta atas model 3D yang dihasilkan juga perlu dipertimbangkan. Kompensasi atau kredit yang layak perlu diberikan untuk gambar yang digunakan dalam pelatihan. Regulasi hukum dan pedoman untuk hasil buatan AI tampaknya perlu disiapkan.
  • Teknologi serupa mencakup Nvidia Instant Nerf dan RealityScan dari Epic Games. Keduanya menyediakan kemampuan membuat model 3D melalui foto atau pemindaian. Keunggulannya adalah kompatibilitas tinggi dengan game engine. Namun, dibanding Stable Fast 3D, tampaknya mereka masih kurang dalam kecepatan menghasilkan hasil berkualitas tinggi dari satu gambar.
  • Singkatnya, Stable Fast 3D tampaknya akan berkontribusi pada peningkatan produktivitas di bidang grafis 3D seperti game dan XR dengan mengedepankan kecepatan dan kualitas. Namun, tetap diperlukan proses pencarian kesepakatan sosial terkait isu etika dan hukum.

1 komentar

 
GN⁺ 2024-08-02
Opini Hacker News
  • Terlepas dari besarnya ekspektasi terhadap LLM, pembuatan gambar dan aset grafis tampaknya lebih mungkin menjadi pemenang jangka panjang AI saat ini

    • "Halusinasi" adalah fitur, bukan bug
    • Output yang tidak realistis dan bias dapat dengan mudah terlihat tanpa pengujian statistik yang rumit
    • Intuisi manusia berguna untuk evaluasi, dan tidak terlalu dibesar-besarkan seperti model pembangkit teks
    • Metode yang lossy atau berisik pun bisa berguna untuk berbagai pekerjaan kreatif
    • Kesempurnaan tidak diperlukan, dan fitur yang terdistorsi dapat dengan mudah dilihat lalu diperbaiki
    • Konsistensi tidak wajib, tetapi jika tercapai, itu bisa memberi nilai besar untuk aplikasi seperti video
    • Teknik seperti LoRA memungkinkan pengguna non-ahli dengan mudah melatih model karakter, gaya, atau konsep tertentu
    • Model pembangkit gambar/visual telah meningkat pesat selama setahun terakhir, dan laju peningkatannya tidak melambat dibanding model teks
    • Masa depan kemungkinan bukan penggantian total fotografer, sutradara film, dan profesi sejenis, melainkan generasi alat bertenaga AI yang sangat kuat
    • Alat yang dapat menambahkan atau menghapus konsep pada gambar hanya dengan beberapa prompt teks akan sangat berguna
    • Seperti Photoshop pada era 90-an, generasi baru pengguna yang kuat sedang bermunculan
  • Pada gambar ketiga yang diuji, semua AI 3D tampak seperti rendering 2D dari model 3D

    • Diuji dengan gambar cel shading, dan output model terlihat sangat datar dengan topologi yang buruk
    • Tanpa bayangan yang akurat, tampaknya model tidak dapat menghitung ulang normal vector sehingga gagal memahami strukturnya
    • Akan lebih baik jika disebutkan set input yang diperkirakan dapat menghasilkan hasil yang layak
  • Belum sempurna, tapi cukup keren

    • Bisa dipakai sebagai dekorasi berupaya rendah yang menambah kompleksitas pada adegan utama, bukan sebagai aset utama
    • Bisa digunakan dalam situasi yang bukan sekadar 2D billboard impostor
    • Anda bisa menghasilkan gambar dengan Midjourney, Bing, Dalle3 lalu drag-and-drop untuk mendapatkan presentasi 3D yang sangat bagus
    • Bisa digunakan sebagai dekorasi dalam adegan 3D saat kamera tidak melihat bagian belakangnya
  • Tak sabar menunggu teknologi ini membaik

    • Hasil pengujian belum berguna
    • Perlu lebih banyak pekerjaan untuk memperbaiki model buruk dari output gambar
    • Rasanya lebih baik menjalani serangkaian langkah untuk perlahan mendapatkan produk akhir berkualitas lebih tinggi
    • Mungkin saja saya melewatkan use case-nya
  • Dibutuhkan 0,5 detik untuk menghasilkan aset 3D di GPU dengan 7GB VRAM

    • Saya kira ini akan menjadi model khusus data center, tetapi 7GB VRAM menunjukkan bahwa ini bisa berjalan pada perangkat keras yang sudah dimiliki banyak artis 3D
  • Sangat berharap bidang ini benar-benar menghasilkan sesuatu

    • Bisa dicoba dengan drag-and-drop gambar di demo HuggingFace
    • Tidak bekerja baik pada gambar kucing, tetapi cukup bagus pada gambar iPhone
    • Mengesankan pada gambar pancake, dan buruk sekali pada gambar roket
    • Kembali mengesankan pada gambar bola biliar
  • Saya berencana mencetak 3D banyak hal menyenangkan dengan teknologi ini

  • Sepertinya mereka memakai taktik infomersial klasik dengan memudarkan warna gambar pembanding agar terlihat lebih baik

  • Anda bisa berinteraksi dengan model di halaman proyek

  • Ini membangkitkan gairah saya terhadap miniature painting