Google mengumumkan Veo 3, Imagen 4, dan Flow, alat baru untuk produksi film

(blog.google)

2 poin oleh GN⁺ 2025-05-21 | 1 komentar | Bagikan ke WhatsApp

Google DeepMind memperkenalkan Veo 3, Imagen 4, dan Flow, memperluas secara revolusioner alat pembuatan video, gambar, dan film
Veo 3 menghadirkan kemampuan seperti pembuatan video dengan audio, refleksi fisika dunia nyata, dan sinkronisasi bibir
Imagen 4 unggul untuk produksi output berkat penggambaran detail yang presisi dan kemampuan tipografi yang ditingkatkan
Flow adalah alat kreasi baru yang mengintegrasikan berbagai model untuk memungkinkan produksi film berbasis bahasa alami
Semua konten yang dihasilkan akan disisipkan watermark SynthID, dan alat deteksinya juga dirilis untuk memperkuat transparansi

Wujudkan kreativitas dengan model dan alat media generatif baru

Google mengumumkan model media generatif terbaru Veo 3, Imagen 4, serta alat baru untuk produksi film, Flow
Model-model ini dapat menghasilkan gambar, video, dan musik, membantu kreator mewujudkan dunia yang mereka bayangkan
Google DeepMind merancang alat-alat ini bersama pembuat video, musisi, dan seniman, sambil menekankan penggunaan AI yang bertanggung jawab

Veo 3: pembuatan video canggih dengan audio

Veo 3 menghasilkan video dengan kualitas yang lebih baik daripada Veo 2, dan untuk pertama kalinya memungkinkan pembuatan video yang menyertakan audio seperti suara latar dan dialog
Melalui prompt berbasis teks atau gambar, model ini dapat membuat video berbasis fisika yang realistis dan sinkronisasi bibir juga akurat
Kini tersedia di aplikasi Gemini, Flow, dan Vertex AI untuk pengguna paket Ultra di Amerika Serikat

Veo 2: penambahan fitur berdasarkan masukan kreator

Veo 2 mendapat fitur-fitur berikut berdasarkan masukan dari para kreator:
- Pembuatan video berbasis referensi: dapat membuat video yang konsisten dengan memasukkan gambar karakter, gaya, objek, dan lainnya
- Kontrol kamera: dapat mengatur gerakan kamera seperti pan, zoom, dan dolly
- Outpainting: dapat memperluas frame untuk mengubah format vertikal ke horizontal dan memperluas adegan secara alami
- Menambah dan menghapus objek: dapat mengedit secara natural dengan mempertimbangkan ukuran objek, bayangan, hingga interaksi
Fitur-fitur ini dapat digunakan di Flow, dan akan diterapkan secara bertahap ke Vertex AI API

Flow: alat pembuatan film AI yang dioptimalkan untuk Veo

Flow mengintegrasikan Veo, Imagen, dan Gemini sehingga pengguna dapat mengatur adegan, karakter, gaya, dan lainnya dengan bahasa alami lalu mewujudkannya menjadi video
Tersedia untuk pengguna paket AI Pro dan Ultra di Amerika Serikat, dan akan diperluas secara bertahap ke negara lain

Imagen 4: peningkatan resolusi, detail, dan tipografi

Imagen 4 menawarkan penggambaran tekstur yang halus, dukungan gaya fotorealistis dan abstrak, serta output resolusi 2K
Fitur tipografinya juga ditingkatkan sehingga menguntungkan untuk pembuatan kartu, poster, dan komik
Dapat digunakan di aplikasi Gemini, Vertex AI, Slides, Docs, Whisk, dan lainnya, serta versi yang hingga 10 kali lebih cepat akan segera dirilis

Lyria 2: pembuatan musik interaktif

Model yang termasuk dalam Music AI Sandbox untuk musisi ini mendukung eksperimen kreatif dan memungkinkan eksplorasi musik baru
Dapat digunakan di YouTube Shorts, Vertex AI, MusicFX DJ, dan lainnya, serta menyediakan interaksi real-time melalui API dan AI Studio

SynthID memungkinkan identifikasi konten buatan AI

SynthID, yang dimulai sejak 2023, telah menyisipkan watermark ke lebih dari 10 miliar konten buatan AI seperti gambar, video, audio, dan teks
Melalui SynthID Detector yang baru dirilis, pengguna juga dapat menentukan apakah suatu konten dihasilkan oleh AI
Google terus melanjutkan perancangan alat yang bertanggung jawab dan kolaborasi terbuka agar AI generatif digunakan untuk membantu kreasi

1 komentar

GN⁺ 2025-05-21

Komentar Hacker News

Setelah mencobanya sendiri, rasanya performa Imagen 4 tidak jauh meningkat dibanding Imagen 3, dan akurasi prompt-nya sekitar 60%
- Timbul pertanyaan mengapa saat berhasil hanya dicoba sekali, sementara model yang gagal diulang berkali-kali Saya penasaran apakah pengujian ini menilai “apakah model bisa menjawab dengan benar” atau “apakah model sering menjawab dengan benar”
  Menurut saya akan lebih tepat jika menetapkan tingkat keberhasilan atau ambang keberhasilan, lalu mengunci jumlah percobaan untuk pengukuran
- Di "The Yarrctic Circle", OpenAI 4o memang menang, tetapi pedangnya tidak dipegang, gambarnya memang indah namun sudut pandangnya tidak masuk akal, dan secara anatomi kakinya tampak 150% lebih panjang dari seharusnya Menurut saya ini sumber yang menarik untuk melihat keterbatasan model saat ini
- Tangan pada karya pemenang "Not the Bees" terlihat sama sekali berbeda dari pengemudinya, jadi rasanya sulit dianggap benar-benar lolos
- Penasaran bagaimana cara memastikan apakah yang dipakai benar-benar Imagen 4 atau justru Imagen 3 Di Gemini model yang digunakan tidak diberi tahu, jadi muncul pertanyaan apakah mereka memakai Vertex AI
- Mengusulkan standar uji yang lebih sulit dengan memberi contoh seperti
  - gelas anggur yang terisi penuh
  - jarum jam pada pukul 10 dan 2 (artinya jam yang tidak membentuk huruf V)
  - diagram perakitan rak IKEA 9 langkah
  - segala jenis senam atau akrobatik
Sekarang rasanya alat untuk kalangan profesional sudah jauh melampaui versi open source
model gratis seperti wan atau hunyuan memang hebat, tetapi hasil terbaru dari Google atau Runway terasa satu tingkat di atas
Terutama alat pengeditan—fitur seperti motion, direction, cut, dan penyisipan audio—menjadi pembeda besar yang melampaui kemampuan generasi murni
Suasananya terasa seperti perusahaan besar sedang jelas-jelas membidik bidang agensi iklan/Hollywood
Ada ekspektasi bahwa alat-alat ini akan menjadi standar industri lebih cepat dari yang dibayangkan
Masih perlu maju satu atau dua generasi lagi, tetapi hasilnya dinilai sudah sangat bagus
- Walaupun open source kalah dari sisi kemudahan, di lingkungan profesional kekuatan besar ada pada fitur seperti custom LoRA, ControlNet, dan sejenisnya yang memungkinkan menambahkan elemen yang diinginkan di tengah proses generasi
  Generasi lokal juga bisa menghindari moderasi konten platform yang mungkin terlalu ketat
  ComfyUI memang sulit bagi pemula, tetapi dibanding memakai alat tertutup yang tidak memberi banyak kendali, sepertinya kanal YouTube kecil dan produksi skala kecil masih akan banyak memilih alat open source
- Keberadaan sejati GAI baru akan terbukti ketika perbedaan kualitas menghilang
  Saat itu artinya apa pun bisa dikodekan dengan kualitas seperti apa pun
- Ada pandangan bahwa tujuan sebenarnya dari penargetan agensi/Hollywood adalah bidang periklanan
- Analisis tentang kemajuan tim Tencent Hunyuan
  Hunyuan Image 2.0 telah diumumkan, dan kualitas serta kecepatan text-to-image/image-to-image-nya sangat mengesankan
  Mereka bahkan membuat aplikasi canvas gambar 2D real-time sampai-sampai bisa mereplikasi semua yang sebelumnya ditawarkan Krea
  Bedanya, kali ini sayangnya bersifat closed source
  Hunyuan 3D 2.0 juga bagus, tetapi 3D 2.5 masih belum dirilis
  Hunyuan Video tidak banyak maju dibanding Wan, tetapi Wan belakangan mendapat sorotan lewat VACE, sebuah layer multimodal/editing
  Komunitas Comfy juga dinilai menghasilkan karya keren dengan VACE dan Wan
Alasan film indie berbiaya rendah tetap bisa memberi penonton rasa tenggelam, tawa, dan emosi meski penyutradaraan serta aktingnya kurang adalah karena secara keseluruhan ia memiliki konsistensi kualitas yang stabil
Sebaliknya, konten video AI meski tiap klipnya sendiri sangat matang, masih punya keterbatasan dalam menjaga keterlibatan saat banyak klip disatukan menjadi satu karya
Mungkin video AI sudah bisa dipakai untuk konten yang menjaga 'benang merah' cerita lewat pembuka atau suara, tetapi dinilai Hollywood belum sampai tahap perlu khawatir
Disebut juga alasan unsur seperti grain film dan format 24p masih tetap menjadi pilihan artistik
- Merekomendasikan kanal YouTube NeuralViz
  Kanal itu membangun cinematic universe berbasis video AI dengan 180 ribu pelanggan, dan acaranya sangat menarik
  Mereka berpendapat bahwa klaim “masih lama sebelum banyak klip video AI bisa dirangkai menjadi sesuatu yang imersif” sudah dipatahkan oleh kenyataan saat ini
- Dampak konten video AI terhadap Hollywood mirip dengan dampak fotografi terhadap seni lukis
  Video native AI mungkin akan sangat berbeda dari struktur tiga babak khas Hollywood, tetapi jika penonton berpindah ke sana, Hollywood pada akhirnya akan mengikuti jalur yang sama
- Kita sudah hidup di zaman ketika konten bagus yang bisa ditonton berlimpah
  Masalah sebenarnya bukan kualitas konten, melainkan kekuatan distribusi dan penyebaran; kritiknya, perusahaan seperti Google sebagai distributor budaya terbesar di dunia justru mengabaikan inti persoalan yang menyiksa dunia seni dan malah mengerahkan tenaga ke arah yang keliru
Kini tampaknya kita sudah berada di titik ketika hampir semua orang setidaknya pernah melihat video buatan AI dan mengiranya asli
Contoh yang terlalu mencolok memang mudah dikenali, tetapi semakin sering mengalaminya, semakin alami pula video AI masuk ke sekitar kita
Google sedang bekerja sama dengan studio AI milik Darren Aronofsky, Primordial Soup
Saat mogok SAG-AFTRA, sempat dibahas pelarangan penggunaan AI di Hollywood, jadi muncul pertanyaan mengapa studio baru ini tidak terdampak
- Karena Primordial Soup adalah perusahaan yang tidak terkait serikat, sehingga tidak terikat pada perjanjian mogok
  Karena itu mereka tidak bisa mempekerjakan aktor serikat, tetapi tampaknya itu bukan masalah besar bagi karakter perusahaannya
Tingkat teknis hasil kali ini terasa mencengangkan, dan sinkronisasi audio-video benar-benar luar biasa; kualitas dialognya pun mengagumkan hingga setara model suara terpisah
Pada video burung hantu dan video orang tua terasa sedikit uncanny valley, sedangkan video origami memberi kesan agak mengancam dan agresif
- Terasa jelas kemajuan luar biasa selama 20 tahun terakhir
  Dulu untuk membuat video yang terasa janggal seperti itu dibutuhkan tim pengembang besar, para artis, klaster superkomputer, dan waktu render yang panjang; sekarang cukup klaster besar dan waktu inferensi
- Pada versi karakter rajutan di bagian bawah halaman, hasilnya terasa jauh lebih baik, dan muncul insight bahwa semakin jauh dari realitas, semakin mudah menghindari uncanny valley
- Video burung hantu punya “kilap” khas gambar AI, sementara video orang tua dinilai sangat mengesankan
- Untuk origami, audionya terasa lebih realistis daripada videonya, seperti melihat pantulan diri masing-masing di sana
Karena teknologi yang luar biasa ini, ada kekaguman tulus pada tim pengembang
Namun pada saat yang sama rasa kecewanya juga besar
Harapannya AI lebih banyak mengotomatisasi pekerjaan yang tidak kreatif, dan para kreator tidak sampai tenggelam dalam banjir konten AI
- Dijelaskan bahwa otomatisasi pekerjaan nonkreatif juga akan datang, tetapi itu lebih sulit dan butuh waktu lebih lama karena memerlukan akurasi lebih tinggi
  Akurasi AI saat ini masih sekitar 80%, tetapi menutup sisa 20% itu benar-benar perjalanan yang berat
  Ibaratnya meski sudah tiba dengan pesawat cepat (teknologi), langkah terakhir menuju tujuan (kesempurnaan) tetap penuh hambatan seperti macet
- Saat topik seperti ini muncul, sering terlihat gatekeeping yang sangat besar, tetapi ada juga pandangan positif bahwa AI memungkinkan lebih banyak orang mengakses proses kreatif
  Ada antisipasi terhadap kemungkinan-kemungkinan kreatif baru yang akan dibuka AI ke depan
- Ada pendapat bahwa data untuk pekerjaan nonkreatif justru lebih sulit dikumpulkan tanpa persetujuan orang lain
- Dulu karya seni, terutama yang digital, tidak tersebar semudah ini
  Musik juga begitu; sebelum teknologi rekaman, yang benar-benar nyata hanyalah pertunjukan langsung
  Ada sudut pandang bahwa justru era digital saat ini mungkin merupakan periode yang aneh dalam sejarah seni
- Ada yang berkata “AI akan mengubur kreator di bawah tumpukan karya buatan AI”, tetapi memasukkan prompt ke AI secara cermat juga merupakan bentuk kreasi
  Justru membuat model dan rigging secara manual selama puluhan jam bisa dipandang sebagai kerja yang lebih tidak kreatif
Menarik melihat logika bahwa model AI menciptakan kreativitas dan membantu seniman mewujudkan visi kreatifnya
Di era baru ini, perannya bergeser dari ‘membuat’ menjadi ‘memunculkan’, sehingga muncul renungan tentang hakikat kreasi: apakah penciptaan berbasis prompt teks benar-benar sebuah ‘visi’, dan apakah jalan seni masih tersisa tanpa ‘proses’
Konsep kreasi itu sendiri sedang didefinisikan ulang secara halus
- Ada kritik bahwa dalam proses redefinisi ini, 2-3 platform besar justru akan memonopoli sarana produksi
  Redefinisi seperti ini sangat menguntungkan bagi mereka
- Jika ingin percaya bahwa visi kreatif bisa dipadatkan menjadi satu prompt, itu berarti menganggap imajinasi itu sendiri punya batas
  Hakikat seni, hasil akhir, proses, dan hubungan di antaranya adalah topik yang tak akan habis dibahas
  Ada analogi menarik bahwa ini pada dasarnya mirip dengan mencampuradukkan pointer dalam struktur data dengan datanya sendiri
- Prompt teks memang sangat singkat, tetapi jika kemampuan mengikuti prompt makin baik, perubahan besar tak terelakkan
  Seperti software engineer mewujudkan visi melalui source code, bidang kreatif pun diperkirakan akan berubah
- Ada pandangan bahwa perusahaan LLM punya strategi membuat orang bergantung pada layanan mereka, agar mereka bisa mengambil keuntungan perantara dari seluruh aktivitas ekonomi
- Opera/teater/seni kerja tangan juga pernah melalui proses serupa, dan pada akhirnya orang makin berpindah ke sesuatu yang lebih mudah dan nyaman dikonsumsi
  (musik digital/TV/seni digital)
  Analisisnya, hanya segelintir orang yang tersisa dan menganggap cara lama sebagai seni tingkat tinggi
Penasaran apakah ada yang benar-benar sudah memakai Veo3
Video demo-nya memang mengesankan, tetapi saat memakai Sora pengalaman penggunaan nyatanya sangat membuat frustrasi dan hasilnya sering hit-or-miss menurut pengalaman pribadi

Google mengumumkan Veo 3, Imagen 4, dan Flow, alat baru untuk produksi film

Wujudkan kreativitas dengan model dan alat media generatif baru

Veo 3: pembuatan video canggih dengan audio

Veo 2: penambahan fitur berdasarkan masukan kreator

Flow: alat pembuatan film AI yang dioptimalkan untuk Veo

Imagen 4: peningkatan resolusi, detail, dan tipografi

Lyria 2: pembuatan musik interaktif

SynthID memungkinkan identifikasi konten buatan AI

Bacaan terkait

1 komentar

Komentar Hacker News