- Google DeepMind memperkenalkan Veo 3, Imagen 4, dan Flow, memperluas secara revolusioner alat pembuatan video, gambar, dan film
- Veo 3 menghadirkan kemampuan seperti pembuatan video dengan audio, refleksi fisika dunia nyata, dan sinkronisasi bibir
- Imagen 4 unggul untuk produksi output berkat penggambaran detail yang presisi dan kemampuan tipografi yang ditingkatkan
- Flow adalah alat kreasi baru yang mengintegrasikan berbagai model untuk memungkinkan produksi film berbasis bahasa alami
- Semua konten yang dihasilkan akan disisipkan watermark SynthID, dan alat deteksinya juga dirilis untuk memperkuat transparansi
Wujudkan kreativitas dengan model dan alat media generatif baru
- Google mengumumkan model media generatif terbaru Veo 3, Imagen 4, serta alat baru untuk produksi film, Flow
- Model-model ini dapat menghasilkan gambar, video, dan musik, membantu kreator mewujudkan dunia yang mereka bayangkan
- Google DeepMind merancang alat-alat ini bersama pembuat video, musisi, dan seniman, sambil menekankan penggunaan AI yang bertanggung jawab
Veo 3: pembuatan video canggih dengan audio
- Veo 3 menghasilkan video dengan kualitas yang lebih baik daripada Veo 2, dan untuk pertama kalinya memungkinkan pembuatan video yang menyertakan audio seperti suara latar dan dialog
- Melalui prompt berbasis teks atau gambar, model ini dapat membuat video berbasis fisika yang realistis dan sinkronisasi bibir juga akurat
- Kini tersedia di aplikasi Gemini, Flow, dan Vertex AI untuk pengguna paket Ultra di Amerika Serikat
Veo 2: penambahan fitur berdasarkan masukan kreator
-
Veo 2 mendapat fitur-fitur berikut berdasarkan masukan dari para kreator:
- Pembuatan video berbasis referensi: dapat membuat video yang konsisten dengan memasukkan gambar karakter, gaya, objek, dan lainnya
- Kontrol kamera: dapat mengatur gerakan kamera seperti pan, zoom, dan dolly
- Outpainting: dapat memperluas frame untuk mengubah format vertikal ke horizontal dan memperluas adegan secara alami
- Menambah dan menghapus objek: dapat mengedit secara natural dengan mempertimbangkan ukuran objek, bayangan, hingga interaksi
-
Fitur-fitur ini dapat digunakan di Flow, dan akan diterapkan secara bertahap ke Vertex AI API
Flow: alat pembuatan film AI yang dioptimalkan untuk Veo
- Flow mengintegrasikan Veo, Imagen, dan Gemini sehingga pengguna dapat mengatur adegan, karakter, gaya, dan lainnya dengan bahasa alami lalu mewujudkannya menjadi video
- Tersedia untuk pengguna paket AI Pro dan Ultra di Amerika Serikat, dan akan diperluas secara bertahap ke negara lain
Imagen 4: peningkatan resolusi, detail, dan tipografi
- Imagen 4 menawarkan penggambaran tekstur yang halus, dukungan gaya fotorealistis dan abstrak, serta output resolusi 2K
- Fitur tipografinya juga ditingkatkan sehingga menguntungkan untuk pembuatan kartu, poster, dan komik
- Dapat digunakan di aplikasi Gemini, Vertex AI, Slides, Docs, Whisk, dan lainnya, serta versi yang hingga 10 kali lebih cepat akan segera dirilis
Lyria 2: pembuatan musik interaktif
- Model yang termasuk dalam Music AI Sandbox untuk musisi ini mendukung eksperimen kreatif dan memungkinkan eksplorasi musik baru
- Dapat digunakan di YouTube Shorts, Vertex AI, MusicFX DJ, dan lainnya, serta menyediakan interaksi real-time melalui API dan AI Studio
SynthID memungkinkan identifikasi konten buatan AI
- SynthID, yang dimulai sejak 2023, telah menyisipkan watermark ke lebih dari 10 miliar konten buatan AI seperti gambar, video, audio, dan teks
- Melalui SynthID Detector yang baru dirilis, pengguna juga dapat menentukan apakah suatu konten dihasilkan oleh AI
- Google terus melanjutkan perancangan alat yang bertanggung jawab dan kolaborasi terbuka agar AI generatif digunakan untuk membantu kreasi
1 komentar
Komentar Hacker News
Setelah mencobanya sendiri, rasanya performa Imagen 4 tidak jauh meningkat dibanding Imagen 3, dan akurasi prompt-nya sekitar 60%
Menurut saya akan lebih tepat jika menetapkan tingkat keberhasilan atau ambang keberhasilan, lalu mengunci jumlah percobaan untuk pengukuran
Sekarang rasanya alat untuk kalangan profesional sudah jauh melampaui versi open source
model gratis seperti wan atau hunyuan memang hebat, tetapi hasil terbaru dari Google atau Runway terasa satu tingkat di atas
Terutama alat pengeditan—fitur seperti motion, direction, cut, dan penyisipan audio—menjadi pembeda besar yang melampaui kemampuan generasi murni
Suasananya terasa seperti perusahaan besar sedang jelas-jelas membidik bidang agensi iklan/Hollywood
Ada ekspektasi bahwa alat-alat ini akan menjadi standar industri lebih cepat dari yang dibayangkan
Masih perlu maju satu atau dua generasi lagi, tetapi hasilnya dinilai sudah sangat bagus
Generasi lokal juga bisa menghindari moderasi konten platform yang mungkin terlalu ketat
ComfyUI memang sulit bagi pemula, tetapi dibanding memakai alat tertutup yang tidak memberi banyak kendali, sepertinya kanal YouTube kecil dan produksi skala kecil masih akan banyak memilih alat open source
Saat itu artinya apa pun bisa dikodekan dengan kualitas seperti apa pun
Hunyuan Image 2.0 telah diumumkan, dan kualitas serta kecepatan text-to-image/image-to-image-nya sangat mengesankan
Mereka bahkan membuat aplikasi canvas gambar 2D real-time sampai-sampai bisa mereplikasi semua yang sebelumnya ditawarkan Krea
Bedanya, kali ini sayangnya bersifat closed source
Hunyuan 3D 2.0 juga bagus, tetapi 3D 2.5 masih belum dirilis
Hunyuan Video tidak banyak maju dibanding Wan, tetapi Wan belakangan mendapat sorotan lewat VACE, sebuah layer multimodal/editing
Komunitas Comfy juga dinilai menghasilkan karya keren dengan VACE dan Wan
Alasan film indie berbiaya rendah tetap bisa memberi penonton rasa tenggelam, tawa, dan emosi meski penyutradaraan serta aktingnya kurang adalah karena secara keseluruhan ia memiliki konsistensi kualitas yang stabil
Sebaliknya, konten video AI meski tiap klipnya sendiri sangat matang, masih punya keterbatasan dalam menjaga keterlibatan saat banyak klip disatukan menjadi satu karya
Mungkin video AI sudah bisa dipakai untuk konten yang menjaga 'benang merah' cerita lewat pembuka atau suara, tetapi dinilai Hollywood belum sampai tahap perlu khawatir
Disebut juga alasan unsur seperti grain film dan format 24p masih tetap menjadi pilihan artistik
Kanal itu membangun cinematic universe berbasis video AI dengan 180 ribu pelanggan, dan acaranya sangat menarik
Mereka berpendapat bahwa klaim “masih lama sebelum banyak klip video AI bisa dirangkai menjadi sesuatu yang imersif” sudah dipatahkan oleh kenyataan saat ini
Video native AI mungkin akan sangat berbeda dari struktur tiga babak khas Hollywood, tetapi jika penonton berpindah ke sana, Hollywood pada akhirnya akan mengikuti jalur yang sama
Masalah sebenarnya bukan kualitas konten, melainkan kekuatan distribusi dan penyebaran; kritiknya, perusahaan seperti Google sebagai distributor budaya terbesar di dunia justru mengabaikan inti persoalan yang menyiksa dunia seni dan malah mengerahkan tenaga ke arah yang keliru
Kini tampaknya kita sudah berada di titik ketika hampir semua orang setidaknya pernah melihat video buatan AI dan mengiranya asli
Contoh yang terlalu mencolok memang mudah dikenali, tetapi semakin sering mengalaminya, semakin alami pula video AI masuk ke sekitar kita
Google sedang bekerja sama dengan studio AI milik Darren Aronofsky, Primordial Soup
Saat mogok SAG-AFTRA, sempat dibahas pelarangan penggunaan AI di Hollywood, jadi muncul pertanyaan mengapa studio baru ini tidak terdampak
Karena itu mereka tidak bisa mempekerjakan aktor serikat, tetapi tampaknya itu bukan masalah besar bagi karakter perusahaannya
Tingkat teknis hasil kali ini terasa mencengangkan, dan sinkronisasi audio-video benar-benar luar biasa; kualitas dialognya pun mengagumkan hingga setara model suara terpisah
Pada video burung hantu dan video orang tua terasa sedikit uncanny valley, sedangkan video origami memberi kesan agak mengancam dan agresif
Dulu untuk membuat video yang terasa janggal seperti itu dibutuhkan tim pengembang besar, para artis, klaster superkomputer, dan waktu render yang panjang; sekarang cukup klaster besar dan waktu inferensi
Karena teknologi yang luar biasa ini, ada kekaguman tulus pada tim pengembang
Namun pada saat yang sama rasa kecewanya juga besar
Harapannya AI lebih banyak mengotomatisasi pekerjaan yang tidak kreatif, dan para kreator tidak sampai tenggelam dalam banjir konten AI
Akurasi AI saat ini masih sekitar 80%, tetapi menutup sisa 20% itu benar-benar perjalanan yang berat
Ibaratnya meski sudah tiba dengan pesawat cepat (teknologi), langkah terakhir menuju tujuan (kesempurnaan) tetap penuh hambatan seperti macet
Ada antisipasi terhadap kemungkinan-kemungkinan kreatif baru yang akan dibuka AI ke depan
Musik juga begitu; sebelum teknologi rekaman, yang benar-benar nyata hanyalah pertunjukan langsung
Ada sudut pandang bahwa justru era digital saat ini mungkin merupakan periode yang aneh dalam sejarah seni
Justru membuat model dan rigging secara manual selama puluhan jam bisa dipandang sebagai kerja yang lebih tidak kreatif
Menarik melihat logika bahwa model AI menciptakan kreativitas dan membantu seniman mewujudkan visi kreatifnya
Di era baru ini, perannya bergeser dari ‘membuat’ menjadi ‘memunculkan’, sehingga muncul renungan tentang hakikat kreasi: apakah penciptaan berbasis prompt teks benar-benar sebuah ‘visi’, dan apakah jalan seni masih tersisa tanpa ‘proses’
Konsep kreasi itu sendiri sedang didefinisikan ulang secara halus
Redefinisi seperti ini sangat menguntungkan bagi mereka
Hakikat seni, hasil akhir, proses, dan hubungan di antaranya adalah topik yang tak akan habis dibahas
Ada analogi menarik bahwa ini pada dasarnya mirip dengan mencampuradukkan pointer dalam struktur data dengan datanya sendiri
Seperti software engineer mewujudkan visi melalui source code, bidang kreatif pun diperkirakan akan berubah
(musik digital/TV/seni digital)
Analisisnya, hanya segelintir orang yang tersisa dan menganggap cara lama sebagai seni tingkat tinggi
Penasaran apakah ada yang benar-benar sudah memakai Veo3
Video demo-nya memang mengesankan, tetapi saat memakai Sora pengalaman penggunaan nyatanya sangat membuat frustrasi dan hasilnya sering hit-or-miss menurut pengalaman pribadi