2 poin oleh GN⁺ 2025-05-21 | 1 komentar | Bagikan ke WhatsApp
  • Google DeepMind memperkenalkan Veo 3, Imagen 4, dan Flow, memperluas secara revolusioner alat pembuatan video, gambar, dan film
  • Veo 3 menghadirkan kemampuan seperti pembuatan video dengan audio, refleksi fisika dunia nyata, dan sinkronisasi bibir
  • Imagen 4 unggul untuk produksi output berkat penggambaran detail yang presisi dan kemampuan tipografi yang ditingkatkan
  • Flow adalah alat kreasi baru yang mengintegrasikan berbagai model untuk memungkinkan produksi film berbasis bahasa alami
  • Semua konten yang dihasilkan akan disisipkan watermark SynthID, dan alat deteksinya juga dirilis untuk memperkuat transparansi

Wujudkan kreativitas dengan model dan alat media generatif baru

  • Google mengumumkan model media generatif terbaru Veo 3, Imagen 4, serta alat baru untuk produksi film, Flow
  • Model-model ini dapat menghasilkan gambar, video, dan musik, membantu kreator mewujudkan dunia yang mereka bayangkan
  • Google DeepMind merancang alat-alat ini bersama pembuat video, musisi, dan seniman, sambil menekankan penggunaan AI yang bertanggung jawab

Veo 3: pembuatan video canggih dengan audio

  • Veo 3 menghasilkan video dengan kualitas yang lebih baik daripada Veo 2, dan untuk pertama kalinya memungkinkan pembuatan video yang menyertakan audio seperti suara latar dan dialog
  • Melalui prompt berbasis teks atau gambar, model ini dapat membuat video berbasis fisika yang realistis dan sinkronisasi bibir juga akurat
  • Kini tersedia di aplikasi Gemini, Flow, dan Vertex AI untuk pengguna paket Ultra di Amerika Serikat

Veo 2: penambahan fitur berdasarkan masukan kreator

  • Veo 2 mendapat fitur-fitur berikut berdasarkan masukan dari para kreator:

    • Pembuatan video berbasis referensi: dapat membuat video yang konsisten dengan memasukkan gambar karakter, gaya, objek, dan lainnya
    • Kontrol kamera: dapat mengatur gerakan kamera seperti pan, zoom, dan dolly
    • Outpainting: dapat memperluas frame untuk mengubah format vertikal ke horizontal dan memperluas adegan secara alami
    • Menambah dan menghapus objek: dapat mengedit secara natural dengan mempertimbangkan ukuran objek, bayangan, hingga interaksi
  • Fitur-fitur ini dapat digunakan di Flow, dan akan diterapkan secara bertahap ke Vertex AI API

Flow: alat pembuatan film AI yang dioptimalkan untuk Veo

  • Flow mengintegrasikan Veo, Imagen, dan Gemini sehingga pengguna dapat mengatur adegan, karakter, gaya, dan lainnya dengan bahasa alami lalu mewujudkannya menjadi video
  • Tersedia untuk pengguna paket AI Pro dan Ultra di Amerika Serikat, dan akan diperluas secara bertahap ke negara lain

Imagen 4: peningkatan resolusi, detail, dan tipografi

  • Imagen 4 menawarkan penggambaran tekstur yang halus, dukungan gaya fotorealistis dan abstrak, serta output resolusi 2K
  • Fitur tipografinya juga ditingkatkan sehingga menguntungkan untuk pembuatan kartu, poster, dan komik
  • Dapat digunakan di aplikasi Gemini, Vertex AI, Slides, Docs, Whisk, dan lainnya, serta versi yang hingga 10 kali lebih cepat akan segera dirilis

Lyria 2: pembuatan musik interaktif

  • Model yang termasuk dalam Music AI Sandbox untuk musisi ini mendukung eksperimen kreatif dan memungkinkan eksplorasi musik baru
  • Dapat digunakan di YouTube Shorts, Vertex AI, MusicFX DJ, dan lainnya, serta menyediakan interaksi real-time melalui API dan AI Studio

SynthID memungkinkan identifikasi konten buatan AI

  • SynthID, yang dimulai sejak 2023, telah menyisipkan watermark ke lebih dari 10 miliar konten buatan AI seperti gambar, video, audio, dan teks
  • Melalui SynthID Detector yang baru dirilis, pengguna juga dapat menentukan apakah suatu konten dihasilkan oleh AI
  • Google terus melanjutkan perancangan alat yang bertanggung jawab dan kolaborasi terbuka agar AI generatif digunakan untuk membantu kreasi

1 komentar

 
GN⁺ 2025-05-21
Komentar Hacker News
  • Setelah mencobanya sendiri, rasanya performa Imagen 4 tidak jauh meningkat dibanding Imagen 3, dan akurasi prompt-nya sekitar 60%

    • Timbul pertanyaan mengapa saat berhasil hanya dicoba sekali, sementara model yang gagal diulang berkali-kali Saya penasaran apakah pengujian ini menilai “apakah model bisa menjawab dengan benar” atau “apakah model sering menjawab dengan benar”
      Menurut saya akan lebih tepat jika menetapkan tingkat keberhasilan atau ambang keberhasilan, lalu mengunci jumlah percobaan untuk pengukuran
    • Di "The Yarrctic Circle", OpenAI 4o memang menang, tetapi pedangnya tidak dipegang, gambarnya memang indah namun sudut pandangnya tidak masuk akal, dan secara anatomi kakinya tampak 150% lebih panjang dari seharusnya Menurut saya ini sumber yang menarik untuk melihat keterbatasan model saat ini
    • Tangan pada karya pemenang "Not the Bees" terlihat sama sekali berbeda dari pengemudinya, jadi rasanya sulit dianggap benar-benar lolos
    • Penasaran bagaimana cara memastikan apakah yang dipakai benar-benar Imagen 4 atau justru Imagen 3 Di Gemini model yang digunakan tidak diberi tahu, jadi muncul pertanyaan apakah mereka memakai Vertex AI
    • Mengusulkan standar uji yang lebih sulit dengan memberi contoh seperti
      • gelas anggur yang terisi penuh
      • jarum jam pada pukul 10 dan 2 (artinya jam yang tidak membentuk huruf V)
      • diagram perakitan rak IKEA 9 langkah
      • segala jenis senam atau akrobatik
  • Sekarang rasanya alat untuk kalangan profesional sudah jauh melampaui versi open source
    model gratis seperti wan atau hunyuan memang hebat, tetapi hasil terbaru dari Google atau Runway terasa satu tingkat di atas
    Terutama alat pengeditan—fitur seperti motion, direction, cut, dan penyisipan audio—menjadi pembeda besar yang melampaui kemampuan generasi murni
    Suasananya terasa seperti perusahaan besar sedang jelas-jelas membidik bidang agensi iklan/Hollywood
    Ada ekspektasi bahwa alat-alat ini akan menjadi standar industri lebih cepat dari yang dibayangkan
    Masih perlu maju satu atau dua generasi lagi, tetapi hasilnya dinilai sudah sangat bagus

    • Walaupun open source kalah dari sisi kemudahan, di lingkungan profesional kekuatan besar ada pada fitur seperti custom LoRA, ControlNet, dan sejenisnya yang memungkinkan menambahkan elemen yang diinginkan di tengah proses generasi
      Generasi lokal juga bisa menghindari moderasi konten platform yang mungkin terlalu ketat
      ComfyUI memang sulit bagi pemula, tetapi dibanding memakai alat tertutup yang tidak memberi banyak kendali, sepertinya kanal YouTube kecil dan produksi skala kecil masih akan banyak memilih alat open source
    • Keberadaan sejati GAI baru akan terbukti ketika perbedaan kualitas menghilang
      Saat itu artinya apa pun bisa dikodekan dengan kualitas seperti apa pun
    • Ada pandangan bahwa tujuan sebenarnya dari penargetan agensi/Hollywood adalah bidang periklanan
    • Analisis tentang kemajuan tim Tencent Hunyuan
      Hunyuan Image 2.0 telah diumumkan, dan kualitas serta kecepatan text-to-image/image-to-image-nya sangat mengesankan
      Mereka bahkan membuat aplikasi canvas gambar 2D real-time sampai-sampai bisa mereplikasi semua yang sebelumnya ditawarkan Krea
      Bedanya, kali ini sayangnya bersifat closed source
      Hunyuan 3D 2.0 juga bagus, tetapi 3D 2.5 masih belum dirilis
      Hunyuan Video tidak banyak maju dibanding Wan, tetapi Wan belakangan mendapat sorotan lewat VACE, sebuah layer multimodal/editing
      Komunitas Comfy juga dinilai menghasilkan karya keren dengan VACE dan Wan
  • Alasan film indie berbiaya rendah tetap bisa memberi penonton rasa tenggelam, tawa, dan emosi meski penyutradaraan serta aktingnya kurang adalah karena secara keseluruhan ia memiliki konsistensi kualitas yang stabil
    Sebaliknya, konten video AI meski tiap klipnya sendiri sangat matang, masih punya keterbatasan dalam menjaga keterlibatan saat banyak klip disatukan menjadi satu karya
    Mungkin video AI sudah bisa dipakai untuk konten yang menjaga 'benang merah' cerita lewat pembuka atau suara, tetapi dinilai Hollywood belum sampai tahap perlu khawatir
    Disebut juga alasan unsur seperti grain film dan format 24p masih tetap menjadi pilihan artistik

    • Merekomendasikan kanal YouTube NeuralViz
      Kanal itu membangun cinematic universe berbasis video AI dengan 180 ribu pelanggan, dan acaranya sangat menarik
      Mereka berpendapat bahwa klaim “masih lama sebelum banyak klip video AI bisa dirangkai menjadi sesuatu yang imersif” sudah dipatahkan oleh kenyataan saat ini
    • Dampak konten video AI terhadap Hollywood mirip dengan dampak fotografi terhadap seni lukis
      Video native AI mungkin akan sangat berbeda dari struktur tiga babak khas Hollywood, tetapi jika penonton berpindah ke sana, Hollywood pada akhirnya akan mengikuti jalur yang sama
    • Kita sudah hidup di zaman ketika konten bagus yang bisa ditonton berlimpah
      Masalah sebenarnya bukan kualitas konten, melainkan kekuatan distribusi dan penyebaran; kritiknya, perusahaan seperti Google sebagai distributor budaya terbesar di dunia justru mengabaikan inti persoalan yang menyiksa dunia seni dan malah mengerahkan tenaga ke arah yang keliru
  • Kini tampaknya kita sudah berada di titik ketika hampir semua orang setidaknya pernah melihat video buatan AI dan mengiranya asli
    Contoh yang terlalu mencolok memang mudah dikenali, tetapi semakin sering mengalaminya, semakin alami pula video AI masuk ke sekitar kita

  • Google sedang bekerja sama dengan studio AI milik Darren Aronofsky, Primordial Soup
    Saat mogok SAG-AFTRA, sempat dibahas pelarangan penggunaan AI di Hollywood, jadi muncul pertanyaan mengapa studio baru ini tidak terdampak

    • Karena Primordial Soup adalah perusahaan yang tidak terkait serikat, sehingga tidak terikat pada perjanjian mogok
      Karena itu mereka tidak bisa mempekerjakan aktor serikat, tetapi tampaknya itu bukan masalah besar bagi karakter perusahaannya
  • Tingkat teknis hasil kali ini terasa mencengangkan, dan sinkronisasi audio-video benar-benar luar biasa; kualitas dialognya pun mengagumkan hingga setara model suara terpisah

  • Pada video burung hantu dan video orang tua terasa sedikit uncanny valley, sedangkan video origami memberi kesan agak mengancam dan agresif

    • Terasa jelas kemajuan luar biasa selama 20 tahun terakhir
      Dulu untuk membuat video yang terasa janggal seperti itu dibutuhkan tim pengembang besar, para artis, klaster superkomputer, dan waktu render yang panjang; sekarang cukup klaster besar dan waktu inferensi
    • Pada versi karakter rajutan di bagian bawah halaman, hasilnya terasa jauh lebih baik, dan muncul insight bahwa semakin jauh dari realitas, semakin mudah menghindari uncanny valley
    • Video burung hantu punya “kilap” khas gambar AI, sementara video orang tua dinilai sangat mengesankan
    • Untuk origami, audionya terasa lebih realistis daripada videonya, seperti melihat pantulan diri masing-masing di sana
  • Karena teknologi yang luar biasa ini, ada kekaguman tulus pada tim pengembang
    Namun pada saat yang sama rasa kecewanya juga besar
    Harapannya AI lebih banyak mengotomatisasi pekerjaan yang tidak kreatif, dan para kreator tidak sampai tenggelam dalam banjir konten AI

    • Dijelaskan bahwa otomatisasi pekerjaan nonkreatif juga akan datang, tetapi itu lebih sulit dan butuh waktu lebih lama karena memerlukan akurasi lebih tinggi
      Akurasi AI saat ini masih sekitar 80%, tetapi menutup sisa 20% itu benar-benar perjalanan yang berat
      Ibaratnya meski sudah tiba dengan pesawat cepat (teknologi), langkah terakhir menuju tujuan (kesempurnaan) tetap penuh hambatan seperti macet
    • Saat topik seperti ini muncul, sering terlihat gatekeeping yang sangat besar, tetapi ada juga pandangan positif bahwa AI memungkinkan lebih banyak orang mengakses proses kreatif
      Ada antisipasi terhadap kemungkinan-kemungkinan kreatif baru yang akan dibuka AI ke depan
    • Ada pendapat bahwa data untuk pekerjaan nonkreatif justru lebih sulit dikumpulkan tanpa persetujuan orang lain
    • Dulu karya seni, terutama yang digital, tidak tersebar semudah ini
      Musik juga begitu; sebelum teknologi rekaman, yang benar-benar nyata hanyalah pertunjukan langsung
      Ada sudut pandang bahwa justru era digital saat ini mungkin merupakan periode yang aneh dalam sejarah seni
    • Ada yang berkata “AI akan mengubur kreator di bawah tumpukan karya buatan AI”, tetapi memasukkan prompt ke AI secara cermat juga merupakan bentuk kreasi
      Justru membuat model dan rigging secara manual selama puluhan jam bisa dipandang sebagai kerja yang lebih tidak kreatif
  • Menarik melihat logika bahwa model AI menciptakan kreativitas dan membantu seniman mewujudkan visi kreatifnya
    Di era baru ini, perannya bergeser dari ‘membuat’ menjadi ‘memunculkan’, sehingga muncul renungan tentang hakikat kreasi: apakah penciptaan berbasis prompt teks benar-benar sebuah ‘visi’, dan apakah jalan seni masih tersisa tanpa ‘proses’
    Konsep kreasi itu sendiri sedang didefinisikan ulang secara halus

    • Ada kritik bahwa dalam proses redefinisi ini, 2-3 platform besar justru akan memonopoli sarana produksi
      Redefinisi seperti ini sangat menguntungkan bagi mereka
    • Jika ingin percaya bahwa visi kreatif bisa dipadatkan menjadi satu prompt, itu berarti menganggap imajinasi itu sendiri punya batas
      Hakikat seni, hasil akhir, proses, dan hubungan di antaranya adalah topik yang tak akan habis dibahas
      Ada analogi menarik bahwa ini pada dasarnya mirip dengan mencampuradukkan pointer dalam struktur data dengan datanya sendiri
    • Prompt teks memang sangat singkat, tetapi jika kemampuan mengikuti prompt makin baik, perubahan besar tak terelakkan
      Seperti software engineer mewujudkan visi melalui source code, bidang kreatif pun diperkirakan akan berubah
    • Ada pandangan bahwa perusahaan LLM punya strategi membuat orang bergantung pada layanan mereka, agar mereka bisa mengambil keuntungan perantara dari seluruh aktivitas ekonomi
    • Opera/teater/seni kerja tangan juga pernah melalui proses serupa, dan pada akhirnya orang makin berpindah ke sesuatu yang lebih mudah dan nyaman dikonsumsi
      (musik digital/TV/seni digital)
      Analisisnya, hanya segelintir orang yang tersisa dan menganggap cara lama sebagai seni tingkat tinggi
  • Penasaran apakah ada yang benar-benar sudah memakai Veo3
    Video demo-nya memang mengesankan, tetapi saat memakai Sora pengalaman penggunaan nyatanya sangat membuat frustrasi dan hasilnya sering hit-or-miss menurut pengalaman pribadi