1 poin oleh GN⁺ 2025-10-24 | 1 komentar | Bagikan ke WhatsApp
  • Ovi yang dikembangkan oleh Character AI adalah model AI yang menghasilkan audio dan video secara bersamaan dari input teks atau gambar
  • Ovi menggabungkan cabang audio berukuran 5B yang dibangun sendiri dengan cabang video berbasis Wan2.2 untuk menghasilkan konten audiovisual tersinkronisasi berkualitas tinggi
  • Model ini dilatih pada resolusi 720×720, tetapi tetap menghasilkan output yang natural pada resolusi 960×960 ke atas, serta mendukung berbagai rasio aspek (9:16, 16:9, dll.)
  • Menyediakan berbagai opsi eksekusi dan fitur efisiensi seperti Gradio UI, integrasi ComfyUI (WIP), inferensi multi-GPU, dan kuantisasi qint8/fp8
  • Proyek ini merupakan contoh terbaru dari kemajuan teknologi generasi teks-ke-video (T2V) dan gambar-ke-video (I2V), sekaligus menghadirkan standar baru untuk generasi gabungan audio-video

Ikhtisar Ovi

  • Ovi adalah model generatif lintas-modal yang dikembangkan bersama oleh Character AI dan para peneliti Yale University, berupa sistem yang menghasilkan audio dan video tersinkronisasi secara bersamaan dari input teks atau teks+gambar
    • Arsitektur modelnya dinamai "Twin Backbone Cross-Modal Fusion", menggunakan pendekatan pelatihan paralel dan fusi antara cabang audio dan video
    • Pimpinan proyek adalah Weimin Wang, dengan kontributor bersama Chetwin Low dan Calder Katyal
  • Diperkenalkan sebagai model mirip Veo-3, Ovi memanfaatkan dataset audio internal Character AI untuk melakukan pra-pelatihan dari nol pada cabang audio berskala 5B parameter
  • Video yang dihasilkan secara default berdurasi 5 detik, 24FPS, resolusi 720×720, dan mendukung berbagai rasio seperti 9:16, 16:9, dan 1:1

Fitur dan Karakteristik Utama

  • 🎬 Video+Audio Generation: menghasilkan audio dan video secara bersamaan dari input teks atau gambar
  • 🎵 High-Quality Audio Branch: menyediakan cabang audio yang dilatih dengan dataset audio skala besar yang dibangun sendiri
  • 📝 Flexible Input: mendukung input teks saja maupun teks+gambar
  • ⏱️ Generasi video 5 detik: menghasilkan video pendek berdurasi 5 detik pada 24FPS
  • 🎯 Dukungan resolusi tinggi: mampu menghasilkan output natural bahkan pada resolusi 960×960 ke atas
    • Contohnya tersedia video dengan berbagai rasio seperti 1280×704, 1504×608, dan 1344×704
  • 🚀 Kemampuan upscaling: meski dilatih pada 720×720, model tetap menjaga konsistensi temporal dan spasial pada resolusi tinggi

Platform dan Demo yang Tersedia

Pelatihan dan Kinerja

  • Resolusi pelatihan: 720×720
  • Ekspansi resolusi saat inferensi: mendukung 960×960 dan berbagai rasio aspek
  • Menjaga konsistensi temporal: mewujudkan transisi alami antar-frame
  • Kualitas sinkronisasi audio-video: kualitas sinkronisasi dapat dikendalikan dengan menyesuaikan audio guidance scale

Eksekusi dan Konfigurasi

  • Prosedur instalasi
    • Instal PyTorch 2.6.0, Flash Attention, dan dependensi requirements.txt
    • Unduh checkpoint dengan download_weights.py (termasuk T5, VAE, MMAudio)
    • Jika GPU VRAM 24GB, dapat menggunakan versi kuantisasi fp8 atau qint8
  • File konfigurasi inferensi: ovi/configs/inference/inference_fusion.yaml
    • Item pengaturan utama:
      • num_steps: jumlah langkah denoising (30~50)
      • audio_guidance_scale, video_guidance_scale: kekuatan sinkronisasi audio dan video
      • sp_size: ukuran sequence parallel (atur sama dengan jumlah GPU)
      • cpu_offload: mode penghemat GPU VRAM
      • fp8: dapat dijalankan pada lingkungan VRAM 24GB
  • Contoh eksekusi inferensi
    • GPU tunggal: python3 inference.py --config-file ...
    • Multi-GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Kinerja dan Kebutuhan Memori

  • Model dasar membutuhkan minimal 32GB VRAM, dan dapat dijalankan dengan 24GB dalam mode fp8
  • FlashAttention-3 dapat meningkatkan kecepatan pemrosesan saat diaktifkan
  • Dengan pemrosesan sequence parallel, waktu pemrosesan berada di kisaran 40~55 detik saat menggunakan 4~8 GPU
  • Dengan CPU offloading, VRAM dapat dihemat, tetapi waktu pemrosesan bertambah sekitar 20 detik

Menjalankan Gradio UI

  • Antarmuka berbasis Gradio dapat dijalankan dengan perintah sederhana
    • python3 gradio_app.py
    • Mendukung berbagai lingkungan melalui opsi --cpu_offload, --use_image_gen, --qint8, --fp8
  • Pada mode I2V, model generasi gambar untuk membuat frame pertama akan diaktifkan secara otomatis

Struktur Prompt dan Contoh

  • Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
  • Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
  • Penggunaan tag khusus
    • ...: teks untuk konversi suara
    • ...: deskripsi musik latar dan efek suara
  • Pembuatan prompt dengan GPT
    • Berdasarkan CSV contoh, minta GPT mengubah dialog ke topik tertentu (misalnya “pertarungan AI dan manusia”)
    • Prompt yang sudah dimodifikasi kemudian dimasukkan ke Ovi untuk menghasilkan video berbasis topik

Rencana Selanjutnya (Todo List)

  • Makalah riset dan situs demo web akan dirilis
  • Checkpoint model 11B dan kode inferensi multi-GPU akan dipublikasikan
  • Bobot fp8, peningkatan efisiensi sequence parallel, dan inferensi sharding FSDP sedang direncanakan
  • Sedang dilakukan riset untuk fine-tuning data resolusi tinggi dan peningkatan performa berbasis RL
  • Direncanakan pengembangan untuk generasi video panjang, kondisi suara referensi, dan model distilled untuk percepatan inferensi

Apresiasi Teknis dan Kolaborasi

  • Wan2.2: digunakan untuk inisialisasi cabang video
  • MMAudio: VAE audio digunakan kembali
  • Kontributor: @rkfg (efisiensi fp8), @gluttony-10 (kuantisasi qint8)
  • Usulan kolaborasi dan pertanyaan: dapat menghubungi Weimin Wang

Informasi Sitasi

  • Makalah: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • arXiv: https://arxiv.org/abs/2510.01284
  • BibTeX tersedia, sitasi dianjurkan saat menggunakan penelitian ini

Metadata Proyek

  • Lisensi: Apache-2.0
  • Komposisi bahasa: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
  • Statistik GitHub: ★955, fork 92, issue 20, PR 2
  • Pengembang: tim Character AI, para peneliti Yale University

1 komentar

 
GN⁺ 2025-10-24
Komentar Hacker News
  • Sudah berbulan-bulan saya memakai alat generatif AI, dan yang mengejutkan adalah bagaimana tiap alat dengan cepat menyatu jadi satu dan bahkan bisa dipakai di mesin lokal
    Saya sudah mencoba Ovi sejak minggu lalu dan ini benar-benar menyenangkan. Hasil generatif AI itu seperti mesin slot; bahkan kalau memasukkan prompt yang bagus, hasilnya kadang berantakan, tapi kalau dijalankan beberapa kali, biasanya keluar sesuatu yang lumayan
    Saya berhasil membuat video yang terlihat dan terdengar cukup nyata dengan I2V dan T2V. T2V kadang terlihat seperti kualitas TV era 90-an, tapi justru itu terasa lebih realistis
    Kalau memakai Flux SPRO sebagai sumber gambar, hasil videonya jadi cukup realistis. GPU saya 5090, dan butuh sekitar 4–5 menit untuk membuat klip 5 detik

  • Sepertinya model videonya berbasis Wan 2.2
    Belakangan aktivitas terkait Wan sangat ramai, dan senang rasanya melihat munculnya model terbuka yang fleksibel untuk menandingi model tertutup milik pemodal besar seperti OpenAI atau Runway

    • Yang paling menonjol adalah model video open source berfokus privasi yang disediakan VeniceAI. Ovi mendukung image→video, Wan 2.1 mendukung image→video, dan Wan 2.2 mendukung text→video
      Ada juga Wan 2.5, tetapi dirutekan secara anonim melalui penyedia resmi. Jauh lebih murah dibanding opsi perantara seperti Kling, Veo, atau Sora
    • Pembahasan terkait juga muncul di thread Wan – Open-source alternative to VEO 3
    • Dan Google juga terlibat di sini
  • Dulu saya pernah bekerja di Ovi milik Nokia. Waktu itu Ovi adalah semacam GSuite untuk ponsel Nokia, dan penjelasan resminya adalah “Ovi berarti pintu dalam bahasa Finlandia”, tetapi lelucon internalnya adalah “taman kanak-kanak dalam bahasa Hungaria”. Saya belum menemukan asal-usul nama Ovi yang ini

    • Saya juga pernah bekerja di proyek terkait Ovi. Dalam rapat-rapat awal di kantor pusat Helsinki, saya mendengar para eksekutif berbicara soal menjadikan Google sebagai pesaing, dan itu adalah upaya yang cukup berani
      Namun akhirnya runtuh karena terikat oleh ketiadaan strategi merek dan kebijakan software perangkat yang gagal. Mungkin benar-benar dihentikan sekitar 2013. Saat itu saya sudah keluar dari perusahaan
  • Mungkin karena telinga saya berasal dari era sebelum AutoTune, saya masih bisa merasakan jejak pitch yang terlalu sempurna dan companding pada audionya
    Terutama terdengar mirip suara karakter Machine Head di serial Invincible
    Meski begitu, secara keseluruhan ini pekerjaan yang luar biasa

  • Proyeknya sendiri menarik, tetapi saya masih belum yakin soal kegunaan praktis konten audio-visual generatif
    Untuk saat ini, kelihatannya lebih banyak unsur merepotkannya daripada manfaatnya

  • Dengan kecepatan seperti ini, rasanya dalam beberapa bulan film pendek berkualitas tinggi bisa saja dibuat sepenuhnya secara generatif

    • Tapi pada saat yang sama, sepertinya juga akan muncul kasus penyalahgunaan deepfake yang menghancurkan hidup orang
    • Di sisi lain, mungkin justru akan muncul masa depan seperti pesta prompt, di mana teman-teman berkumpul, masing-masing menulis prompt, lalu menyambung hasilnya dan menonton film bersama. Membayangkannya saja sudah lucu
    • Meski begitu, saya justru merasa film panjang akan muncul lebih dulu daripada film pendek. Semakin pendek videonya, semakin sulit mencapai hasil yang benar-benar matang
  • Saya penasaran apakah proyek-proyek ini saling berhubungan, jadi saya membandingkan thread ini dan thread ini

    • Begitu ada model open-weight baru muncul, para oportunis akan mendaftarkan domain dengan nama itu dan mencoba menghasilkan uang dari SEO
      Sekarang hal seperti pembuatan landing page otomatis jadi jauh lebih mudah berkat alat coding AI
  • Untuk I2V, kalau punya GPU NVIDIA 4070 atau lebih tinggi dan VRAM yang cukup, kita bisa mendapatkan draft yang lumayan dalam 1–2 menit pada resolusi 440x440
    Untuk T2V, kualitasnya masih stabil hanya di sekitar resolusi tempat model itu dilatih. Meski begitu, pada resolusi-resolusi Wan yang sudah dikenal, kadang-kadang hasil bagus tetap keluar
    Dengan CUDA 12.8 atau lebih baru, Torch 2.8 atau lebih baru, dan memakai SageAttention alih-alih Flash 2, kualitasnya terlihat meningkat secara nyata

  • Ini perkembangan yang menarik, tetapi sayang perusahaan seperti CAI yang mendapatkannya
    Memanfaatkan AI terhadap orang-orang muda dan kesepian