Ovi - Fusi Lintas-Modal Twin Backbone untuk Generasi Audio-Video

(github.com/character-ai)

1 poin oleh GN⁺ 2025-10-24 | 1 komentar | Bagikan ke WhatsApp

Ovi yang dikembangkan oleh Character AI adalah model AI yang menghasilkan audio dan video secara bersamaan dari input teks atau gambar
Ovi menggabungkan cabang audio berukuran 5B yang dibangun sendiri dengan cabang video berbasis Wan2.2 untuk menghasilkan konten audiovisual tersinkronisasi berkualitas tinggi
Model ini dilatih pada resolusi 720×720, tetapi tetap menghasilkan output yang natural pada resolusi 960×960 ke atas, serta mendukung berbagai rasio aspek (9:16, 16:9, dll.)
Menyediakan berbagai opsi eksekusi dan fitur efisiensi seperti Gradio UI, integrasi ComfyUI (WIP), inferensi multi-GPU, dan kuantisasi qint8/fp8
Proyek ini merupakan contoh terbaru dari kemajuan teknologi generasi teks-ke-video (T2V) dan gambar-ke-video (I2V), sekaligus menghadirkan standar baru untuk generasi gabungan audio-video

Ikhtisar Ovi

Ovi adalah model generatif lintas-modal yang dikembangkan bersama oleh Character AI dan para peneliti Yale University, berupa sistem yang menghasilkan audio dan video tersinkronisasi secara bersamaan dari input teks atau teks+gambar
- Arsitektur modelnya dinamai "Twin Backbone Cross-Modal Fusion", menggunakan pendekatan pelatihan paralel dan fusi antara cabang audio dan video
- Pimpinan proyek adalah Weimin Wang, dengan kontributor bersama Chetwin Low dan Calder Katyal
Diperkenalkan sebagai model mirip Veo-3, Ovi memanfaatkan dataset audio internal Character AI untuk melakukan pra-pelatihan dari nol pada cabang audio berskala 5B parameter
Video yang dihasilkan secara default berdurasi 5 detik, 24FPS, resolusi 720×720, dan mendukung berbagai rasio seperti 9:16, 16:9, dan 1:1

Fitur dan Karakteristik Utama

🎬 Video+Audio Generation: menghasilkan audio dan video secara bersamaan dari input teks atau gambar
🎵 High-Quality Audio Branch: menyediakan cabang audio yang dilatih dengan dataset audio skala besar yang dibangun sendiri
📝 Flexible Input: mendukung input teks saja maupun teks+gambar
⏱️ Generasi video 5 detik: menghasilkan video pendek berdurasi 5 detik pada 24FPS
🎯 Dukungan resolusi tinggi: mampu menghasilkan output natural bahkan pada resolusi 960×960 ke atas
- Contohnya tersedia video dengan berbagai rasio seperti 1280×704, 1504×608, dan 1344×704
🚀 Kemampuan upscaling: meski dilatih pada 720×720, model tetap menjaga konsistensi temporal dan spasial pada resolusi tinggi

Platform dan Demo yang Tersedia

Di Wavespeed.ai, tersedia generasi teks→video dan gambar→video
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
Demo juga tersedia di HuggingFace Spaces
- https://huggingface.co/spaces/akhaliq/Ovi
Integrasi ComfyUI (WIP): model Ovi dapat diintegrasikan ke workflow melalui ComfyUI-WanVideoWrapper

Pelatihan dan Kinerja

Resolusi pelatihan: 720×720
Ekspansi resolusi saat inferensi: mendukung 960×960 dan berbagai rasio aspek
Menjaga konsistensi temporal: mewujudkan transisi alami antar-frame
Kualitas sinkronisasi audio-video: kualitas sinkronisasi dapat dikendalikan dengan menyesuaikan audio guidance scale

Eksekusi dan Konfigurasi

Prosedur instalasi
- Instal PyTorch 2.6.0, Flash Attention, dan dependensi requirements.txt
- Unduh checkpoint dengan download_weights.py (termasuk T5, VAE, MMAudio)
- Jika GPU VRAM 24GB, dapat menggunakan versi kuantisasi fp8 atau qint8
File konfigurasi inferensi: ovi/configs/inference/inference_fusion.yaml
- Item pengaturan utama:
  - num_steps: jumlah langkah denoising (30~50)
  - audio_guidance_scale, video_guidance_scale: kekuatan sinkronisasi audio dan video
  - sp_size: ukuran sequence parallel (atur sama dengan jumlah GPU)
  - cpu_offload: mode penghemat GPU VRAM
  - fp8: dapat dijalankan pada lingkungan VRAM 24GB
Contoh eksekusi inferensi
- GPU tunggal: python3 inference.py --config-file ...
- Multi-GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Kinerja dan Kebutuhan Memori

Model dasar membutuhkan minimal 32GB VRAM, dan dapat dijalankan dengan 24GB dalam mode fp8
FlashAttention-3 dapat meningkatkan kecepatan pemrosesan saat diaktifkan
Dengan pemrosesan sequence parallel, waktu pemrosesan berada di kisaran 40~55 detik saat menggunakan 4~8 GPU
Dengan CPU offloading, VRAM dapat dihemat, tetapi waktu pemrosesan bertambah sekitar 20 detik

Menjalankan Gradio UI

Antarmuka berbasis Gradio dapat dijalankan dengan perintah sederhana
- python3 gradio_app.py
- Mendukung berbagai lingkungan melalui opsi --cpu_offload, --use_image_gen, --qint8, --fp8
Pada mode I2V, model generasi gambar untuk membuat frame pertama akan diaktifkan secara otomatis

Struktur Prompt dan Contoh

Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
Penggunaan tag khusus
- ...: teks untuk konversi suara
- ...: deskripsi musik latar dan efek suara
Pembuatan prompt dengan GPT
- Berdasarkan CSV contoh, minta GPT mengubah dialog ke topik tertentu (misalnya “pertarungan AI dan manusia”)
- Prompt yang sudah dimodifikasi kemudian dimasukkan ke Ovi untuk menghasilkan video berbasis topik

Rencana Selanjutnya (Todo List)

Makalah riset dan situs demo web akan dirilis
Checkpoint model 11B dan kode inferensi multi-GPU akan dipublikasikan
Bobot fp8, peningkatan efisiensi sequence parallel, dan inferensi sharding FSDP sedang direncanakan
Sedang dilakukan riset untuk fine-tuning data resolusi tinggi dan peningkatan performa berbasis RL
Direncanakan pengembangan untuk generasi video panjang, kondisi suara referensi, dan model distilled untuk percepatan inferensi

Apresiasi Teknis dan Kolaborasi

Wan2.2: digunakan untuk inisialisasi cabang video
MMAudio: VAE audio digunakan kembali
Kontributor: @rkfg (efisiensi fp8), @gluttony-10 (kuantisasi qint8)
Usulan kolaborasi dan pertanyaan: dapat menghubungi Weimin Wang

Informasi Sitasi

Makalah: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv: https://arxiv.org/abs/2510.01284
BibTeX tersedia, sitasi dianjurkan saat menggunakan penelitian ini

Metadata Proyek

Lisensi: Apache-2.0
Komposisi bahasa: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
Statistik GitHub: ★955, fork 92, issue 20, PR 2
Pengembang: tim Character AI, para peneliti Yale University

1 komentar

GN⁺ 2025-10-24

Komentar Hacker News

Sudah berbulan-bulan saya memakai alat generatif AI, dan yang mengejutkan adalah bagaimana tiap alat dengan cepat menyatu jadi satu dan bahkan bisa dipakai di mesin lokal
Saya sudah mencoba Ovi sejak minggu lalu dan ini benar-benar menyenangkan. Hasil generatif AI itu seperti mesin slot; bahkan kalau memasukkan prompt yang bagus, hasilnya kadang berantakan, tapi kalau dijalankan beberapa kali, biasanya keluar sesuatu yang lumayan
Saya berhasil membuat video yang terlihat dan terdengar cukup nyata dengan I2V dan T2V. T2V kadang terlihat seperti kualitas TV era 90-an, tapi justru itu terasa lebih realistis
Kalau memakai Flux SPRO sebagai sumber gambar, hasil videonya jadi cukup realistis. GPU saya 5090, dan butuh sekitar 4–5 menit untuk membuat klip 5 detik
Sepertinya model videonya berbasis Wan 2.2
Belakangan aktivitas terkait Wan sangat ramai, dan senang rasanya melihat munculnya model terbuka yang fleksibel untuk menandingi model tertutup milik pemodal besar seperti OpenAI atau Runway
- Yang paling menonjol adalah model video open source berfokus privasi yang disediakan VeniceAI. Ovi mendukung image→video, Wan 2.1 mendukung image→video, dan Wan 2.2 mendukung text→video
  Ada juga Wan 2.5, tetapi dirutekan secara anonim melalui penyedia resmi. Jauh lebih murah dibanding opsi perantara seperti Kling, Veo, atau Sora
- Pembahasan terkait juga muncul di thread Wan – Open-source alternative to VEO 3
- Dan Google juga terlibat di sini
Dulu saya pernah bekerja di Ovi milik Nokia. Waktu itu Ovi adalah semacam GSuite untuk ponsel Nokia, dan penjelasan resminya adalah “Ovi berarti pintu dalam bahasa Finlandia”, tetapi lelucon internalnya adalah “taman kanak-kanak dalam bahasa Hungaria”. Saya belum menemukan asal-usul nama Ovi yang ini
- Saya juga pernah bekerja di proyek terkait Ovi. Dalam rapat-rapat awal di kantor pusat Helsinki, saya mendengar para eksekutif berbicara soal menjadikan Google sebagai pesaing, dan itu adalah upaya yang cukup berani
  Namun akhirnya runtuh karena terikat oleh ketiadaan strategi merek dan kebijakan software perangkat yang gagal. Mungkin benar-benar dihentikan sekitar 2013. Saat itu saya sudah keluar dari perusahaan
Mungkin karena telinga saya berasal dari era sebelum AutoTune, saya masih bisa merasakan jejak pitch yang terlalu sempurna dan companding pada audionya
Terutama terdengar mirip suara karakter Machine Head di serial Invincible
Meski begitu, secara keseluruhan ini pekerjaan yang luar biasa
Proyeknya sendiri menarik, tetapi saya masih belum yakin soal kegunaan praktis konten audio-visual generatif
Untuk saat ini, kelihatannya lebih banyak unsur merepotkannya daripada manfaatnya
Dengan kecepatan seperti ini, rasanya dalam beberapa bulan film pendek berkualitas tinggi bisa saja dibuat sepenuhnya secara generatif
- Tapi pada saat yang sama, sepertinya juga akan muncul kasus penyalahgunaan deepfake yang menghancurkan hidup orang
- Di sisi lain, mungkin justru akan muncul masa depan seperti pesta prompt, di mana teman-teman berkumpul, masing-masing menulis prompt, lalu menyambung hasilnya dan menonton film bersama. Membayangkannya saja sudah lucu
- Meski begitu, saya justru merasa film panjang akan muncul lebih dulu daripada film pendek. Semakin pendek videonya, semakin sulit mencapai hasil yang benar-benar matang
Saya penasaran apakah proyek-proyek ini saling berhubungan, jadi saya membandingkan thread ini dan thread ini
- Begitu ada model open-weight baru muncul, para oportunis akan mendaftarkan domain dengan nama itu dan mencoba menghasilkan uang dari SEO
  Sekarang hal seperti pembuatan landing page otomatis jadi jauh lebih mudah berkat alat coding AI
Untuk I2V, kalau punya GPU NVIDIA 4070 atau lebih tinggi dan VRAM yang cukup, kita bisa mendapatkan draft yang lumayan dalam 1–2 menit pada resolusi 440x440
Untuk T2V, kualitasnya masih stabil hanya di sekitar resolusi tempat model itu dilatih. Meski begitu, pada resolusi-resolusi Wan yang sudah dikenal, kadang-kadang hasil bagus tetap keluar
Dengan CUDA 12.8 atau lebih baru, Torch 2.8 atau lebih baru, dan memakai SageAttention alih-alih Flash 2, kualitasnya terlihat meningkat secara nyata
Ini perkembangan yang menarik, tetapi sayang perusahaan seperti CAI yang mendapatkannya
Memanfaatkan AI terhadap orang-orang muda dan kesepian

Ovi - Fusi Lintas-Modal Twin Backbone untuk Generasi Audio-Video

Ikhtisar Ovi

Fitur dan Karakteristik Utama

Platform dan Demo yang Tersedia

Pelatihan dan Kinerja

Eksekusi dan Konfigurasi

Kinerja dan Kebutuhan Memori

Menjalankan Gradio UI

Struktur Prompt dan Contoh

Rencana Selanjutnya (Todo List)

Apresiasi Teknis dan Kolaborasi

Informasi Sitasi

Metadata Proyek

Bacaan terkait

1 komentar

Komentar Hacker News