- AV2 adalah codec video terbuka generasi berikutnya yang sedang dikembangkan oleh Alliance for Open Media, dan setelah 5 tahun pengembangan kini bersiap menuju publikasi spesifikasi final pada akhir 2025
- Hasil pengujian menunjukkan bahwa pada kualitas gambar yang sama, AV2 mencapai bitrate sekitar 30% lebih rendah dibanding AV1, serta mencatat peningkatan 32.59% berdasarkan VMAF
- Ciri utamanya adalah peningkatan efisiensi melalui optimisasi matematis dan perbaikan algoritme, bukan inovasi berbasis AI
- Melalui superblock 256×256, partisi rekursif penuh, mode prediksi berbasis data, dan TIP(Temporal Interpolation), performa penanganan resolusi tinggi dan gerakan cepat ditingkatkan
- Verifikasi efisiensi hardware telah selesai, dan fokus pengembangan selanjutnya akan bergeser ke optimisasi encoder serta perluasan profil dengan dukungan AI
Status pengembangan AV2
- AV2 mempertahankan struktur hibrida berbasis blok milik AV1 sambil mengadopsi superblock 256×256 yang lebih besar dan metode partisi rekursif penuh
- Pemisahan partisi luma dan chroma memungkinkan prediksi yang lebih presisi
- Sistem prediksi dilengkapi mode intra berbasis data, pemodelan chroma-from-luma yang ditingkatkan, serta sistem referensi berperingkat yang menggunakan hingga 7 frame referensi
- Fitur TIP(Temporal Interpolation Prediction) ditambahkan untuk meningkatkan efisiensi kompensasi gerak pada adegan dengan gerakan cepat atau resolusi tinggi
Kualitas dan efisiensi kompresi
- Andrey Norkin dari Netflix mengumumkan bahwa ia mengonfirmasi pengurangan bitrate 28.63% berdasarkan PSNR-YUV dan 32.59% berdasarkan VMAF
- VMAF(Video Multi-Method Assessment Fusion) adalah metrik pengukuran kualitas video yang dikembangkan Netflix dan mencerminkan evaluasi kualitas gambar yang bersifat subjektif
- Peningkatan ini merupakan hasil dari pemodelan matematis dan inovasi algoritme, bukan AI; meski grup AOM menyebut kemungkinan perluasan AI, codec itu sendiri tetap berbasis pendekatan tradisional
Sistem transformasi dan kuantisasi
- Quantizer eksponensial terpadu (exponential quantizer) diperkenalkan untuk mendukung video 8, 10, dan 12-bit dengan rentang dan presisi yang lebih luas
- Kuantisasi berbasis Trellis dan matriks kustom memungkinkan kontrol yang lebih detail bahkan pada bitrate rendah
- Transform berbasis pembelajaran (learning-based transform) dan transform lintas komponen mengurangi artifact kompresi sambil mempertahankan tekstur
- Coefficient coding ditingkatkan agar sesuai untuk konten layar dan konten campuran
Filtering dan pascapemrosesan
- Deblocker generik terpadu menjaga detail tekstur dengan lebih baik,
sementara filter baru seperti Guided Detail Filter dan Cross-Component Sample Offset meningkatkan kinerja penghilangan noise
- Film grain synthesis dapat diterapkan dengan lebih fleksibel
- Mendukung video multi-layer dan video stereo untuk menyesuaikan diri dengan format multimedia generasi berikutnya
Rencana ke depan
- Semua tool AV2 telah menyelesaikan verifikasi efisiensi hardware
- Tahap berikutnya akan difokuskan pada optimisasi encoder serta pengembangan profil ekstensi AI dan kedalaman bit tinggi
- Spesifikasi final dijadwalkan diumumkan pada akhir 2025, dan komersialisasinya diperkirakan akan diadopsi secara bertahap oleh platform utama dan layanan streaming setelah itu
3 komentar
Saya sempat berpikir nama AV1 itu unik, ternyata semua ini memang sudah direncanakan...
Saya kira akan berakhir di AV1, ternyata masih ada kemungkinan untuk berkembang lebih jauh?!
Teknologi memang benar-benar sulit diprediksi...
Opini Hacker News
Saya penasaran kapan layanan streaming akan berhenti melakukan kompresi berlebihan. Meski memakai TV 4K kelas atas dan internet gigabit, layar tetap terlihat seperti dempul karena artefak kompresi. Bahkan, kualitas gambar terbaik yang pernah saya lihat justru saat menonton dengan antena digital sederhana 20 tahun lalu. Artefak kompresi ini sangat terlihat terutama pada gradien atau adegan film yang gelap. Sebagai catatan, TV saya sudah dikalibrasi penuh dan saya memakai paket streaming dengan bandwidth tertinggi. Contoh gambar yang secara visual mirip bisa dilihat di sini
Dari sudut pandang layanan streaming, biaya pengiriman konten sangat besar, dan ini adalah biaya terbesar yang tersisa setelah produksi konten. Karena itu mereka memakai cara-cara ekstrem untuk menurunkan bitrate. Inilah alasan Netflix memperkenalkan algoritme yang menghapus grain/noise kamera lalu menambahkan noise buatan di sisi klien, dan YouTube Shorts juga baru-baru ini memakai teknik denoise ekstrem dalam kasus tertentu. Noise adalah data acak yang sangat sulit dikompresi, jadi mereka ingin menghilangkannya sebanyak mungkin. Namun, jika noise dihapus dari video hasil perekaman kamera langsung, detail yang sangat halus juga ikut hilang. Lihat diskusi terkait di sini
Fakta bahwa artefak kompresi terlihat pada gradien atau adegan gelap adalah gejala yang muncul ketika kalibrasi TV tidak tepat. Sering kali contrast diatur terlalu tinggi. Orang cenderung menyesuaikan layar agar semua detail dalam adegan gelap terlihat, padahal memang tidak seharusnya begitu. Pada display yang dikalibrasi dengan benar, area gelap seharusnya nyaris tidak terlihat. Sebagian besar codec juga memang dirancang untuk membuang detail pada adegan gelap. Tentu saja layanan streaming juga sering menerapkan standar itu secara berlebihan, tetapi banyak konflik ini muncul karena orang salah mengatur display mereka
Sebelum COVID, Netflix memakai sekitar 8Mbps untuk konten 1080P. Dengan x264/beamr hasilnya cukup bagus, dan dengan HEVC bahkan lebih baik. Namun setelah COVID, semua layanan streaming menurunkan kualitas gambar dengan alasan lonjakan permintaan dan pembatasan bandwidth. Sejak saat itu pelanggan terbiasa dengan kualitas rendah, dan rasanya bitrate itu tidak akan dinaikkan lagi. Dalam pengujian terbaru, levelnya ada di kisaran 3~5Mbps. Codec seperti HEVC/AV1/AV2 memang bisa menghemat bitrate lebih dari 50% dibanding H.264, tetapi setelah melewati rentang 0.5~4Mbps, besarnya penghematan menurun cepat, dan encoder x264 justru bisa terlihat lebih baik pada bitrate tinggi
Tidak semua layanan memakai average bitrate serendah Netflix; tiap layanan berbeda. Dari contoh data, Kate dari Netflix ada di 11.15 Mbps, Andor dari Disney di 15.03 Mbps, Jack Ryan dari Amazon di 15.02 Mbps, The Last of Us dari Max di 19.96 Mbps, dan For All Mankind dari Apple di 25.12 Mbps. Angka yang lebih rinci dan perbandingannya bisa dilihat di tautan ini
Bisa jadi versi bajakan justru lebih cocok untukmu
Cukup mengejutkan bahwa orang masih terus menemukan cara untuk makin mengecilkan ukuran video. Saya penasaran, apakah ini murni karena ide orang-orang pintar, atau karena tersedianya processing power yang lebih kuat dalam proses decoding/encoding
Keduanya benar. Seiring format berkembang, kita bisa menerapkan metode yang lebih kreatif atau mengerahkan lebih banyak sumber daya komputasi. Misalnya, perubahan antar-frame dienkode per "superblock" (mirip dengan <a href="https://en.wikipedia.org/wiki/Macroblock">macroblock</a>). Blok-blok ini memperkirakan perubahan dengan merujuk ke bagian lain dalam frame atau ke frame sebelumnya. Semakin presisi area perubahan pada blok dapat dibungkus dan didefinisikan, semakin tinggi efisiensinya. Namun, mendeskripsikan posisi blok juga memerlukan data, jadi ada aturan pembatas untuk meminimalkan deskripsi itu. Di AV2, cara mendefinisikan blok berubah sehingga lebih mudah menyesuaikan dengan area perubahan, dan ukuran blok terbesar juga menjadi 2x lipat sehingga gerakan besar dapat dikompresi lebih efektif dengan jumlah blok yang lebih sedikit. Selain itu ada banyak perubahan lain, dan kreativitas algoritmik encoder juga terus berkembang. Untuk benar-benar menerapkan kemajuan seperti ini, dibutuhkan kesepakatan standar atas transformasi, teknik prediksi, dan hal lain yang diizinkan dalam bitstream. Video rujukannya bisa dilihat di sini
Paten masih memainkan peran besar. Teknologi baru harus sangat berhati-hati agar tidak melanggar paten yang sudah ada. Karena itu bisa saja ada trik atau teknik yang tidak dapat dipakai di AV1/AV2
Keduanya diperlukan. Codec modern masing-masing punya trade-off berbeda dalam hal kualitas gambar (PSNR, SSIM), kompleksitas komputasi (CPU vs DSP vs memori), ruang penyimpanan, bitrate, dan sebagainya, jadi tidak ada satu codec tunggal yang optimal untuk semua situasi
Saya penasaran kapan codec AI generatif akan benar-benar dipakai di produksi nyata. Konsepnya relatif sederhana. Encoder mengetahui model persis yang akan dipakai decoder, lalu hanya mengirim piksel-piksel utama dan decoder mengisi sisanya dengan AI. Misalnya, bisa menghasilkan wajah orang acak di tengah kerumunan, atau jika perlu, mengirim lebih banyak data ke area itu agar diarahkan menjadi wajah maskot tim tertentu. Jika kompresinya menjadi sangat ekstrem, yang tersisa pada akhirnya mungkin bukan lagi video, melainkan data yang mendeskripsikan adegan seperti skrip teks
Saya tidak terlalu tahu detail AV2, tetapi saat beralih dari H.265 ke H.266, sudut angular prediction bertambah 2x, ditambah berbagai teknik baru bahkan hanya untuk intra prediction seperti alat prediksi chroma dari luma, penyalinan blok piksel, dan lain-lain. Inter prediction juga mengalami peningkatan besar. Semua ini memang banyak memakan logic gate/luas silikon pada hardware decoder, tetapi efek penghematan bitrate-nya besar. Dari sisi decoder CPU, beban komputasi tambahannya tidak terlalu parah. Biaya yang sebenarnya ada di sisi encoding. Untuk memaksimalkan efisiensi kompresi, jumlah alat prediksi yang bisa dipilih makin banyak sehingga waktu encoding bertambah. Karena itu Google hanya menerapkan encoding AV1 pada video dengan jumlah penayangan yang sangat tinggi
Karena ini adalah peluncuran kedua, semoga kali ini lebih matang. Saya menantikan sesi live dari AOM pada 20 Oktober. Kabarnya akan membahas lebih banyak data dan angka, kompleksitas encoding/decoding, roadmap hardware decoder, kepatuhan spesifikasi dan test kit, profil masa depan, peningkatan pada AVIF dan AV2, hingga perbandingan dengan JPEG-XL. Saya penasaran apakah 30% BDRATE itu dibanding encoder AV1 terbaru atau patokan 1.0. Mungkin peningkatan live encoding juga akan dibahas
Penghematan 30% dibanding AV1 itu gila. Rasanya baru saja dirilis, padahal ternyata keluar pada 2019
Saya sendiri baru tahun lalu memakai perangkat pertama yang mendukung hardware AV1. Kecepatan evolusi codec selalu punya sisi negatif: konten harus terus disimpan dalam banyak format, atau klien harus melakukan software decoding yang boros baterai. YouTube jelas lebih memilih opsi kedua
Saking mengejutkannya sampai malah terasa mencurigakan. Kalau memang benar, itu luar biasa
Pekerjaan implementasi dan optimasi codec mungkin adalah salah satu hal paling menyenangkan yang pernah saya lakukan dalam hidup. Saya ingin mendalami AV2, tapi sekarang tidak punya waktu
Akhirnya ada codec dengan nama yang tidak terdengar seperti AVI
Internet serat optik supercepat ini jadi terasa makin tidak berarti...
Sebagian besar dunia masih mengonsumsi data dan video melalui jaringan seluler
Benar. Untungnya masa refund untuk kartu microSD 1TB saya masih belum habis
Ke depan mungkin ini akan dipakai untuk streaming konten 8K, atau video VR 16K
Yang ideal adalah mengejar efisiensi maksimum + ketersediaan maksimum secara bersamaan. Prinsip yang sama berlaku juga pada daya komputasi atau pasar energi
Ini seperti loop tak berujung: saat media bertambah, kebutuhan kecepatan ikut naik, dan saat kecepatan naik, media pun kembali bertambah
Saya kira nama AV1 itu semacam penghormatan atau lelucon terhadap AVI (audio video interlace), tetapi AV2 tidak lagi memberi kesan itu. AV1 juga punya file berekstensi .av1 dan MIME type video/AV1, jadi saya penasaran apakah nanti AV2 berarti semuanya harus diduplikasi menjadi .av2 dan video/AV2. Saya juga penasaran bagaimana dengan format AVIF
Ekstensi .av1 adalah untuk file data AV1 mentah. AV2 nantinya akan memakai .av2, dan keduanya tidak kompatibel. Dalam praktiknya, stream video dimasukkan ke dalam container seperti Matroska(.mkv), WebM, atau MP4, lalu diberi kode tipe codec (av01, av02). AVIF juga merupakan container, jadi meski namanya AV1 image format, secara teori itu juga bisa diperluas ke AV2. Agar lebih jelas, namanya bisa diubah menjadi AOMedia Video Image Format
Jadi maksudnya ekstensi file seharusnya hanya merefleksikan format file, dan terpisah dari codec di dalamnya? Dulu memang pernah ada masalah karena tidak begitu. Akan lebih praktis jika dari ekstensi saja kita bisa tahu apakah file itu bisa dibaca
Ada yang mendapat pesan blokir Cloudflare pada format AV1 atau AV2?
Saya penasaran kapan akan muncul codec video berbasis gaussian splatting