ArtifactNet: kerangka kerja forensik ringan untuk mendeteksi musik hasil AI dengan fisika codec

Semua generator musik AI komersial seperti Suno, Udio, MusicGen, dan Stable Audio berbagi kendala fisik yang tidak dapat dihindari. Yaitu, audio yang dihasilkan pasti harus melewati Residual Vector Quantization (RVQ).

RVQ memetakan representasi audio kontinu ke vektor codebook diskret. Celah kuantisasi yang muncul dalam proses ini bersifat tidak dapat dipulihkan. Ketika model pemisahan sumber audio yang hanya dilatih dengan musik manusia memproses audio hasil AI, celah ini muncul sebagai residu rekonstruksi yang sangat besar dan terstruktur secara tidak normal. Inilah sinyal forensiknya.

Detektor sebelumnya (CLAM, SpecTTTra) bekerja baik di dalam distribusi pelatihan, tetapi runtuh pada generator baru. ArtifactNet mendeteksi bukan bagaimana musik AI terdengar, melainkan mengapa secara fisik ia berbeda.

Pipeline (total 4.0M parameter):

ArtifactUNet (3.6M) — bounded-mask UNet yang memprediksi masker perkalian yang dibatasi ke [0, 0.5] pada magnitudo STFT. Dilatih dengan distilasi pengetahuan 2 tahap menggunakan residu Demucs v4 sebagai guru.
Fitur forensik HPSS 7-kanal — setelah residu dipecah menjadi komponen harmonik/perkusif, kemudian digabungkan dengan diferensial waktu dan spectral flux.
CNN ringan (0.4M) — memproses segmen 4 detik, dengan keputusan median pada tingkat lagu.

Bukti fisik: pengukuran bandwidth efektif residu pemisahan sumber audio (n=94):

Musik manusia: rata-rata 1.996 Hz
Rata-rata AI (22 generator): 291 Hz
Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

Terlepas dari arsitekturnya, semua generator AI terkonsentrasi di sekitar 200 Hz.

Hasil ArtifactBench (6.183 trek, 22 generator, tanpa tumpang tindih pelatihan-pengujian):

Model	Parameter	F1	FPR
ArtifactNet	4M	0.983	1.5%
CLAM	194M	0.758	69.3%
SpecTTTra	19M	0.771	19.4%

CLAM memiliki tingkat salah deteksi musik nyata sebagai AI sebesar 69,3%, sehingga secara praktis tidak bermakna sebagai pengklasifikasi. Benchmark SONICS/MoM mendistribusikan set real hanya sebagai YouTube ID, tetapi banyak di antaranya telah dihapus/disetel privat sehingga perbandingan F1 berdasarkan sumber asli menjadi tidak mungkin. ArtifactBench membandingkan tiga model dalam kondisi yang sama menggunakan partisi real yang dikumpulkan dan diverifikasi langsung.

Keterbatasan: memerlukan input 44.1kHz; pada MP3 bitrate rendah FPR ~8%; saat serangan pencucian Demucs single-pass, TPR turun menjadi 94%; Udio terbaru TPR = 87%.

Demo (~5 detik): https://demo.intrect.io/
Makalah: https://arxiv.org/abs/2604.16254
Model + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Sedang dalam pengajuan paten (KR + PCT)

ArtifactNet: kerangka kerja forensik ringan untuk mendeteksi musik hasil AI dengan fisika codec

Bacaan terkait

2 komentar