ArtifactNet: kerangka kerja forensik ringan untuk mendeteksi musik hasil AI dengan fisika codec
(arxiv.org)Semua generator musik AI komersial seperti Suno, Udio, MusicGen, dan Stable Audio berbagi kendala fisik yang tidak dapat dihindari. Yaitu, audio yang dihasilkan pasti harus melewati Residual Vector Quantization (RVQ).
RVQ memetakan representasi audio kontinu ke vektor codebook diskret. Celah kuantisasi yang muncul dalam proses ini bersifat tidak dapat dipulihkan. Ketika model pemisahan sumber audio yang hanya dilatih dengan musik manusia memproses audio hasil AI, celah ini muncul sebagai residu rekonstruksi yang sangat besar dan terstruktur secara tidak normal. Inilah sinyal forensiknya.
Detektor sebelumnya (CLAM, SpecTTTra) bekerja baik di dalam distribusi pelatihan, tetapi runtuh pada generator baru. ArtifactNet mendeteksi bukan bagaimana musik AI terdengar, melainkan mengapa secara fisik ia berbeda.
Pipeline (total 4.0M parameter):
-
ArtifactUNet (3.6M) — bounded-mask UNet yang memprediksi masker perkalian yang dibatasi ke [0, 0.5] pada magnitudo STFT. Dilatih dengan distilasi pengetahuan 2 tahap menggunakan residu Demucs v4 sebagai guru.
-
Fitur forensik HPSS 7-kanal — setelah residu dipecah menjadi komponen harmonik/perkusif, kemudian digabungkan dengan diferensial waktu dan spectral flux.
-
CNN ringan (0.4M) — memproses segmen 4 detik, dengan keputusan median pada tingkat lagu.
Bukti fisik: pengukuran bandwidth efektif residu pemisahan sumber audio (n=94):
- Musik manusia: rata-rata 1.996 Hz
- Rata-rata AI (22 generator): 291 Hz
- Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz
Terlepas dari arsitekturnya, semua generator AI terkonsentrasi di sekitar 200 Hz.
Hasil ArtifactBench (6.183 trek, 22 generator, tanpa tumpang tindih pelatihan-pengujian):
| Model | Parameter | F1 | FPR |
|---|---|---|---|
| ArtifactNet | 4M | 0.983 | 1.5% |
| CLAM | 194M | 0.758 | 69.3% |
| SpecTTTra | 19M | 0.771 | 19.4% |
CLAM memiliki tingkat salah deteksi musik nyata sebagai AI sebesar 69,3%, sehingga secara praktis tidak bermakna sebagai pengklasifikasi. Benchmark SONICS/MoM mendistribusikan set real hanya sebagai YouTube ID, tetapi banyak di antaranya telah dihapus/disetel privat sehingga perbandingan F1 berdasarkan sumber asli menjadi tidak mungkin. ArtifactBench membandingkan tiga model dalam kondisi yang sama menggunakan partisi real yang dikumpulkan dan diverifikasi langsung.
Keterbatasan: memerlukan input 44.1kHz; pada MP3 bitrate rendah FPR ~8%; saat serangan pencucian Demucs single-pass, TPR turun menjadi 94%; Udio terbaru TPR = 87%.
Demo (~5 detik): https://demo.intrect.io/
Makalah: https://arxiv.org/abs/2604.16254
Model + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Sedang dalam pengajuan paten (KR + PCT)
1 komentar
Kelihatannya ini seperti makalah Anda sendiri, benar begitu?