Mempersenjatai penskalaan gambar untuk menyerang sistem AI produksi

(blog.trailofbits.com)

1 poin oleh GN⁺ 2025-08-22 | Belum ada komentar. | Bagikan ke WhatsApp

Serangan terhadap sistem AI di lingkungan produksi dimungkinkan dengan memanfaatkan kerentanan penskalaan gambar
Gambar yang tampak normal dapat berubah menjadi payload prompt injection saat di-downscale, sehingga memicu potensi kebocoran data
Serangan ini telah dikonfirmasi pada berbagai layanan nyata seperti Google Gemini CLI, dengan mengeksploitasi ketidaksesuaian antara apa yang dilihat pengguna dan input yang diterima model
Teknik serangan dan dampaknya berbeda-beda tergantung pada algoritme downscaling serta implementasi masing-masing, dan eksperimen serangan gambar dapat dilakukan dengan alat open source Anamorpher
Sebagai mitigasi, direkomendasikan menyediakan pratinjau input, menerapkan pola desain yang aman, dan mewajibkan persetujuan pengguna yang jelas

Latar belakang dan perumusan masalah

Ada skenario serangan di mana ketika gambar yang tampak biasa dimasukkan ke sistem AI seperti LLM, multimodal prompt injection yang tersembunyi aktif selama proses downscaling dan membocorkan data pengguna ke pihak luar
Kerentanan ini muncul karena gambar yang benar-benar dikirim ke model melewati proses penskalaan, dan pada proses itulah payload yang disisipkan penyerang menjadi terlihat

Dalam posting blog ini, didemonstrasikan bahwa kerentanan penskalaan gambar dapat benar-benar dieksploitasi pada berbagai produk AI nyata seperti Gemini CLI, Vertex AI Studio, Gemini web dan API, Google Assistant, Genspark
Melalui alat open source bernama Anamorpher, gambar kustom semacam ini dapat dibuat dan diverifikasi dengan mudah

Di Gemini CLI, dengan konfigurasi default, server Zapier MCP secara otomatis menyetujui semua pemanggilan alat MCP tanpa konfirmasi pengguna (settings.json dengan pengaturan trust=True)
Saat pengguna mengunggah gambar yang tampak normal, prompt injection pada gambar yang telah di-downscale membocorkan data dalam Google Calendar ke email penyerang
Karena pratinjau hasil sebenarnya tidak disediakan, pengguna tidak dapat mengetahui hasil yang telah berubah atau apakah serangan terjadi
Serangan prompt injection serupa juga telah dikonfirmasi pada berbagai alat coding berbasis agen seperti Claude Code dan OpenAI Codex
Alat-alat ini pada dasarnya memiliki banyak konfigurasi dan pola sistem yang tidak aman, sehingga diperlukan perbaikan mendasar

Serangan prompt injection berbasis penskalaan gambar juga berhasil dilakukan pada Vertex AI, antarmuka web Gemini, Gemini API, Google Assistant, Genspark
Khususnya pada Vertex AI Studio, pengguna hanya dapat melihat gambar beresolusi tinggi dan tidak bisa melihat gambar hasil downscale yang diterima model
Akibatnya, ketidaksesuaian antara persepsi pengguna dan input model yang sebenarnya membuat serangan lebih mudah dilakukan
Vektor serangan ini tersebar luas di berbagai sistem dan alat

Serangan ini mengeksploitasi karakteristik interpolasi dari algoritme downscaling (resampling) gambar
Algoritme downscaling yang umum mencakup Nearest Neighbor, Bilinear, Bicubic Interpolation, dan masing-masing memerlukan teknik serangan yang disesuaikan dengan karakteristiknya
Implementasi juga berbeda antar pustaka seperti Pillow, PyTorch, OpenCV, dan TensorFlow, termasuk dalam hal anti-aliasing, alignment, bug internal, dan lainnya
Penyerang harus melakukan fingerprinting untuk mengetahui algoritme dan implementasi apa yang digunakan tiap sistem agar bisa mengoptimalkan serangan
Berbagai gambar uji seperti pola checkerboard, lingkaran konsentris, pola banded, Moiré, dan tepi miring digunakan untuk menganalisis karakteristik algoritme dan artefaknya

Jika sebuah pita memiliki pola yang rumit lalu di-sampling pada interval tertentu, maka ketika laju sampling terlalu rendah, pola asli tidak dapat direkonstruksi secara akurat dan akan muncul distorsi
Hal ini merupakan efek aliasing yang dijelaskan dalam teorema sampling Nyquist–Shannon, dan penyerang memanipulasi piksel agar pola tertentu muncul setelah downscaling

Anamorpher adalah alat open source yang dapat membuat dan memvisualisasikan gambar serangan sesuai dengan algoritme downscaling umum (Nearest Neighbor, Bilinear, Bicubic)
Sebagai contoh, pada Bicubic Interpolation, nilai piksel keluaran ditentukan dengan memberi bobot pada piksel di sekitarnya berdasarkan 16 piksel dalam area 4x4
Penyerang memilih gambar dengan kontras tinggi (misalnya latar belakang hitam pekat), lalu mengoptimalkan luminans piksel yang paling penting (metode kuadrat terkecil) agar hasil downscale membentuk pola serangan yang jelas
Anamorpher menyediakan antarmuka frontend dan Python API, dan berkat modularisasi backend, pengguna juga dapat bereksperimen dengan algoritme downscaling kustom

Cara paling aman adalah tidak menggunakan downscaling gambar sama sekali dan membatasi ukuran gambar yang dapat diunggah
Jika konversi dan downscaling tidak dapat dihindari, maka pratinjau gambar input model yang sebenarnya harus disediakan di semua kanal input, termasuk CLI dan API
Khususnya, teks di dalam gambar tidak boleh dapat memicu pemanggilan alat yang sensitif tanpa persetujuan eksplisit dari pengguna, dan secara keseluruhan perlu diterapkan pola desain yang aman serta langkah mitigasi yang sistematis

Pada perangkat mobile dan edge, risikonya bisa lebih besar karena batas ukuran gambar yang tetap dan tingginya penggunaan algoritme downscaling yang tidak efisien
Diperlukan riset lanjutan dan langkah pertahanan terkait kombinasi dengan voice AI, algoritme yang lebih canggih serta metode deteksi injeksi, prompt injection berbasis semantik, dan pemanfaatan artefak upscale

Anamorpher saat ini masih dalam tahap beta
Ke depan, diharapkan ada umpan balik dan perbaikan yang memadai seiring riset keamanan pada sistem AI multimodal dan berbasis agen