Moebius: Mencapai performa setara 10B dengan model image inpainting 0.2B

(hustvl.github.io)

5 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Model spesialis ringan yang mewujudkan image inpainting berkualitas tinggi—yang sebelumnya didominasi model foundation industri berskala 10B—dengan kualitas setara atau lebih baik sambil menekan parameter hingga kurang dari 2%
Berjalan dengan 0.22B (226M) parameter, serta mencapai kecepatan inferensi lebih dari 15 kali lebih cepat dibanding FLUX.1-Fill-Dev berukuran 11.9B
Melalui Local-λ Mix Interaction(LλMI) block yang merekonstruksi backbone diffusion, konteks spasial dan informasi semantik global dikompresi ke dalam matriks linear berukuran tetap
Strategi adaptive multi-granularity distillation yang bekerja hanya di dalam latent space mentransfer daya representasi model teacher besar ke model ringan
Pendekatan task-specific specialist yang menunjukkan bahwa alih-alih sekadar memperbesar skala, model yang lebih cerdas, lebih ringan, dan lebih cepat dimungkinkan ketika tugas didefinisikan dengan jelas

Latar belakang dan definisi masalah

Model foundation industri berskala 10B telah mendorong batas image inpainting, tetapi biaya komputasinya yang sangat besar sangat membatasi deployment nyata
Membangun model spesialis yang terfokus pada tugas adalah alternatif yang menjanjikan, tetapi kompresi arsitektur yang ekstrem menimbulkan bottleneck representasi (representation bottleneck) yang serius
Untuk mengatasinya, diajukan framework inpainting ringan dan sangat efisien Moebius

Metode — pipeline keseluruhan

Mengadopsi struktur yang menggabungkan framework Latent Diffusion Model(LDM) dengan Latent Categories Guidance(LCG)
Denoising U-Net direkonstruksi secara sistematis dengan LλMI block yang diusulkan untuk mencapai efisiensi arsitektur ekstrem
Pada tahap pelatihan, diterapkan strategi adaptive multi-granularity distillation untuk menyelaraskan specialist ringan dengan teacher berkapasitas besar, sehingga mengurangi kehilangan kapasitas akibat kompresi struktur yang ekstrem

Hasil utama (Highlights)

Efisiensi parameter ekstrem (< 2%)
- Berjalan hanya dengan 0.22B (226M) parameter, yaitu kurang dari 2% ukuran model besar FLUX.1-Fill-Dev (11.9B)
- Mendobrak anggapan bahwa komputasi berat adalah keharusan, sehingga inpainting berkualitas tinggi dimungkinkan bahkan pada perangkat kelas konsumen dan edge device
Peningkatan kecepatan inferensi 15x (26ms/step)
- Mencapai latensi inferensi sangat rendah sebesar 26.01ms per step pada satu GPU
- Dikombinasikan dengan tahap sampling yang dioptimalkan, total runtime dipercepat lebih dari 15 kali dibanding model kelas 10B
Kualitas inpainting kelas 10B
- Membuktikan bahwa pengurangan ukuran tidak berarti penurunan daya representasi
- Melalui optimasi sinergi antara arsitektur dan distillation, pada beberapa skenario seperti tekstur kompleks dan kealamian wajah, model ini melampaui model SOTA kelas 10B (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
- Diverifikasi pada 6 benchmark yang mencakup adegan alami (Places2) dan adegan manusia (CelebA-HQ, FFHQ)
Inovasi inti berbasis sinergi
- Desain arsitektur (LλMI Block): merekonstruksi self-attention dan cross-attention untuk mengompresi konteks spasial dan informasi semantik global ke dalam matriks linear berukuran tetap, sehingga menghindari beban komputasi kuadratik
- Adaptive multi-granularity distillation: mentransfer daya representasi model teacher PixelHacker hanya di dalam latent space, sehingga menghindari decoding pixel-space yang mahal
  - Penyelarasan pengawasan multi-granularitas dilakukan dari fitur intermediate mikroskopis hingga lintasan diffusion makroskopis, sambil menyeimbangkan pelatihan secara dinamis melalui mekanisme adaptive loss weighting berbasis gradient norm
- Keseimbangan sinergi optimal: secara sistematis mengeksplorasi kendala timbal balik dan batas atas antara struktur terkompresi dan distillation
  - Dengan memetakan batas sinergi arsitektur-distillation, dipastikan bahwa Moebius 0.22B (student) dapat menyerap semaksimal mungkin kemampuan penalaran semantik dari PixelHacker (teacher) tanpa saturasi representasi
Spesialis untuk tugas tertentu, bukan model umum yang membengkak
- Pendekatan yang menjawab pertanyaan mendasar: "jika tugas didefinisikan dengan jelas, bisakah model menjadi lebih cerdas, lebih ringan, dan lebih cepat?"
- Berperan sebagai specialist yang sangat dioptimalkan, membebaskan image inpainting nyata dan penghapusan objek AI dari pembengkakan parameter

Evaluasi dan perbandingan

Eksperimen ekstensif dilakukan pada adegan alami (Places2) dan adegan manusia (CelebA-HQ, FFHQ)
Dari sisi kualitas generasi, dikonfirmasi hasil yang setara atau melampaui model umum industri kelas 10B FLUX.1-Fill-Dev
Dengan ukuran kurang dari 2% parameter (0.22B vs 11.9B) dan percepatan waktu inferensi lebih dari 15x, model ini menghadirkan tolok ukur efisiensi baru untuk inpainting berkefidelitas tinggi

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Dibuat agar bisa berjalan di ONNX (berkat Claude Opus 4.8), dan sekarang ada demo interaktif dengan seluruh model berjalan langsung di browser. Unduhannya sekitar 1.3GB: https://simonw.github.io/moebius-web/
Kodenya ada di sini: https://github.com/simonw/moebius-web
Catatan Claude Code: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Ada penjelasan lebih rinci di blog: https://simonwillison.net/2026/Jun/22/porting-moebius/
- Saya juga mencoba melakukan hal yang persis sama (memakai gpt 5.5 + code), dan tidak berhasil sampai tahap menjalankan model di ONNX
- Kerja bagus. Bobot unet-nya fp32, jadi saya penasaran apakah Anda juga sempat mencoba presisi yang lebih rendah seperti fp16
Saya sempat mencobanya sedikit, dan untuk model 0.2B ini sangat mengesankan, tetapi saya sulit diyakinkan bahwa performanya setara dengan model 10B
Pada gambar natural hasilnya cukup bagus, tetapi area yang di-inpaint terlihat jauh lebih halus dibanding sekelilingnya, dan model ini sangat lemah saat harus menambahkan objek baru. Output-nya juga dibatasi ke 512x512, jadi kegunaannya jadi berkurang
- Saya penasaran apakah contoh-contoh yang ditampilkan dianggap mewakili performa sebenarnya, atau tampaknya lebih seperti cherry-picked
Beberapa tahun lalu saya mengerjakan proyek inpainting untuk klien. Tujuannya adalah meng-inpaint iklan banner untuk promotor konser agar mudah membuat iklan dengan berbagai ukuran media, dan saya menangani iklan bertema Natal untuk beberapa penyanyi terkenal
Hal paling aneh adalah saat alat inpainting mulai menambahkan orang-orang aneh ke gambar. Penyanyinya dihias dengan ornamen berkilau dan warna merah, lalu model malah menambahkan seorang lelaki tua pemarah memakai topi sutra. Saya tidak ingat pernah menekan tombol “tambahkan lelaki tua menyeramkan”
Backend saat itu adalah Stable Diffusion, dan kami sempat berpindah-pindah di antara beberapa layanan hosting model termasuk Amazon, tetapi semuanya rumit karena kebutuhan gambar input berbeda-beda. Ada yang gagal karena tidak bisa menangani rasio seperti banner 200x60, ada juga yang mengharuskan resize sebelum input sehingga sejak awal kami memberi gambar beresolusi rendah. Sampah masuk, sampah keluar
Pada akhirnya, perlu banyak pekerjaan persiapan, dan klien tidak benar-benar memakai hasil percobaan saya
- Jika penyanyinya dihias dengan ornamen berkilau dan warna merah lalu model menambahkan lelaki tua pemarah dengan topi sutra, itu mengingatkan pada A Christmas Carol karya Dickens
  Pasti di Inggris ada peraturan yang mewajibkan tokoh seperti Scrooge dipasang di latar acara Natal agar orang-orang tidak terlalu larut dalam euforia
- Pada masa itu, model buatan komunitas, model merge, maupun model fine-tune semuanya overtrained dan dioptimalkan untuk potret serta bidikan frontal. Semuanya ingin diubah jadi manusia
  Bahkan inpainting wajah saja baru lumayan setelah gonta-ganti beberapa alat, jadi inpainting untuk hal selain itu nyaris mustahil. Model-model seperti ini juga sangat lemah dalam menempatkan objek secara alami ke dalam adegan. Kalung atau sabuk yang samar-samar mungkin masih bisa, tetapi begitu harus memasukkan objek baru ke adegan, model akan gagal dalam sangat banyak cara
  Resolusinya juga jauh lebih baik di 512x512, dan makin jauh dari itu makin banyak masalah
  Jika Anda mencoba meng-inpaint iklan banner, kemungkinan besar hasilnya akan sangat terdistorsi. Model-model itu tidak bisa menangani font dan juga lemah dalam transkripsi yang presisi pada level piksel. Saat itu, cara yang realistis mungkin adalah memasukkan banner iklannya secara manual lalu hanya memperbaiki bagian tepinya dengan AI. Tentu saja tetap butuh sedikit sense seni
  Kalau Anda berharap cukup memberi dua gambar lalu model akan mengurus sisanya sendiri, itu memang percobaan yang berani, tetapi mustahil dilakukan
- Itu karena model kecil seperti SD dilatih pada resolusi yang sangat spesifik. Model yang lebih canggih dilatih dengan kualitas lebih tinggi atau kumpulan resolusi yang lebih beragam
  Saat membuat gambar beresolusi rendah dengan model berkualitas tinggi, rasanya seperti model sebenarnya mengeluarkan potongan dari gambar yang jauh lebih besar. Itu kesan saya setelah beberapa jam bereksperimen, dan bahkan saat mencoba menaruh objek tertentu di tengah pada model besar, sering kali objeknya tidak muncul tepat di tengah. GPU saya juga punya batas kemampuan
Ada beberapa demo space yang menggunakan ini. Yang ini tampak paling bagus dan memungkinkan Anda melukis mask sendiri, tetapi di semua gambar yang saya coba hasilnya gagal: https://huggingface.co/spaces/multimodalart/Moebius
- Setelah utak-atik sana-sini saya berhasil membuatnya jalan, tetapi kualitasnya agak kurang bagus. Saya masih terus bereksperimen dengan pengaturan yang diekspos, bisa dilihat di sini: https://huggingface.co/spaces/jonatei/MoebiusDemo
  Saat ini saya sedang aktif mengutak-atiknya, jadi sesekali bisa rusak :)
  Ini berjalan di CPU gratis, jadi butuh sekitar 80 detik per gambar
Saya membuat aplikasi kecil yang berjalan sepenuhnya di browser dan memungkinkan mencoba semua model fine-tune: https://inpaintlab.com/
Saya tidak tahu apa itu inpainting. Di komentar semua orang tampaknya sudah paham istilah ini, tetapi saya tidak melihat penjelasannya di halaman yang ditautkan
- Jika Anda mengklik gambar visualisasinya, Anda bisa melihat cara kerjanya secara langsung. Area ungu adalah bagian yang ditandai pengguna agar sistem melakukan inpainting, dan jika Anda mengklik gambarnya, hasilnya akan terlihat
  Pada dasarnya model melihat konteks area yang bukan ungu lalu memutuskan apa yang paling cocok untuk area ungu, kemudian menggambar ulang bagian gambar tersebut. Ini sering dipakai untuk menghapus objek, tetapi seperti terlihat di contoh, bisa juga untuk hal lain
Tidak terlalu bagus. Area yang di-inpaint, seperti biasa, terlalu halus dibanding tekstur berfrekuensi tinggi yang detail pada foto natural
Paling banter hanya cukup layak untuk menghapus sesuatu dari thumbnail
- Ini juga begitu, dan contoh-contohnya pun cherry-picked. Contoh menghapus kabel listrik pada foto natural sangat buruk. Bekas pita di area yang dihapus masih jelas terlihat
  Beberapa tahun lalu alat restorasi bawaan Photoshop pun bisa menghasilkan tingkat seperti itu
Saya berharap ada model seperti ini untuk penerjemahan manga. Saat ini untuk anime dan manga, model inpainting ringan yang tampaknya jadi standar de facto adalah LaMa, tetapi model itu sudah berumur beberapa tahun sehingga sepertinya masih ada ruang untuk perbaikan
- Saya sedang mencoba outpainting program animasi untuk anak saya (kalau penasaran, Leapfrog Letter Factory) lalu meng-upscale hasilnya, tetapi ternyata cukup sulit dilakukan secara lokal
  Saya penasaran apakah model ini bisa dilatih ulang atau di-fine-tune. Katanya model ini bisa membuat “expert”, jadi mungkin expert itu bisa lebih memahami berbagai jenis penerjemahan karakter
Ini baru AI yang berguna. Ada sangat banyak use case yang jadi mungkin
- Betul, dan itulah yang membuat frustrasi. Ada banyak use case yang benar-benar bisa mendapat perbedaan nyata dari model yang berjalan lokal, ditujukan untuk tujuan spesifik, dan stabil melakukan satu pekerjaan dengan baik
  Tetapi tidak akan ada yang menginvestasikan 1 miliar dolar demi penghapus debu yang menakjubkan atau segmentasi adegan yang sempurna
  Sebagai gantinya, kita harus mengunggahnya ke cloud lalu dengan sopan meminta model frontier multimodal raksasa melakukan hanya pekerjaan yang kita inginkan
- Saya penasaran berapa kali Anda mengedit foto yang diambil dengan ponsel selama 7 hari terakhir
Saya tidak mengerti. Ini bisa dicoba di mana, atau ini cuma iklan?
- Kelihatannya bagus, tetapi saya tidak tahu cara memakainya
  Sunting: sepertinya saya menemukannya
  https://huggingface.co/hustvl/Moebius

Moebius: Mencapai performa setara 10B dengan model image inpainting 0.2B

Latar belakang dan definisi masalah

Metode — pipeline keseluruhan

Hasil utama (Highlights)

Efisiensi parameter ekstrem (< 2%)

Peningkatan kecepatan inferensi 15x (26ms/step)

Kualitas inpainting kelas 10B

Inovasi inti berbasis sinergi

Spesialis untuk tugas tertentu, bukan model umum yang membengkak

Evaluasi dan perbandingan

Bacaan terkait

1 komentar

Komentar Hacker News