Moebius: Mencapai performa setara 10B dengan model image inpainting 0.2B
(hustvl.github.io)- Model spesialis ringan yang mewujudkan image inpainting berkualitas tinggi—yang sebelumnya didominasi model foundation industri berskala 10B—dengan kualitas setara atau lebih baik sambil menekan parameter hingga kurang dari 2%
- Berjalan dengan 0.22B (226M) parameter, serta mencapai kecepatan inferensi lebih dari 15 kali lebih cepat dibanding FLUX.1-Fill-Dev berukuran 11.9B
- Melalui Local-λ Mix Interaction(LλMI) block yang merekonstruksi backbone diffusion, konteks spasial dan informasi semantik global dikompresi ke dalam matriks linear berukuran tetap
- Strategi adaptive multi-granularity distillation yang bekerja hanya di dalam latent space mentransfer daya representasi model teacher besar ke model ringan
- Pendekatan task-specific specialist yang menunjukkan bahwa alih-alih sekadar memperbesar skala, model yang lebih cerdas, lebih ringan, dan lebih cepat dimungkinkan ketika tugas didefinisikan dengan jelas
Latar belakang dan definisi masalah
- Model foundation industri berskala 10B telah mendorong batas image inpainting, tetapi biaya komputasinya yang sangat besar sangat membatasi deployment nyata
- Membangun model spesialis yang terfokus pada tugas adalah alternatif yang menjanjikan, tetapi kompresi arsitektur yang ekstrem menimbulkan bottleneck representasi (representation bottleneck) yang serius
- Untuk mengatasinya, diajukan framework inpainting ringan dan sangat efisien Moebius
Metode — pipeline keseluruhan
- Mengadopsi struktur yang menggabungkan framework Latent Diffusion Model(LDM) dengan Latent Categories Guidance(LCG)
- Denoising U-Net direkonstruksi secara sistematis dengan LλMI block yang diusulkan untuk mencapai efisiensi arsitektur ekstrem
- Pada tahap pelatihan, diterapkan strategi adaptive multi-granularity distillation untuk menyelaraskan specialist ringan dengan teacher berkapasitas besar, sehingga mengurangi kehilangan kapasitas akibat kompresi struktur yang ekstrem
Hasil utama (Highlights)
-
Efisiensi parameter ekstrem (< 2%)
- Berjalan hanya dengan 0.22B (226M) parameter, yaitu kurang dari 2% ukuran model besar FLUX.1-Fill-Dev (11.9B)
- Mendobrak anggapan bahwa komputasi berat adalah keharusan, sehingga inpainting berkualitas tinggi dimungkinkan bahkan pada perangkat kelas konsumen dan edge device
-
Peningkatan kecepatan inferensi 15x (26ms/step)
- Mencapai latensi inferensi sangat rendah sebesar 26.01ms per step pada satu GPU
- Dikombinasikan dengan tahap sampling yang dioptimalkan, total runtime dipercepat lebih dari 15 kali dibanding model kelas 10B
-
Kualitas inpainting kelas 10B
- Membuktikan bahwa pengurangan ukuran tidak berarti penurunan daya representasi
- Melalui optimasi sinergi antara arsitektur dan distillation, pada beberapa skenario seperti tekstur kompleks dan kealamian wajah, model ini melampaui model SOTA kelas 10B (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
- Diverifikasi pada 6 benchmark yang mencakup adegan alami (Places2) dan adegan manusia (CelebA-HQ, FFHQ)
-
Inovasi inti berbasis sinergi
- Desain arsitektur (LλMI Block): merekonstruksi self-attention dan cross-attention untuk mengompresi konteks spasial dan informasi semantik global ke dalam matriks linear berukuran tetap, sehingga menghindari beban komputasi kuadratik
- Adaptive multi-granularity distillation: mentransfer daya representasi model teacher PixelHacker hanya di dalam latent space, sehingga menghindari decoding pixel-space yang mahal
- Penyelarasan pengawasan multi-granularitas dilakukan dari fitur intermediate mikroskopis hingga lintasan diffusion makroskopis, sambil menyeimbangkan pelatihan secara dinamis melalui mekanisme adaptive loss weighting berbasis gradient norm
- Keseimbangan sinergi optimal: secara sistematis mengeksplorasi kendala timbal balik dan batas atas antara struktur terkompresi dan distillation
- Dengan memetakan batas sinergi arsitektur-distillation, dipastikan bahwa Moebius 0.22B (student) dapat menyerap semaksimal mungkin kemampuan penalaran semantik dari PixelHacker (teacher) tanpa saturasi representasi
-
Spesialis untuk tugas tertentu, bukan model umum yang membengkak
- Pendekatan yang menjawab pertanyaan mendasar: "jika tugas didefinisikan dengan jelas, bisakah model menjadi lebih cerdas, lebih ringan, dan lebih cepat?"
- Berperan sebagai specialist yang sangat dioptimalkan, membebaskan image inpainting nyata dan penghapusan objek AI dari pembengkakan parameter
Evaluasi dan perbandingan
- Eksperimen ekstensif dilakukan pada adegan alami (Places2) dan adegan manusia (CelebA-HQ, FFHQ)
- Dari sisi kualitas generasi, dikonfirmasi hasil yang setara atau melampaui model umum industri kelas 10B FLUX.1-Fill-Dev
- Dengan ukuran kurang dari 2% parameter (0.22B vs 11.9B) dan percepatan waktu inferensi lebih dari 15x, model ini menghadirkan tolok ukur efisiensi baru untuk inpainting berkefidelitas tinggi
1 komentar
Komentar Hacker News
Dibuat agar bisa berjalan di ONNX (berkat Claude Opus 4.8), dan sekarang ada demo interaktif dengan seluruh model berjalan langsung di browser. Unduhannya sekitar 1.3GB: https://simonw.github.io/moebius-web/
Kodenya ada di sini: https://github.com/simonw/moebius-web
Catatan Claude Code: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Ada penjelasan lebih rinci di blog: https://simonwillison.net/2026/Jun/22/porting-moebius/
Saya sempat mencobanya sedikit, dan untuk model 0.2B ini sangat mengesankan, tetapi saya sulit diyakinkan bahwa performanya setara dengan model 10B
Pada gambar natural hasilnya cukup bagus, tetapi area yang di-inpaint terlihat jauh lebih halus dibanding sekelilingnya, dan model ini sangat lemah saat harus menambahkan objek baru. Output-nya juga dibatasi ke 512x512, jadi kegunaannya jadi berkurang
Beberapa tahun lalu saya mengerjakan proyek inpainting untuk klien. Tujuannya adalah meng-inpaint iklan banner untuk promotor konser agar mudah membuat iklan dengan berbagai ukuran media, dan saya menangani iklan bertema Natal untuk beberapa penyanyi terkenal
Hal paling aneh adalah saat alat inpainting mulai menambahkan orang-orang aneh ke gambar. Penyanyinya dihias dengan ornamen berkilau dan warna merah, lalu model malah menambahkan seorang lelaki tua pemarah memakai topi sutra. Saya tidak ingat pernah menekan tombol “tambahkan lelaki tua menyeramkan”
Backend saat itu adalah Stable Diffusion, dan kami sempat berpindah-pindah di antara beberapa layanan hosting model termasuk Amazon, tetapi semuanya rumit karena kebutuhan gambar input berbeda-beda. Ada yang gagal karena tidak bisa menangani rasio seperti banner 200x60, ada juga yang mengharuskan resize sebelum input sehingga sejak awal kami memberi gambar beresolusi rendah. Sampah masuk, sampah keluar
Pada akhirnya, perlu banyak pekerjaan persiapan, dan klien tidak benar-benar memakai hasil percobaan saya
Pasti di Inggris ada peraturan yang mewajibkan tokoh seperti Scrooge dipasang di latar acara Natal agar orang-orang tidak terlalu larut dalam euforia
Bahkan inpainting wajah saja baru lumayan setelah gonta-ganti beberapa alat, jadi inpainting untuk hal selain itu nyaris mustahil. Model-model seperti ini juga sangat lemah dalam menempatkan objek secara alami ke dalam adegan. Kalung atau sabuk yang samar-samar mungkin masih bisa, tetapi begitu harus memasukkan objek baru ke adegan, model akan gagal dalam sangat banyak cara
Resolusinya juga jauh lebih baik di 512x512, dan makin jauh dari itu makin banyak masalah
Jika Anda mencoba meng-inpaint iklan banner, kemungkinan besar hasilnya akan sangat terdistorsi. Model-model itu tidak bisa menangani font dan juga lemah dalam transkripsi yang presisi pada level piksel. Saat itu, cara yang realistis mungkin adalah memasukkan banner iklannya secara manual lalu hanya memperbaiki bagian tepinya dengan AI. Tentu saja tetap butuh sedikit sense seni
Kalau Anda berharap cukup memberi dua gambar lalu model akan mengurus sisanya sendiri, itu memang percobaan yang berani, tetapi mustahil dilakukan
Saat membuat gambar beresolusi rendah dengan model berkualitas tinggi, rasanya seperti model sebenarnya mengeluarkan potongan dari gambar yang jauh lebih besar. Itu kesan saya setelah beberapa jam bereksperimen, dan bahkan saat mencoba menaruh objek tertentu di tengah pada model besar, sering kali objeknya tidak muncul tepat di tengah. GPU saya juga punya batas kemampuan
Ada beberapa demo space yang menggunakan ini. Yang ini tampak paling bagus dan memungkinkan Anda melukis mask sendiri, tetapi di semua gambar yang saya coba hasilnya gagal: https://huggingface.co/spaces/multimodalart/Moebius
Saat ini saya sedang aktif mengutak-atiknya, jadi sesekali bisa rusak :)
Ini berjalan di CPU gratis, jadi butuh sekitar 80 detik per gambar
Saya membuat aplikasi kecil yang berjalan sepenuhnya di browser dan memungkinkan mencoba semua model fine-tune: https://inpaintlab.com/
Saya tidak tahu apa itu inpainting. Di komentar semua orang tampaknya sudah paham istilah ini, tetapi saya tidak melihat penjelasannya di halaman yang ditautkan
Pada dasarnya model melihat konteks area yang bukan ungu lalu memutuskan apa yang paling cocok untuk area ungu, kemudian menggambar ulang bagian gambar tersebut. Ini sering dipakai untuk menghapus objek, tetapi seperti terlihat di contoh, bisa juga untuk hal lain
Tidak terlalu bagus. Area yang di-inpaint, seperti biasa, terlalu halus dibanding tekstur berfrekuensi tinggi yang detail pada foto natural
Paling banter hanya cukup layak untuk menghapus sesuatu dari thumbnail
Beberapa tahun lalu alat restorasi bawaan Photoshop pun bisa menghasilkan tingkat seperti itu
Saya berharap ada model seperti ini untuk penerjemahan manga. Saat ini untuk anime dan manga, model inpainting ringan yang tampaknya jadi standar de facto adalah LaMa, tetapi model itu sudah berumur beberapa tahun sehingga sepertinya masih ada ruang untuk perbaikan
Saya penasaran apakah model ini bisa dilatih ulang atau di-fine-tune. Katanya model ini bisa membuat “expert”, jadi mungkin expert itu bisa lebih memahami berbagai jenis penerjemahan karakter
Ini baru AI yang berguna. Ada sangat banyak use case yang jadi mungkin
Tetapi tidak akan ada yang menginvestasikan 1 miliar dolar demi penghapus debu yang menakjubkan atau segmentasi adegan yang sempurna
Sebagai gantinya, kita harus mengunggahnya ke cloud lalu dengan sopan meminta model frontier multimodal raksasa melakukan hanya pekerjaan yang kita inginkan
Saya tidak mengerti. Ini bisa dicoba di mana, atau ini cuma iklan?
Sunting: sepertinya saya menemukannya
https://huggingface.co/hustvl/Moebius