- FLUX.1 Kontext dari Black Forest Labs adalah model AI generatif terbaru yang menerima teks dan gambar secara bersamaan untuk memahami konteks, sekaligus dapat langsung mengedit dan menghasilkan sambil mempertahankan karakteristik serta gaya gambar yang sudah ada
- Dibanding algoritme generasi teks-ke-gambar yang ada, model ini menunjukkan performa unggul dalam konsistensi teks dan objek, pengeditan lokal, referensi gaya, dan respons berkecepatan tinggi
- Pengguna dapat memasukkan teks saja, atau menggabungkan gambar dan teks untuk hanya mengubah area tertentu, menerapkan gaya saja, melakukan pengeditan multi-tahap, dan berbagai pekerjaan gambar interaktif lainnya
- FLUX.1 Kontext [pro] menjaga konsistensi gambar bahkan setelah banyak pengeditan, dan bekerja dengan kecepatan terbaik di industri
- Model open source versi [dev] adalah diffusion transformer 12B yang diringankan, dan dibuka sebagai private beta untuk keperluan riset serta kustomisasi
Pengenalan FLUX.1 Kontext
- FLUX.1 Kontext melampaui keterbatasan model lama yang hanya menghasilkan gambar dari teks, dengan menerima teks dan gambar bersama-sama untuk generasi dan pengeditan gambar berbasis konteks melalui model generatif flow matching
- Dengan memanfaatkan prompt teks dan gambar secara bersamaan, model ini dapat menghapus/menambahkan/mengubah elemen tertentu pada gambar, serta menghasilkan adegan baru sambil mempertahankan gaya atau ciri khasnya
Fitur utama
- Konsistensi karakter: orang, objek, dan gaya yang sama tetap terjaga konsisten di berbagai adegan dan lingkungan
- Pengeditan lokal: hanya bagian tertentu dari gambar yang dapat diubah lewat perintah teks (misalnya hanya menghapus elemen tertentu pada wajah, atau hanya mengganti tulisan)
- Referensi gaya: gaya khas dari gambar referensi dapat diterapkan ke adegan baru
- Kecepatan interaktif: mendukung pengeditan dan generasi real-time dengan kecepatan inferensi hingga 8 kali lebih cepat dibanding model sebelumnya
Integrasi pengeditan teks-ke-gambar dan gambar-ke-gambar
- FLUX.1 Kontext tidak hanya kuat untuk satu kali edit, tetapi juga mempertahankan kualitas dan karakteristik gambar dalam instruksi berulang multi-tahap
- Dengan terus memanfaatkan prompt dan hasil gambar sebelumnya, pengguna dapat mencapai hasil yang diinginkan secara bertahap
Lini model FLUX.1 Kontext
- FLUX.1 Kontext [pro]
- Model flagship yang dioptimalkan untuk pengeditan dan generasi iteratif cepat
- Menerima teks dan gambar referensi secara bersamaan untuk melakukan pengeditan area target dan transformasi adegan kompleks dengan cepat dan konsisten
- FLUX.1 Kontext [max]
- Model spesifikasi tertinggi yang bersifat eksperimental, dengan pemahaman prompt, tipografi, dan kemampuan pengeditan konsisten berkecepatan tinggi yang ditingkatkan
- FLUX.1 Kontext [dev]
- Model ringan (12B) untuk riset dan kustomisasi, dibuka sebagai private beta
- Saat dirilis, akan tersedia melalui mitra infrastruktur AI utama seperti FAL, Replicate, Runware, DataCrunch, TogetherAI, dan HuggingFace
Dukungan dan akses
- Seri FLUX.1 Kontext dapat digunakan di berbagai layanan seperti KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI serta infrastruktur seperti FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
- Melalui FLUX Playground (https://playground.bfl.ai/) untuk uji coba dan demo real-time, pengguna dapat dengan mudah memverifikasi performa model dan melihat hasilnya tanpa integrasi terpisah
Evaluasi performa
- Pada benchmark internal KontextBench, model ini dievaluasi terhadap model-model SOTA pada 6 tugas generasi dan pengeditan gambar
- Mencatat skor tingkat industri tertinggi di bidang pengeditan teks dan pelestarian karakter
- Kecepatan inferensi juga mencapai latensi yang jauh lebih rendah dibanding model performa terbaik sebelumnya
- Daya saing juga terbukti di berbagai kriteria seperti kualitas estetika, pemahaman prompt, tipografi, dan realisme
Keterbatasan dan tantangan ke depan
- Pada pengeditan berulang multi-tahap (lebih dari 6 kali), noise visual (artifact) dapat muncul dan menurunkan kualitas gambar
- Kadang ada kasus ketika model tidak mengikuti instruksi detail tertentu dalam prompt secara akurat
- Karena keterbatasan pengetahuan dunia dan pemahaman konteks, model dapat menghasilkan gambar yang tidak akurat secara kontekstual
- Dalam proses peringanan model dan distillation, kualitas gambar dapat menurun
1 komentar
Opini Hacker News
Saya sudah mencobanya langsung dan mengalami fenomena "context slip" yang menarik. Gambar terkait Saya membuat gambar pesawat luar angkasa yang mendarat di planet terpencil dengan prompt generasi, lalu meminta edit: "buat pesawatnya lebih berwarna dan tampilkan lebih besar di gambar". Namun pesawat luar angkasanya malah berubah menjadi kapal kontainer. Karena riwayat chat masih ada, seharusnya model bisa memahami bahwa saya menginginkan pesawat luar angkasa, tetapi konteks pentingnya terlewat sehingga hasilnya jadi melenceng.
Saya sedang menguji langsung lewat endpoint FLUX Kontext Pro milik Replicate. Ada juga aplikasi Replicate yang menunjukkan berbagai cara penggunaan pengeditan gambar FLUX Kontext: FLUX Kontext Apps. Kualitas gambarnya, untuk generasi image-to-image sederhana, terasa mirip dengan level pembuatan gambar GPT-4o. Kecepatan generasinya juga cukup cepat, sekitar 4 detik. Prompt engineering terasa agak rumit di luar contoh-contoh yang ada, tapi menurut saya akan makin membaik. Perubahan gaya atau permintaan detail memang diterapkan, tetapi semakin spesifik instruksinya justru ada kecenderungan mengabaikan detail yang diminta.
Sebagian sampel tampaknya hanya menampilkan hasil yang terlalu bagus. Ada yang pernah mencoba aplikasi headshot profesional di “Kontext Apps”? Tautan Kontext Apps Saya memasukkan beberapa foto diri saya, tetapi tiap kali hasilnya malah menjadi orang yang benar-benar berbeda. Hasil headshot akhirnya memang terlihat profesional.
Saya sedang mempertimbangkan apakah akan menambahkan model FLUX Kontext ke situs perbandingan gambar GenAI saya. Versi Max memang mendapat skor hampir dua kali lebih tinggi dalam fidelity terhadap prompt, tetapi tetap masih jauh di bawah
gpt-image-1milik OpenAI (di luar urusan kualitas gambar).gpt-image-1ada di peringkat pertama leaderboard. Flux 1.D masih saya pertahankan sebagai baseline untuk kemampuan GenAI lokal. Situs perbandingan Saya juga baru menambahkan model Image 2.0 dari Hunyuan, tetapi karena ini model real-time, skornya memang rendah. Sebagai catatan, model dari Black Forest Labs ini tampaknya lebih berfokus pada edit dan revisi berulang pada gambar yang sudah ada daripada text-to-image murni.Saya penasaran apakah gambar input dibatasi hanya satu. Saya ingin mencoba prompt gabungan dengan beberapa gambar, seperti "letakkan item dari gambar A ke dalam gambar B" atau "masukkan karakter A ke lanskap B".
gpt-image-1, tetapi benar-benar mendekati. Saya rasa untuk gambar atau video, hambatan dominasi eksklusif sekarang sudah hilang. Saya sempat khawatir Google atau OpenAI akan memonopoli pasar kreativitas, tetapi sekarang siapa pun bisa membuatnya sendiri.Untuk yang penasaran dengan makalah teknisnya, saya bagikan laporan resmi.
Kalau ingin memodifikasi dan melatih ini sendiri secara lokal, kira-kira butuh tingkat keahlian seperti apa? Saya sudah dua hari mengutak-atik RTX 4090 di Windows untuk mencoba tuning LoRA sendiri dengan Flux 1 dev, tetapi belum berhasil dengan benar. Saya penasaran seberapa dalam perlu mempelajarinya, apakah hambatan masuknya cukup rendah, bisa untuk pemula, atau memang hanya realistis bagi yang sudah berpengalaman.
Saya kurang paham contoh remove from face. Kalau tidak ada foto wajah lain, bukankah pada akhirnya model hanya memakai gambar wajah generik?
Ada yang bertanya apakah model ini bisa menghasilkan gambar catur. Tautan prediksi AI catur
Ada komentar yang menebak-nebak kapan versi pengembang terbuka akan dirilis, apakah dalam seminggu, atau masih butuh satu-dua bulan lagi.