- FLUX.2 adalah model pembuatan gambar berkualitas tinggi untuk workflow kreatif nyata, yang mempertahankan konsistensi karakter dan gaya di antara beberapa gambar referensi serta mendukung pemrosesan teks dan kepatuhan terhadap panduan merek
- Pengeditan gambar detail dimungkinkan hingga resolusi 4 megapiksel, dengan kontrol yang stabil atas elemen visual seperti pencahayaan, tata letak, dan logo
- Melalui strategi open-core, tersedia sekaligus model berbobot terbuka dan API kelas produksi, membawa ekosistem terbuka yang dibangun di FLUX.1 ke tahap FLUX.2
- Fitur utama baru mencakup dukungan multi-reference, rendering tipografi yang presisi, pemrosesan prompt yang ditingkatkan, dan refleksi pengetahuan berbasis dunia nyata
- Keluarga model terdiri dari pro, flex, dev, klein, VAE, dan tersedia baik sebagai open-weight maupun API komersial
- Black Forest Labs bertujuan mendorong kemajuan terbuka dalam kecerdasan visual dengan menggabungkan riset terbuka dan infrastruktur komersial
Ikhtisar FLUX.2
- FLUX.2 adalah model pembuatan gambar untuk lingkungan produksi nyata, bukan sekadar demo
- Menjaga konsistensi karakter dan gaya berdasarkan beberapa gambar referensi
- Dapat mengikuti prompt terstruktur, serta membaca dan menulis teks yang kompleks
- Menangani panduan merek, pencahayaan, tata letak, dan logo secara stabil
- Mendukung pengeditan gambar dengan detail dan konsistensi tetap terjaga hingga resolusi 4MP
Filosofi open-core Black Forest Labs
- Mengajukan prinsip bahwa kecerdasan visual harus dikembangkan bersama oleh peneliti, kreator, dan pengembang
- Menyediakan secara paralel model open-weight dan endpoint API tingkat komersial
- Model terbuka mendorong eksperimen, pengurangan biaya, dan peningkatan transparansi
- Sejak didirikan pada 2024, membangun fondasi inovasi terbuka melalui FLUX.1 [dev] dan FLUX.1 Kontext [pro]
- FLUX.1 [dev] disebut sebagai model gambar terbuka paling populer di dunia
- FLUX.1 Kontext [pro] digunakan oleh tim besar seperti Adobe dan Meta
Dari FLUX.1 ke FLUX.2
- Jika FLUX.1 menunjukkan potensi sebagai alat kreatif, maka FLUX.2 berfokus pada inovasi workflow produksi
- Dengan memperkuat presisi, efisiensi, kontrol, dan realisme, model ini sangat meningkatkan keekonomian pembuatan gambar
- Hasilnya, FLUX.2 diperkirakan akan menjadi komponen inti infrastruktur kreatif
Fitur utama (What’s New)
- Dukungan multi-reference: Merujuk hingga 10 gambar sekaligus untuk menjaga konsistensi karakter, produk, dan gaya
- Detail halus dan realisme: Cocok untuk fotografi produk, visualisasi, dan hasil setingkat foto
- Peningkatan rendering teks: Keterbacaan lebih baik pada tipografi kompleks, infografik, mockup UI, dan lainnya
- Pemrosesan prompt yang diperkuat: Merefleksikan prompt multi-struktur dan batasan komposisi secara akurat
- Perluasan pengetahuan berbasis dunia nyata: Komposisi adegan yang konsisten berdasarkan logika pencahayaan dan ruang
- Pengeditan resolusi tinggi: Mendukung rasio input-output yang fleksibel hingga resolusi 4MP
Keluarga produk FLUX.2
- FLUX.2 [pro]
- Memiliki kualitas gambar, kepatuhan terhadap prompt, dan fidelitas visual yang mampu bersaing dengan model tertutup terbaik
- Ditandai dengan kecepatan generasi tinggi dan biaya rendah, tersedia di BFL Playground, API, dan platform mitra
- FLUX.2 [flex]
- Model yang memungkinkan penyesuaian langsung parameter seperti jumlah step dan guidance scale untuk mengoptimalkan kualitas, kecepatan, dan rendering teks
- Sangat kuat terutama dalam ekspresi tipografi yang presisi
- FLUX.2 [dev]
- Model open-weight 32B, model publik terkuat yang ada saat ini dengan dukungan text-to-image dan pengeditan gambar multi-input dalam satu checkpoint
- Bobot tersedia di Hugging Face, termasuk implementasi optimasi FP8 hasil kolaborasi dengan NVIDIA dan ComfyUI
- Dapat digunakan melalui API di FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra, dan lainnya
- FLUX.2 [klein] (akan datang)
- Model open source Apache 2.0 yang akan hadir dalam bentuk ringan dan berkinerja tinggi melalui distilasi ukuran dari basis FLUX.2
- FLUX.2 – VAE
- VAE baru yang mengoptimalkan kemudahan pelatihan, kualitas, dan rasio kompresi secara seimbang, serta menjadi komponen inti backbone FLUX.2
- Tersedia di Hugging Face dengan lisensi Apache 2.0
Kinerja dan nilai
- Keluarga model FLUX.2 menawarkan kualitas pembuatan gambar mutakhir dengan harga yang kompetitif
- Di antara model open-weight, FLUX.2 [dev] mencatat kinerja unggul dibanding semua alternatif terbuka pada pembuatan text-to-image serta pengeditan referensi tunggal dan multi-reference
- Semua model dikelola sebelum dan sesudah peluncuran sesuai prinsip pengembangan yang bertanggung jawab
Struktur teknis (How It Works)
- Berdasarkan arsitektur latent flow matching, mengintegrasikan pembuatan dan pengeditan gambar dalam satu struktur
- Menggabungkan Mistral-3 24B vision-language model dan Rectified Flow Transformer
- VLM menyediakan pengetahuan dunia nyata dan pemahaman konteks
- Transformer menangani relasi spasial, karakteristik material, dan logika komposisi
- Dapat menggabungkan hingga 10 gambar referensi untuk menghasilkan output baru
- Ruang laten model dilatih ulang untuk memperbaiki trilemma kemampuan pelatihan, kualitas, dan rasio kompresi
Materi tambahan
Arah masa depan (Into the New)
- FLUX.2 adalah langkah menuju model multimodal yang mengintegrasikan persepsi, generasi, memori, dan penalaran
- Sebagai teknologi dasar bagi infrastruktur kecerdasan visual, tujuannya adalah mengubah cara dunia dikenali dan dipahami
- Saat ini sedang merekrut talenta di Freiburg dan San Francisco
Belum ada komentar.