- FLUX.2 adalah model pembuatan gambar berkualitas tinggi untuk workflow kreatif nyata, yang mempertahankan konsistensi karakter dan gaya di antara beberapa gambar referensi serta mendukung pemrosesan teks dan kepatuhan terhadap panduan merek
- Pengeditan gambar detail dimungkinkan hingga resolusi 4 megapiksel, dengan kontrol yang stabil atas elemen visual seperti pencahayaan, tata letak, dan logo
- Melalui strategi open-core, tersedia sekaligus model berbobot terbuka dan API kelas produksi, membawa ekosistem terbuka yang dibangun di FLUX.1 ke tahap FLUX.2
- Fitur utama baru mencakup dukungan multi-reference, rendering tipografi yang presisi, pemrosesan prompt yang ditingkatkan, dan refleksi pengetahuan berbasis dunia nyata
- Keluarga model terdiri dari pro, flex, dev, klein, VAE, dan tersedia baik sebagai open-weight maupun API komersial
- Black Forest Labs bertujuan mendorong kemajuan terbuka dalam kecerdasan visual dengan menggabungkan riset terbuka dan infrastruktur komersial
Ikhtisar FLUX.2
- FLUX.2 adalah model pembuatan gambar untuk lingkungan produksi nyata, bukan sekadar demo
- Menjaga konsistensi karakter dan gaya berdasarkan beberapa gambar referensi
- Dapat mengikuti prompt terstruktur, serta membaca dan menulis teks yang kompleks
- Menangani panduan merek, pencahayaan, tata letak, dan logo secara stabil
- Mendukung pengeditan gambar dengan detail dan konsistensi tetap terjaga hingga resolusi 4MP
Filosofi open-core Black Forest Labs
- Mengajukan prinsip bahwa kecerdasan visual harus dikembangkan bersama oleh peneliti, kreator, dan pengembang
- Menyediakan secara paralel model open-weight dan endpoint API tingkat komersial
- Model terbuka mendorong eksperimen, pengurangan biaya, dan peningkatan transparansi
- Sejak didirikan pada 2024, membangun fondasi inovasi terbuka melalui FLUX.1 [dev] dan FLUX.1 Kontext [pro]
- FLUX.1 [dev] disebut sebagai model gambar terbuka paling populer di dunia
- FLUX.1 Kontext [pro] digunakan oleh tim besar seperti Adobe dan Meta
Dari FLUX.1 ke FLUX.2
- Jika FLUX.1 menunjukkan potensi sebagai alat kreatif, maka FLUX.2 berfokus pada inovasi workflow produksi
- Dengan memperkuat presisi, efisiensi, kontrol, dan realisme, model ini sangat meningkatkan keekonomian pembuatan gambar
- Hasilnya, FLUX.2 diperkirakan akan menjadi komponen inti infrastruktur kreatif
Fitur utama (What’s New)
- Dukungan multi-reference: Merujuk hingga 10 gambar sekaligus untuk menjaga konsistensi karakter, produk, dan gaya
- Detail halus dan realisme: Cocok untuk fotografi produk, visualisasi, dan hasil setingkat foto
- Peningkatan rendering teks: Keterbacaan lebih baik pada tipografi kompleks, infografik, mockup UI, dan lainnya
- Pemrosesan prompt yang diperkuat: Merefleksikan prompt multi-struktur dan batasan komposisi secara akurat
- Perluasan pengetahuan berbasis dunia nyata: Komposisi adegan yang konsisten berdasarkan logika pencahayaan dan ruang
- Pengeditan resolusi tinggi: Mendukung rasio input-output yang fleksibel hingga resolusi 4MP
Keluarga produk FLUX.2
- FLUX.2 [pro]
- Memiliki kualitas gambar, kepatuhan terhadap prompt, dan fidelitas visual yang mampu bersaing dengan model tertutup terbaik
- Ditandai dengan kecepatan generasi tinggi dan biaya rendah, tersedia di BFL Playground, API, dan platform mitra
- FLUX.2 [flex]
- Model yang memungkinkan penyesuaian langsung parameter seperti jumlah step dan guidance scale untuk mengoptimalkan kualitas, kecepatan, dan rendering teks
- Sangat kuat terutama dalam ekspresi tipografi yang presisi
- FLUX.2 [dev]
- Model open-weight 32B, model publik terkuat yang ada saat ini dengan dukungan text-to-image dan pengeditan gambar multi-input dalam satu checkpoint
- Bobot tersedia di Hugging Face, termasuk implementasi optimasi FP8 hasil kolaborasi dengan NVIDIA dan ComfyUI
- Dapat digunakan melalui API di FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra, dan lainnya
- FLUX.2 [klein] (akan datang)
- Model open source Apache 2.0 yang akan hadir dalam bentuk ringan dan berkinerja tinggi melalui distilasi ukuran dari basis FLUX.2
- FLUX.2 – VAE
- VAE baru yang mengoptimalkan kemudahan pelatihan, kualitas, dan rasio kompresi secara seimbang, serta menjadi komponen inti backbone FLUX.2
- Tersedia di Hugging Face dengan lisensi Apache 2.0
Kinerja dan nilai
- Keluarga model FLUX.2 menawarkan kualitas pembuatan gambar mutakhir dengan harga yang kompetitif
- Di antara model open-weight, FLUX.2 [dev] mencatat kinerja unggul dibanding semua alternatif terbuka pada pembuatan text-to-image serta pengeditan referensi tunggal dan multi-reference
- Semua model dikelola sebelum dan sesudah peluncuran sesuai prinsip pengembangan yang bertanggung jawab
Struktur teknis (How It Works)
- Berdasarkan arsitektur latent flow matching, mengintegrasikan pembuatan dan pengeditan gambar dalam satu struktur
- Menggabungkan Mistral-3 24B vision-language model dan Rectified Flow Transformer
- VLM menyediakan pengetahuan dunia nyata dan pemahaman konteks
- Transformer menangani relasi spasial, karakteristik material, dan logika komposisi
- Dapat menggabungkan hingga 10 gambar referensi untuk menghasilkan output baru
- Ruang laten model dilatih ulang untuk memperbaiki trilemma kemampuan pelatihan, kualitas, dan rasio kompresi
Materi tambahan
Arah masa depan (Into the New)
- FLUX.2 adalah langkah menuju model multimodal yang mengintegrasikan persepsi, generasi, memori, dan penalaran
- Sebagai teknologi dasar bagi infrastruktur kecerdasan visual, tujuannya adalah mengubah cara dunia dikenali dan dipahami
- Saat ini sedang merekrut talenta di Freiburg dan San Francisco
1 komentar
Pendapat Hacker News
Belakangan model baru muncul terlalu sering, jadi memperbarui situs pembanding GenAI terasa hampir seperti kerja Sisifus
Meski begitu, saya sudah mengunggah hasil dari model Flux 2 Pro Editing yang baru dirilis
Bisa dicek di halaman hasil
Model ini mendapat skor sedikit lebih tinggi daripada Kontext milik BFL, mencatat 6 poin yang menempatkannya kira-kira di tengah dari total 12 model
Saya berencana segera menambahkan metrik numerik untuk evaluasi yang lebih rinci
Kalau hanya ingin membandingkan Flux 2 Pro, Nano Banana Pro, dan Kontext, lihat tautan ini
Sebagai catatan, BFL tampaknya mendukung struktur JSON untuk penyuntingan yang lebih presisi, jadi menarik juga apakah memanfaatkannya bisa meningkatkan akurasi
Flux dan Gemini Pro 3 mendapat skor yang sama, dan itu menurunkan kualitas benchmark
Model OpenAI punya sentuhan khas yang terlalu kuat sehingga lemah dalam mencocokkan gaya, sementara performa Flux berubah tergantung gayanya
Flux berusaha menghindari pelatihan yang merata-ratakan banyak gaya, tetapi itu berbenturan dengan tujuan membuat gambar yang menarik secara visual
Pada akhirnya, masalah konsistensi gaya sepertinya akan terus ada untuk sementara waktu
Seedream juga mengesankan, jadi di versi berikutnya sepertinya akan cukup kuat untuk bersaing dengan Google
Pembuatan gambar terasa hampir seperti masalah yang sudah terpecahkan
Model barunya hanya berada di level menengah, dan open source-nya juga tidak se-terbuka model-model Tiongkok
Kualitas gambar Flux masih terlihat seperti kulit plastik, tekstur buatan
Secara teknis mungkin lolos, tetapi dalam workflow nyata saya rasa saya tidak akan memilih Flux
Bisa jadi ini masalah tim data yang kurang punya sense estetika
BFL berada di posisi sulit, terjepit di antara Google dan ekosistem Tiongkok
Perusahaan model media lain seperti RunwayML, PikaLabs, dan LumaLabs juga sedang menghadapi kesulitan serupa
BFL memang baru menerima investasi besar, tetapi tetap saja bersaing dengan hyperscaler tampak terlalu berat
Menyenangkan melihat model baru ini juga dirilis dalam versi open-weight
Tapi saya penasaran apa yang terjadi dengan model video SOTA yang dulu sempat diumumkan
Itu juga disebut di video YouTube, tetapi halaman terkait (bfl.ai/up-next) sudah dihapus
Model gambar punya lebih banyak use case, dan dataset-nya juga jauh lebih kaya
Gambar adalah fondasi video, dan elemen yang bisa dikendalikan jauh lebih banyak
Model gambar memberi feedback cepat dan produktivitas, dan masih banyak yang harus dikejar dalam kontrol gaya, pose, dan konsistensi
Midjourney sangat unggul secara estetika, tetapi kurang kontrol
Flux terasa plastik, Imagen bergaya kartun, dan OpenAI terasa kuno
Pada akhirnya, harus bersaing dalam estetika, kontrol, dan reproduktibilitas sekaligus
Video hanya menjadi gangguan bagi pekerjaan itu
Saya menguji Flux 2 Pro sendiri (tautan Replicate)
Dibanding Nano Banana, tidak ada perbedaan besar, dan dibanding Flux 1.1 Pro ini hanya peningkatan bertahap
Kalau Google menaikkan harga atau mengubah API, tidak ada alternatif, sedangkan BFL punya opsi lokal
Detail yang tidak perlu ditambahkan seperti upscaling ESRGAN (tautan pengujian)
FLUX.1 Pro Kontext masih sangat baik dalam ekspresi artistik dan pemahaman instruksi
Ini juga bisa dilihat di blog perbandingan Nano Banana
FLUX.2 [dev] bisa dijalankan lokal di GPU RTX dengan versi optimalisasi fp8
Menjaga bobot tetap terbuka itu bagus, tetapi ukuran model naik dari 12B ke 32B sehingga penggunaan lokal jadi membebani
Saya menunggu versi distill
text encoder-nya 48GB, model generasinya 64GB, jadi totalnya lebih dari 100GB
Ini menjadi hambatan masuk bagi pengguna lokal
Text encoder pada versi ini adalah Mistral-Small-3.2-24B-Instruct-2506, lebih baik daripada kombinasi CLIP/T5 sebelumnya, tetapi ukurannya besar
Rasanya akan lebih terdiferensiasi dari Nano Banana kalau mereka menunggu lalu merilis model distill Apache 2.0
Struktur harganya juga unik — input $0.015 per MP, output $0.03 untuk MP pertama lalu $0.015 per MP setelahnya
Senang ada pesaing untuk Nano Banana Pro
Ini membantu menjaga persaingan harga
Google, OpenAI, dan Claude semuanya tidak bisa dilanggan
Sebagai catatan, versi open source FLUX.2-DEV tidak bisa dipakai secara komersial
Teks lisensi lengkap
Saya membandingkan Nano Banana Pro dan Flux 2 Pro dengan prompt “family guy cyberpunk 2077”,
model Google lebih cocok dengan adegan game, sementara Flux terasa terlalu realistis
Flux 2 Pro juga menunjukkan kecenderungan serupa
Namun dengan ekosistem LoRA dan waktu untuk tuning, Flux 1 Dev masih kuat untuk styling kreatif
Versi quant 18GB 4bit tersedia lewat diffusers sehingga bisa dijalankan di lingkungan VRAM rendah