FLUX.2: Model Generasi dan Pengeditan Visual Generasi Berikutnya

(bfl.ai)

2 poin oleh GN⁺ 2025-11-27 | 1 komentar | Bagikan ke WhatsApp

FLUX.2 adalah model pembuatan gambar berkualitas tinggi untuk workflow kreatif nyata, yang mempertahankan konsistensi karakter dan gaya di antara beberapa gambar referensi serta mendukung pemrosesan teks dan kepatuhan terhadap panduan merek
Pengeditan gambar detail dimungkinkan hingga resolusi 4 megapiksel, dengan kontrol yang stabil atas elemen visual seperti pencahayaan, tata letak, dan logo
Melalui strategi open-core, tersedia sekaligus model berbobot terbuka dan API kelas produksi, membawa ekosistem terbuka yang dibangun di FLUX.1 ke tahap FLUX.2
Fitur utama baru mencakup dukungan multi-reference, rendering tipografi yang presisi, pemrosesan prompt yang ditingkatkan, dan refleksi pengetahuan berbasis dunia nyata
Keluarga model terdiri dari pro, flex, dev, klein, VAE, dan tersedia baik sebagai open-weight maupun API komersial
Black Forest Labs bertujuan mendorong kemajuan terbuka dalam kecerdasan visual dengan menggabungkan riset terbuka dan infrastruktur komersial

Ikhtisar FLUX.2

FLUX.2 adalah model pembuatan gambar untuk lingkungan produksi nyata, bukan sekadar demo
- Menjaga konsistensi karakter dan gaya berdasarkan beberapa gambar referensi
- Dapat mengikuti prompt terstruktur, serta membaca dan menulis teks yang kompleks
- Menangani panduan merek, pencahayaan, tata letak, dan logo secara stabil
Mendukung pengeditan gambar dengan detail dan konsistensi tetap terjaga hingga resolusi 4MP

Filosofi open-core Black Forest Labs

Mengajukan prinsip bahwa kecerdasan visual harus dikembangkan bersama oleh peneliti, kreator, dan pengembang
Menyediakan secara paralel model open-weight dan endpoint API tingkat komersial
- Model terbuka mendorong eksperimen, pengurangan biaya, dan peningkatan transparansi
Sejak didirikan pada 2024, membangun fondasi inovasi terbuka melalui FLUX.1 [dev] dan FLUX.1 Kontext [pro]
- FLUX.1 [dev] disebut sebagai model gambar terbuka paling populer di dunia
- FLUX.1 Kontext [pro] digunakan oleh tim besar seperti Adobe dan Meta

Dari FLUX.1 ke FLUX.2

Jika FLUX.1 menunjukkan potensi sebagai alat kreatif, maka FLUX.2 berfokus pada inovasi workflow produksi
Dengan memperkuat presisi, efisiensi, kontrol, dan realisme, model ini sangat meningkatkan keekonomian pembuatan gambar
Hasilnya, FLUX.2 diperkirakan akan menjadi komponen inti infrastruktur kreatif

Fitur utama (What’s New)

Dukungan multi-reference: Merujuk hingga 10 gambar sekaligus untuk menjaga konsistensi karakter, produk, dan gaya
Detail halus dan realisme: Cocok untuk fotografi produk, visualisasi, dan hasil setingkat foto
Peningkatan rendering teks: Keterbacaan lebih baik pada tipografi kompleks, infografik, mockup UI, dan lainnya
Pemrosesan prompt yang diperkuat: Merefleksikan prompt multi-struktur dan batasan komposisi secara akurat
Perluasan pengetahuan berbasis dunia nyata: Komposisi adegan yang konsisten berdasarkan logika pencahayaan dan ruang
Pengeditan resolusi tinggi: Mendukung rasio input-output yang fleksibel hingga resolusi 4MP

Keluarga produk FLUX.2

FLUX.2 [pro]
- Memiliki kualitas gambar, kepatuhan terhadap prompt, dan fidelitas visual yang mampu bersaing dengan model tertutup terbaik
- Ditandai dengan kecepatan generasi tinggi dan biaya rendah, tersedia di BFL Playground, API, dan platform mitra
FLUX.2 [flex]
- Model yang memungkinkan penyesuaian langsung parameter seperti jumlah step dan guidance scale untuk mengoptimalkan kualitas, kecepatan, dan rendering teks
- Sangat kuat terutama dalam ekspresi tipografi yang presisi
FLUX.2 [dev]
- Model open-weight 32B, model publik terkuat yang ada saat ini dengan dukungan text-to-image dan pengeditan gambar multi-input dalam satu checkpoint
- Bobot tersedia di Hugging Face, termasuk implementasi optimasi FP8 hasil kolaborasi dengan NVIDIA dan ComfyUI
- Dapat digunakan melalui API di FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra, dan lainnya
FLUX.2 [klein] (akan datang)
- Model open source Apache 2.0 yang akan hadir dalam bentuk ringan dan berkinerja tinggi melalui distilasi ukuran dari basis FLUX.2
FLUX.2 – VAE
- VAE baru yang mengoptimalkan kemudahan pelatihan, kualitas, dan rasio kompresi secara seimbang, serta menjadi komponen inti backbone FLUX.2
- Tersedia di Hugging Face dengan lisensi Apache 2.0

Kinerja dan nilai

Keluarga model FLUX.2 menawarkan kualitas pembuatan gambar mutakhir dengan harga yang kompetitif
Di antara model open-weight, FLUX.2 [dev] mencatat kinerja unggul dibanding semua alternatif terbuka pada pembuatan text-to-image serta pengeditan referensi tunggal dan multi-reference
Semua model dikelola sebelum dan sesudah peluncuran sesuai prinsip pengembangan yang bertanggung jawab

Struktur teknis (How It Works)

Berdasarkan arsitektur latent flow matching, mengintegrasikan pembuatan dan pengeditan gambar dalam satu struktur
Menggabungkan Mistral-3 24B vision-language model dan Rectified Flow Transformer
- VLM menyediakan pengetahuan dunia nyata dan pemahaman konteks
- Transformer menangani relasi spasial, karakteristik material, dan logika komposisi
Dapat menggabungkan hingga 10 gambar referensi untuk menghasilkan output baru
Ruang laten model dilatih ulang untuk memperbaiki trilemma kemampuan pelatihan, kualitas, dan rasio kompresi

Materi tambahan

Arah masa depan (Into the New)

FLUX.2 adalah langkah menuju model multimodal yang mengintegrasikan persepsi, generasi, memori, dan penalaran
Sebagai teknologi dasar bagi infrastruktur kecerdasan visual, tujuannya adalah mengubah cara dunia dikenali dan dipahami
Saat ini sedang merekrut talenta di Freiburg dan San Francisco

1 komentar

GN⁺ 2025-11-27

Pendapat Hacker News

Belakangan model baru muncul terlalu sering, jadi memperbarui situs pembanding GenAI terasa hampir seperti kerja Sisifus
Meski begitu, saya sudah mengunggah hasil dari model Flux 2 Pro Editing yang baru dirilis
Bisa dicek di halaman hasil
Model ini mendapat skor sedikit lebih tinggi daripada Kontext milik BFL, mencatat 6 poin yang menempatkannya kira-kira di tengah dari total 12 model
Saya berencana segera menambahkan metrik numerik untuk evaluasi yang lebih rinci
Kalau hanya ingin membandingkan Flux 2 Pro, Nano Banana Pro, dan Kontext, lihat tautan ini
Sebagai catatan, BFL tampaknya mendukung struktur JSON untuk penyuntingan yang lebih presisi, jadi menarik juga apakah memanfaatkannya bisa meningkatkan akurasi
- Akan lebih baik kalau sistem skornya diubah dari sekadar lulus/gagal menjadi skala 0~10
  Flux dan Gemini Pro 3 mendapat skor yang sama, dan itu menurunkan kualitas benchmark
- Perbandingannya berguna, tetapi kurang keragaman gaya
  Model OpenAI punya sentuhan khas yang terlalu kuat sehingga lemah dalam mencocokkan gaya, sementara performa Flux berubah tergantung gayanya
  Flux berusaha menghindari pelatihan yang merata-ratakan banyak gaya, tetapi itu berbenturan dengan tujuan membuat gambar yang menarik secara visual
  Pada akhirnya, masalah konsistensi gaya sepertinya akan terus ada untuk sementara waktu
- Saat ini Google jelas memimpin
  Seedream juga mengesankan, jadi di versi berikutnya sepertinya akan cukup kuat untuk bersaing dengan Google
  Pembuatan gambar terasa hampir seperti masalah yang sudah terpecahkan
- Ada typo di situs: perlu diperbaiki s/sttae/state/g
- Saya ragu apakah BFL masih punya energi untuk terus bersaing dengan raksasa seperti Google dan ByteDance (SeeDream)
  Model barunya hanya berada di level menengah, dan open source-nya juga tidak se-terbuka model-model Tiongkok
  Kualitas gambar Flux masih terlihat seperti kulit plastik, tekstur buatan
  Secara teknis mungkin lolos, tetapi dalam workflow nyata saya rasa saya tidak akan memilih Flux
  Bisa jadi ini masalah tim data yang kurang punya sense estetika
  BFL berada di posisi sulit, terjepit di antara Google dan ekosistem Tiongkok
  Perusahaan model media lain seperti RunwayML, PikaLabs, dan LumaLabs juga sedang menghadapi kesulitan serupa
  BFL memang baru menerima investasi besar, tetapi tetap saja bersaing dengan hyperscaler tampak terlalu berat
Menyenangkan melihat model baru ini juga dirilis dalam versi open-weight
Tapi saya penasaran apa yang terjadi dengan model video SOTA yang dulu sempat diumumkan
Itu juga disebut di video YouTube, tetapi halaman terkait (bfl.ai/up-next) sudah dihapus
- Sebagai startup, mereka melakukan pivot untuk fokus ke model gambar alih-alih video
  Model gambar punya lebih banyak use case, dan dataset-nya juga jauh lebih kaya
- Dari rumor yang saya dengar, pelatihan model video berakhir sebagai kegagalan besar, lalu proyeknya dibatalkan
- Model gambar masih merupakan poros teknologi inti
  Gambar adalah fondasi video, dan elemen yang bisa dikendalikan jauh lebih banyak
  Model gambar memberi feedback cepat dan produktivitas, dan masih banyak yang harus dikejar dalam kontrol gaya, pose, dan konsistensi
  Midjourney sangat unggul secara estetika, tetapi kurang kontrol
  Flux terasa plastik, Imagen bergaya kartun, dan OpenAI terasa kuno
  Pada akhirnya, harus bersaing dalam estetika, kontrol, dan reproduktibilitas sekaligus
  Video hanya menjadi gangguan bagi pekerjaan itu
Saya menguji Flux 2 Pro sendiri (tautan Replicate)
Dibanding Nano Banana, tidak ada perbedaan besar, dan dibanding Flux 1.1 Pro ini hanya peningkatan bertahap
- Konsistensi prompt membaik, tetapi kualitas gambar terlihat lebih artifisial
- Panduan prompt Flux 2 merekomendasikan prompt JSON dan penentuan warna HEX sebagai default
- Jika prompt upsampling diaktifkan, kemampuan inferensinya meningkat, tetapi jika dimatikan hasilnya bisa melenceng
- API Flux 2 memiliki sensitivitas tinggi terkait IP, jadi ada kasus yang hanya lolos jika upsampling diaktifkan (contoh)
- Biaya dan kecepatan mirip dengan Nano Banana, tetapi saat memakai fitur input gambar, Flux 2 Pro lebih mahal
- Hasil Flux 1.1 dan 2 tidak punya keunggulan objektif yang jelas
- Kemungkinan bisa menjalankan Flux secara lokal saja sudah menjadi kelebihan
  Kalau Google menaikkan harga atau mengubah API, tidak ada alternatif, sedangkan BFL punya opsi lokal
- Output resolusi tinggi (4K) di Flux 2 Pro kadang justru menimbulkan masalah
  Detail yang tidak perlu ditambahkan seperti upscaling ESRGAN (tautan pengujian)
- Versi Flux 2 Dev tidak memiliki sensor IP
FLUX.1 Pro Kontext masih sangat baik dalam ekspresi artistik dan pemahaman instruksi
Ini juga bisa dilihat di blog perbandingan Nano Banana
FLUX.2 [dev] bisa dijalankan lokal di GPU RTX dengan versi optimalisasi fp8
Menjaga bobot tetap terbuka itu bagus, tetapi ukuran model naik dari 12B ke 32B sehingga penggunaan lokal jadi membebani
Saya menunggu versi distill
- Jika melihat halaman Hugging Face
  text encoder-nya 48GB, model generasinya 64GB, jadi totalnya lebih dari 100GB
  Ini menjadi hambatan masuk bagi pengguna lokal
Text encoder pada versi ini adalah Mistral-Small-3.2-24B-Instruct-2506, lebih baik daripada kombinasi CLIP/T5 sebelumnya, tetapi ukurannya besar
Rasanya akan lebih terdiferensiasi dari Nano Banana kalau mereka menunggu lalu merilis model distill Apache 2.0
Struktur harganya juga unik — input $0.015 per MP, output $0.03 untuk MP pertama lalu $0.015 per MP setelahnya
- Qwen-Image-Edit-2511 dijadwalkan rilis minggu depan dengan Apache 2.0, jadi BFL tampaknya mempercepat perilisannya
- CLIP pada dasarnya adalah pilihan yang tidak berarti. Bahkan ketika bobotnya dibuat 0, hasilnya hampir sama
- Kombinasi CLIP+T5 saat itu dipakai oleh banyak model generasi gambar. Itu bukan pilihan yang aneh
- Saat terlalu fokus pada strategi GTM, tampaknya pasar Eropa yang dirugikan
Senang ada pesaing untuk Nano Banana Pro
Ini membantu menjaga persaingan harga
- Di wilayah seperti Hong Kong, tempat penggunaan model AS dibatasi, alternatif seperti ini sangat penting
  Google, OpenAI, dan Claude semuanya tidak bisa dilanggan
- Menyenangkan juga melihat perusahaan Eropa tampil menonjol
Sebagai catatan, versi open source FLUX.2-DEV tidak bisa dipakai secara komersial
Teks lisensi lengkap
Saya membandingkan Nano Banana Pro dan Flux 2 Pro dengan prompt “family guy cyberpunk 2077”,
model Google lebih cocok dengan adegan game, sementara Flux terasa terlalu realistis
- Flux disetel ke dataset yang berpusat pada foto, jadi lemah untuk gaya artistik
  Flux 2 Pro juga menunjukkan kecenderungan serupa
  Namun dengan ekosistem LoRA dan waktu untuk tuning, Flux 1 Dev masih kuat untuk styling kreatif
Versi quant 18GB 4bit tersedia lewat diffusers sehingga bisa dijalankan di lingkungan VRAM rendah

FLUX.2: Model Generasi dan Pengeditan Visual Generasi Berikutnya

Ikhtisar FLUX.2

Filosofi open-core Black Forest Labs

Dari FLUX.1 ke FLUX.2

Fitur utama (What’s New)

Keluarga produk FLUX.2

Kinerja dan nilai

Struktur teknis (How It Works)

Materi tambahan

Arah masa depan (Into the New)

Bacaan terkait

1 komentar

Pendapat Hacker News