2 poin oleh GN⁺ 2025-11-27 | 1 komentar | Bagikan ke WhatsApp
  • FLUX.2 adalah model pembuatan gambar berkualitas tinggi untuk workflow kreatif nyata, yang mempertahankan konsistensi karakter dan gaya di antara beberapa gambar referensi serta mendukung pemrosesan teks dan kepatuhan terhadap panduan merek
  • Pengeditan gambar detail dimungkinkan hingga resolusi 4 megapiksel, dengan kontrol yang stabil atas elemen visual seperti pencahayaan, tata letak, dan logo
  • Melalui strategi open-core, tersedia sekaligus model berbobot terbuka dan API kelas produksi, membawa ekosistem terbuka yang dibangun di FLUX.1 ke tahap FLUX.2
  • Fitur utama baru mencakup dukungan multi-reference, rendering tipografi yang presisi, pemrosesan prompt yang ditingkatkan, dan refleksi pengetahuan berbasis dunia nyata
  • Keluarga model terdiri dari pro, flex, dev, klein, VAE, dan tersedia baik sebagai open-weight maupun API komersial
  • Black Forest Labs bertujuan mendorong kemajuan terbuka dalam kecerdasan visual dengan menggabungkan riset terbuka dan infrastruktur komersial

Ikhtisar FLUX.2

  • FLUX.2 adalah model pembuatan gambar untuk lingkungan produksi nyata, bukan sekadar demo
    • Menjaga konsistensi karakter dan gaya berdasarkan beberapa gambar referensi
    • Dapat mengikuti prompt terstruktur, serta membaca dan menulis teks yang kompleks
    • Menangani panduan merek, pencahayaan, tata letak, dan logo secara stabil
  • Mendukung pengeditan gambar dengan detail dan konsistensi tetap terjaga hingga resolusi 4MP

Filosofi open-core Black Forest Labs

  • Mengajukan prinsip bahwa kecerdasan visual harus dikembangkan bersama oleh peneliti, kreator, dan pengembang
  • Menyediakan secara paralel model open-weight dan endpoint API tingkat komersial
    • Model terbuka mendorong eksperimen, pengurangan biaya, dan peningkatan transparansi
  • Sejak didirikan pada 2024, membangun fondasi inovasi terbuka melalui FLUX.1 [dev] dan FLUX.1 Kontext [pro]
    • FLUX.1 [dev] disebut sebagai model gambar terbuka paling populer di dunia
    • FLUX.1 Kontext [pro] digunakan oleh tim besar seperti Adobe dan Meta
    Iklan

Dari FLUX.1 ke FLUX.2

  • Jika FLUX.1 menunjukkan potensi sebagai alat kreatif, maka FLUX.2 berfokus pada inovasi workflow produksi
  • Dengan memperkuat presisi, efisiensi, kontrol, dan realisme, model ini sangat meningkatkan keekonomian pembuatan gambar
  • Hasilnya, FLUX.2 diperkirakan akan menjadi komponen inti infrastruktur kreatif

Fitur utama (What’s New)

  • Dukungan multi-reference: Merujuk hingga 10 gambar sekaligus untuk menjaga konsistensi karakter, produk, dan gaya
  • Detail halus dan realisme: Cocok untuk fotografi produk, visualisasi, dan hasil setingkat foto
  • Peningkatan rendering teks: Keterbacaan lebih baik pada tipografi kompleks, infografik, mockup UI, dan lainnya
  • Pemrosesan prompt yang diperkuat: Merefleksikan prompt multi-struktur dan batasan komposisi secara akurat
  • Perluasan pengetahuan berbasis dunia nyata: Komposisi adegan yang konsisten berdasarkan logika pencahayaan dan ruang
  • Pengeditan resolusi tinggi: Mendukung rasio input-output yang fleksibel hingga resolusi 4MP

Keluarga produk FLUX.2

  • FLUX.2 [pro]
    • Memiliki kualitas gambar, kepatuhan terhadap prompt, dan fidelitas visual yang mampu bersaing dengan model tertutup terbaik
    • Ditandai dengan kecepatan generasi tinggi dan biaya rendah, tersedia di BFL Playground, API, dan platform mitra
  • FLUX.2 [flex]
    • Model yang memungkinkan penyesuaian langsung parameter seperti jumlah step dan guidance scale untuk mengoptimalkan kualitas, kecepatan, dan rendering teks
    • Sangat kuat terutama dalam ekspresi tipografi yang presisi
    Iklan
  • FLUX.2 [dev]
    • Model open-weight 32B, model publik terkuat yang ada saat ini dengan dukungan text-to-image dan pengeditan gambar multi-input dalam satu checkpoint
    • Bobot tersedia di Hugging Face, termasuk implementasi optimasi FP8 hasil kolaborasi dengan NVIDIA dan ComfyUI
    • Dapat digunakan melalui API di FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra, dan lainnya
  • FLUX.2 [klein] (akan datang)
    • Model open source Apache 2.0 yang akan hadir dalam bentuk ringan dan berkinerja tinggi melalui distilasi ukuran dari basis FLUX.2
  • FLUX.2 – VAE
    • VAE baru yang mengoptimalkan kemudahan pelatihan, kualitas, dan rasio kompresi secara seimbang, serta menjadi komponen inti backbone FLUX.2
    • Tersedia di Hugging Face dengan lisensi Apache 2.0
Iklan

Kinerja dan nilai

  • Keluarga model FLUX.2 menawarkan kualitas pembuatan gambar mutakhir dengan harga yang kompetitif
  • Di antara model open-weight, FLUX.2 [dev] mencatat kinerja unggul dibanding semua alternatif terbuka pada pembuatan text-to-image serta pengeditan referensi tunggal dan multi-reference
  • Semua model dikelola sebelum dan sesudah peluncuran sesuai prinsip pengembangan yang bertanggung jawab

Struktur teknis (How It Works)

  • Berdasarkan arsitektur latent flow matching, mengintegrasikan pembuatan dan pengeditan gambar dalam satu struktur
  • Menggabungkan Mistral-3 24B vision-language model dan Rectified Flow Transformer
    • VLM menyediakan pengetahuan dunia nyata dan pemahaman konteks
    • Transformer menangani relasi spasial, karakteristik material, dan logika komposisi
  • Dapat menggabungkan hingga 10 gambar referensi untuk menghasilkan output baru
  • Ruang laten model dilatih ulang untuk memperbaiki trilemma kemampuan pelatihan, kualitas, dan rasio kompresi

Materi tambahan

Arah masa depan (Into the New)

  • FLUX.2 adalah langkah menuju model multimodal yang mengintegrasikan persepsi, generasi, memori, dan penalaran
  • Sebagai teknologi dasar bagi infrastruktur kecerdasan visual, tujuannya adalah mengubah cara dunia dikenali dan dipahami
  • Saat ini sedang merekrut talenta di Freiburg dan San Francisco

1 komentar

 
GN⁺ 2025-11-27
Pendapat Hacker News
  • Belakangan model baru muncul terlalu sering, jadi memperbarui situs pembanding GenAI terasa hampir seperti kerja Sisifus
    Meski begitu, saya sudah mengunggah hasil dari model Flux 2 Pro Editing yang baru dirilis
    Bisa dicek di halaman hasil
    Model ini mendapat skor sedikit lebih tinggi daripada Kontext milik BFL, mencatat 6 poin yang menempatkannya kira-kira di tengah dari total 12 model
    Saya berencana segera menambahkan metrik numerik untuk evaluasi yang lebih rinci
    Kalau hanya ingin membandingkan Flux 2 Pro, Nano Banana Pro, dan Kontext, lihat tautan ini
    Sebagai catatan, BFL tampaknya mendukung struktur JSON untuk penyuntingan yang lebih presisi, jadi menarik juga apakah memanfaatkannya bisa meningkatkan akurasi

    • Akan lebih baik kalau sistem skornya diubah dari sekadar lulus/gagal menjadi skala 0~10
      Flux dan Gemini Pro 3 mendapat skor yang sama, dan itu menurunkan kualitas benchmark
    • Perbandingannya berguna, tetapi kurang keragaman gaya
      Model OpenAI punya sentuhan khas yang terlalu kuat sehingga lemah dalam mencocokkan gaya, sementara performa Flux berubah tergantung gayanya
      Flux berusaha menghindari pelatihan yang merata-ratakan banyak gaya, tetapi itu berbenturan dengan tujuan membuat gambar yang menarik secara visual
      Pada akhirnya, masalah konsistensi gaya sepertinya akan terus ada untuk sementara waktu
    • Saat ini Google jelas memimpin
      Seedream juga mengesankan, jadi di versi berikutnya sepertinya akan cukup kuat untuk bersaing dengan Google
      Pembuatan gambar terasa hampir seperti masalah yang sudah terpecahkan
    • Ada typo di situs: perlu diperbaiki s/sttae/state/g
    • Saya ragu apakah BFL masih punya energi untuk terus bersaing dengan raksasa seperti Google dan ByteDance (SeeDream)
      Model barunya hanya berada di level menengah, dan open source-nya juga tidak se-terbuka model-model Tiongkok
      Kualitas gambar Flux masih terlihat seperti kulit plastik, tekstur buatan
      Secara teknis mungkin lolos, tetapi dalam workflow nyata saya rasa saya tidak akan memilih Flux
      Bisa jadi ini masalah tim data yang kurang punya sense estetika
      BFL berada di posisi sulit, terjepit di antara Google dan ekosistem Tiongkok
      Perusahaan model media lain seperti RunwayML, PikaLabs, dan LumaLabs juga sedang menghadapi kesulitan serupa
      BFL memang baru menerima investasi besar, tetapi tetap saja bersaing dengan hyperscaler tampak terlalu berat
  • Menyenangkan melihat model baru ini juga dirilis dalam versi open-weight
    Tapi saya penasaran apa yang terjadi dengan model video SOTA yang dulu sempat diumumkan
    Itu juga disebut di video YouTube, tetapi halaman terkait (bfl.ai/up-next) sudah dihapus

    • Sebagai startup, mereka melakukan pivot untuk fokus ke model gambar alih-alih video
      Model gambar punya lebih banyak use case, dan dataset-nya juga jauh lebih kaya
    • Dari rumor yang saya dengar, pelatihan model video berakhir sebagai kegagalan besar, lalu proyeknya dibatalkan
    • Model gambar masih merupakan poros teknologi inti
      Gambar adalah fondasi video, dan elemen yang bisa dikendalikan jauh lebih banyak
      Model gambar memberi feedback cepat dan produktivitas, dan masih banyak yang harus dikejar dalam kontrol gaya, pose, dan konsistensi
      Midjourney sangat unggul secara estetika, tetapi kurang kontrol
      Flux terasa plastik, Imagen bergaya kartun, dan OpenAI terasa kuno
      Pada akhirnya, harus bersaing dalam estetika, kontrol, dan reproduktibilitas sekaligus
      Video hanya menjadi gangguan bagi pekerjaan itu
  • Saya menguji Flux 2 Pro sendiri (tautan Replicate)
    Dibanding Nano Banana, tidak ada perbedaan besar, dan dibanding Flux 1.1 Pro ini hanya peningkatan bertahap

    • Konsistensi prompt membaik, tetapi kualitas gambar terlihat lebih artifisial
    • Panduan prompt Flux 2 merekomendasikan prompt JSON dan penentuan warna HEX sebagai default
    • Jika prompt upsampling diaktifkan, kemampuan inferensinya meningkat, tetapi jika dimatikan hasilnya bisa melenceng
    • API Flux 2 memiliki sensitivitas tinggi terkait IP, jadi ada kasus yang hanya lolos jika upsampling diaktifkan (contoh)
    • Biaya dan kecepatan mirip dengan Nano Banana, tetapi saat memakai fitur input gambar, Flux 2 Pro lebih mahal
    • Hasil Flux 1.1 dan 2 tidak punya keunggulan objektif yang jelas
    • Kemungkinan bisa menjalankan Flux secara lokal saja sudah menjadi kelebihan
      Kalau Google menaikkan harga atau mengubah API, tidak ada alternatif, sedangkan BFL punya opsi lokal
    • Output resolusi tinggi (4K) di Flux 2 Pro kadang justru menimbulkan masalah
      Detail yang tidak perlu ditambahkan seperti upscaling ESRGAN (tautan pengujian)
    • Versi Flux 2 Dev tidak memiliki sensor IP
  • FLUX.1 Pro Kontext masih sangat baik dalam ekspresi artistik dan pemahaman instruksi
    Ini juga bisa dilihat di blog perbandingan Nano Banana

  • FLUX.2 [dev] bisa dijalankan lokal di GPU RTX dengan versi optimalisasi fp8
    Menjaga bobot tetap terbuka itu bagus, tetapi ukuran model naik dari 12B ke 32B sehingga penggunaan lokal jadi membebani
    Saya menunggu versi distill

    • Jika melihat halaman Hugging Face
      text encoder-nya 48GB, model generasinya 64GB, jadi totalnya lebih dari 100GB
      Ini menjadi hambatan masuk bagi pengguna lokal
  • Text encoder pada versi ini adalah Mistral-Small-3.2-24B-Instruct-2506, lebih baik daripada kombinasi CLIP/T5 sebelumnya, tetapi ukurannya besar
    Rasanya akan lebih terdiferensiasi dari Nano Banana kalau mereka menunggu lalu merilis model distill Apache 2.0
    Struktur harganya juga unik — input $0.015 per MP, output $0.03 untuk MP pertama lalu $0.015 per MP setelahnya

    • Qwen-Image-Edit-2511 dijadwalkan rilis minggu depan dengan Apache 2.0, jadi BFL tampaknya mempercepat perilisannya
    • CLIP pada dasarnya adalah pilihan yang tidak berarti. Bahkan ketika bobotnya dibuat 0, hasilnya hampir sama
    • Kombinasi CLIP+T5 saat itu dipakai oleh banyak model generasi gambar. Itu bukan pilihan yang aneh
    • Saat terlalu fokus pada strategi GTM, tampaknya pasar Eropa yang dirugikan
  • Senang ada pesaing untuk Nano Banana Pro
    Ini membantu menjaga persaingan harga

    • Di wilayah seperti Hong Kong, tempat penggunaan model AS dibatasi, alternatif seperti ini sangat penting
      Google, OpenAI, dan Claude semuanya tidak bisa dilanggan
    • Menyenangkan juga melihat perusahaan Eropa tampil menonjol
  • Sebagai catatan, versi open source FLUX.2-DEV tidak bisa dipakai secara komersial
    Teks lisensi lengkap

  • Saya membandingkan Nano Banana Pro dan Flux 2 Pro dengan prompt “family guy cyberpunk 2077”,
    model Google lebih cocok dengan adegan game, sementara Flux terasa terlalu realistis

    • Flux disetel ke dataset yang berpusat pada foto, jadi lemah untuk gaya artistik
      Flux 2 Pro juga menunjukkan kecenderungan serupa
      Namun dengan ekosistem LoRA dan waktu untuk tuning, Flux 1 Dev masih kuat untuk styling kreatif
  • Versi quant 18GB 4bit tersedia lewat diffusers sehingga bisa dijalankan di lingkungan VRAM rendah