- FLUX.2 [klein] adalah keluarga model generasi visual ultra-cepat yang menggabungkan pembuatan dan pengeditan gambar, dengan kecepatan inferensi di bawah 1 detik serta kompatibilitas dengan GPU konsumen
- Mendukung text-to-image, pengeditan gambar, dan generasi multi-referensi dalam satu arsitektur, sambil mempertahankan kualitas setara model besar
- Model 9B dirilis dengan lisensi FLUX NCL, sedangkan model 4B dirilis dengan lisensi Apache 2.0, sehingga lebih mudah diakses dan dikustomisasi oleh pengembang
- Versi terkuantisasi FP8·NVFP4 dibuat bekerja sama dengan NVIDIA, mengurangi penggunaan VRAM hingga 55% dan meningkatkan kecepatan hingga 2,7x
- Menjadi langkah menuju visi “interactive visual intelligence” yang menargetkan generasi real-time dan interaksi, serta dapat dimanfaatkan pada alat desain dan pembuatan konten real-time
Gambaran umum FLUX.2 [klein]
- FLUX.2 [klein] adalah keluarga model pembangkitan gambar tercepat yang dirilis oleh Black Forest Labs, mengintegrasikan generasi dan pengeditan dalam satu struktur
- Kecepatan inferensi end-to-end berada di bawah 1 detik, memungkinkan pembuatan gambar berkualitas tinggi secara real-time
- Dapat dijalankan hanya dengan 13GB VRAM, sehingga bisa berjalan di GPU kelas RTX 3090/4070
- Nama model “klein” berarti “kecil” dalam bahasa Jerman, yang menandakan arsitektur ringkas dan latensi rendah
- Namun performanya setara model besar, dan mendukung text-to-image generation, editing, serta multi-reference generation
Fitur utama
- Pembuatan atau pengeditan gambar dengan inferensi di bawah 0,5 detik
- Menawarkan realisme setingkat foto dan keragaman tinggi
- Arsitektur model terpadu memungkinkan tugas text-to-image, image-to-image, dan multi-reference dijalankan dalam satu model
- Kompatibel dengan GPU konsumen: model 4B berjalan pada sekitar 13GB VRAM
- Lebih ramah pengembang: model 4B dirilis dengan Apache 2.0, model 9B dengan FLUX NCL
- Menyediakan API dan bobot terbuka untuk eksekusi lokal maupun deployment produksi
Konfigurasi model
FLUX.2 [klein] 9B
- Model andalan yang mendefinisikan keseimbangan antara kualitas dan latensi
- Pada text-to-image, pengeditan referensi tunggal, dan generasi multi-referensi, performanya setara atau lebih baik dari model yang 5x lebih besar
- Kecepatan inferensi di bawah 0,5 detik
- Berbasis model flow 9B dan Qwen3 text embedder 8B
- Struktur inferensi 4 langkah (step-distilled) untuk efisiensi maksimal
- Lisensi: FLUX NCL
FLUX.2 [klein] 4B
- Model yang sepenuhnya terbuka dengan lisensi Apache 2.0
- Dapat dijalankan pada GPU konsumen seperti RTX 3090/4070
- Mendukung text-to-image (T2I), image-to-image (I2I), dan generasi multi-referensi
- Meski ringkas, tetap menawarkan kualitas tinggi dibanding ukurannya
- Cocok untuk pengembangan lokal dan deployment edge
FLUX.2 [klein] Base 9B / 4B
- Versi tanpa distilasi (full-capacity) yang sepenuhnya mempertahankan sinyal pelatihan
- Cocok untuk fine-tuning, pelatihan LoRA, dan pipeline riset
- Memiliki keragaman output lebih tinggi dibanding model distilasi
- Lisensi: Base 4B menggunakan Apache 2.0, Base 9B menggunakan FLUX NCL
Versi kuantisasi
- Versi FP8 dan NVFP4 dirilis bekerja sama dengan NVIDIA
- FP8: hingga 1,6x lebih cepat dan menghemat VRAM 40%
- NVFP4: hingga 2,7x lebih cepat dan menghemat VRAM 55%
- Benchmark 1024×1024 T2I dilakukan pada RTX 5080/5090
- Skema lisensi tetap sama: 4B menggunakan Apache 2.0, 9B menggunakan FLUX NCL
Analisis performa
- FLUX.2 [klein] mencapai kualitas setara atau lebih baik dibanding Qwen, dengan latensi dan penggunaan VRAM yang lebih rendah
- Menunjukkan performa lebih baik daripada Z-Image, serta mendukung text-to-image dan pengeditan multi-referensi dalam satu model
- Versi Base sedikit lebih lambat, tetapi lebih unggul untuk kustomisasi dan kebutuhan riset
- Pengukuran kecepatan dilakukan pada lingkungan GB200 (bf16)
Visi interactive visual intelligence
- FLUX.2 [klein] melampaui sekadar peningkatan kecepatan dan menjadi langkah menuju kecerdasan visual interaktif real-time
- Menargetkan sistem AI yang dapat melihat, mencipta, dan beriterasi
- Ini membuka kemungkinan aplikasi baru seperti alat desain real-time, penalaran visual, dan pembuatan konten interaktif
Sumber daya dan jalur akses
2 komentar
Ah, kalau di Mac sepertinya tidak bisa ya. Katanya
No GPU or XPU foundhaha,,Opini Hacker News
Saya belum sempat menambahkan Klein ke situs GenAI Showdown saya
Tapi jika mirip dengan Z-Image Turbo, performanya sepertinya akan sangat bagus
Sebagai perbandingan, Z-Image Turbo mendapat skor 4 dari 15 poin, dan mengingat Flux.2 (32b) yang jauh lebih besar hanya unggul 1 poin, itu cukup mengesankan
Hasil perbandingan model lokal bisa dilihat di sini
Pengujian berbasis data terstruktur bisa memberi rasa percaya diri yang keliru. Sekarang text-to-image sederhana bukan lagi benchmark yang bagus
Menakjubkan melihat model makin kecil sambil tetap meningkatkan kualitas dan efisiensi
Z-Image Turbo benar-benar luar biasa, dan saya ingin segera mencoba model ini juga
Thread lama terkait bisa dilihat di sini
Model 100GB sulit diunduh dan dijalankan, tetapi model 4GB bisa langsung dicoba oleh sebagian besar developer
Terutama untuk representasi orang, artis, dan objek tertentu, perbedaannya besar
Setelah GPT 3.5, Deepseek dilatih dengan biaya jauh lebih rendah, dan sekarang model yang melampaui 3.5 bahkan bisa berjalan di laptop. Saya penasaran seberapa jauh ini bisa diperkecil
Model ini tidak bisa membuat gambar pogo stick
Saya mencoba membuat gambar ‘harimau yang melompat di atas pogo stick’, tetapi bahkan pogo stick-nya sendiri tidak berhasil dibuat
Manipulasi fisik seperti ini masih belum bisa dilakukan model, jadi pekerjaan terkait tampaknya masih aman untuk sementara
Sampel dari beberapa model bisa dilihat di sini
Model kecil memerlukan prompt tambahan untuk merepresentasikan objek spesifik seperti ‘pogo stick’
Jika model punya kemampuan penalaran yang memadai, seharusnya ia bisa melengkapi pengetahuan lewat gambar referensi eksternal, tetapi saat ini masih belum cukup
Contoh harimau, ini bukan pogo stick, contoh Nano Banana Pro
FLUX.2 [klein] 4B disebut sebagai versi tercepat dalam keluarga Klein, dirancang untuk pratinjau real-time atau lingkungan produksi yang sensitif terhadap latensi
Saya penasaran situasi seperti apa yang dimaksud
Terutama dalam pekerjaan pengeditan gambar, kecepatan itu penting
Awalnya saya kira ini tentang aplikasi F.lux yang membuat layar jadi agak oranye pada malam hari
Sekarang fitur seperti itu sudah jadi bawaan di semua OS, jadi tidak diperlukan lagi
Jika model GenAI dipandang sebagai implementasi kompresi, teks terkompresi dengan baik tetapi gambar dan video tidak
Meski begitu, model text-to-image dan text-to-video terbaru jauh lebih kecil daripada LLM seperti Llama-3
Ini mungkin karena kita baru melatih pada wilayah sempit yang berpusat pada manusia dalam dunia visual. Masih banyak ruang kombinasi visual yang belum dieksplorasi
Jika memakai kompresi lossy yang tidak bisa dibedakan manusia, justru gambar mungkin bisa lebih efisien
Teks ada di kisaran 4:1~6:1, tetapi gambar masih tampak lossless secara visual bahkan di atas 10:1, dan video lebih efisien berkat konsistensi temporal
Pada saat yang sama, kita juga tidak boleh meremehkan jumlah meta-pengetahuan yang secara implisit dikandung LLM
Saya penasaran apakah ada yang sudah mencoba Flux 2 Klein
Sekarang saya tidak lagi mengejar model baru, dan sedang membangun seluruh aplikasi saya hanya dengan Nano Banana Pro
Hasilnya sudah cukup memuaskan
picxstudio.com
Saya sangat menikmati memakai Flux 1, dan sekarang sedang bermain-main dengan Z-Image Turbo
Saya akan mencoba Flux2 Klein saat sudah ditambahkan ke Invoke
Saya penasaran seperti apa kemampuan interaksinya dibanding versi GPT
Saya suka karena ini versi kecil tapi tetap dirilis sebagai open source
Ini membuka banyak peluang karena bisa dijalankan tanpa anggaran besar
Peningkatan kecepatannya juga cukup mengesankan