FLUX.2 [klein]: Menuju kecerdasan visual interaktif

(bfl.ai)

5 poin oleh GN⁺ 2026-01-19 | 2 komentar | Bagikan ke WhatsApp

FLUX.2 [klein] adalah keluarga model generasi visual ultra-cepat yang menggabungkan pembuatan dan pengeditan gambar, dengan kecepatan inferensi di bawah 1 detik serta kompatibilitas dengan GPU konsumen
Mendukung text-to-image, pengeditan gambar, dan generasi multi-referensi dalam satu arsitektur, sambil mempertahankan kualitas setara model besar
Model 9B dirilis dengan lisensi FLUX NCL, sedangkan model 4B dirilis dengan lisensi Apache 2.0, sehingga lebih mudah diakses dan dikustomisasi oleh pengembang
Versi terkuantisasi FP8·NVFP4 dibuat bekerja sama dengan NVIDIA, mengurangi penggunaan VRAM hingga 55% dan meningkatkan kecepatan hingga 2,7x
Menjadi langkah menuju visi “interactive visual intelligence” yang menargetkan generasi real-time dan interaksi, serta dapat dimanfaatkan pada alat desain dan pembuatan konten real-time

Gambaran umum FLUX.2 [klein]

FLUX.2 [klein] adalah keluarga model pembangkitan gambar tercepat yang dirilis oleh Black Forest Labs, mengintegrasikan generasi dan pengeditan dalam satu struktur
- Kecepatan inferensi end-to-end berada di bawah 1 detik, memungkinkan pembuatan gambar berkualitas tinggi secara real-time
- Dapat dijalankan hanya dengan 13GB VRAM, sehingga bisa berjalan di GPU kelas RTX 3090/4070
Nama model “klein” berarti “kecil” dalam bahasa Jerman, yang menandakan arsitektur ringkas dan latensi rendah
- Namun performanya setara model besar, dan mendukung text-to-image generation, editing, serta multi-reference generation

Fitur utama

Pembuatan atau pengeditan gambar dengan inferensi di bawah 0,5 detik
Menawarkan realisme setingkat foto dan keragaman tinggi
Arsitektur model terpadu memungkinkan tugas text-to-image, image-to-image, dan multi-reference dijalankan dalam satu model
Kompatibel dengan GPU konsumen: model 4B berjalan pada sekitar 13GB VRAM
Lebih ramah pengembang: model 4B dirilis dengan Apache 2.0, model 9B dengan FLUX NCL
Menyediakan API dan bobot terbuka untuk eksekusi lokal maupun deployment produksi

Konfigurasi model

FLUX.2 [klein] 9B

Model andalan yang mendefinisikan keseimbangan antara kualitas dan latensi
- Pada text-to-image, pengeditan referensi tunggal, dan generasi multi-referensi, performanya setara atau lebih baik dari model yang 5x lebih besar
- Kecepatan inferensi di bawah 0,5 detik
- Berbasis model flow 9B dan Qwen3 text embedder 8B
- Struktur inferensi 4 langkah (step-distilled) untuk efisiensi maksimal
Lisensi: FLUX NCL

FLUX.2 [klein] 4B

Model yang sepenuhnya terbuka dengan lisensi Apache 2.0
- Dapat dijalankan pada GPU konsumen seperti RTX 3090/4070
- Mendukung text-to-image (T2I), image-to-image (I2I), dan generasi multi-referensi
- Meski ringkas, tetap menawarkan kualitas tinggi dibanding ukurannya
- Cocok untuk pengembangan lokal dan deployment edge

FLUX.2 [klein] Base 9B / 4B

Versi tanpa distilasi (full-capacity) yang sepenuhnya mempertahankan sinyal pelatihan
- Cocok untuk fine-tuning, pelatihan LoRA, dan pipeline riset
- Memiliki keragaman output lebih tinggi dibanding model distilasi
Lisensi: Base 4B menggunakan Apache 2.0, Base 9B menggunakan FLUX NCL

Versi kuantisasi

Versi FP8 dan NVFP4 dirilis bekerja sama dengan NVIDIA
- FP8: hingga 1,6x lebih cepat dan menghemat VRAM 40%
- NVFP4: hingga 2,7x lebih cepat dan menghemat VRAM 55%
- Benchmark 1024×1024 T2I dilakukan pada RTX 5080/5090
Skema lisensi tetap sama: 4B menggunakan Apache 2.0, 9B menggunakan FLUX NCL

Analisis performa

FLUX.2 [klein] mencapai kualitas setara atau lebih baik dibanding Qwen, dengan latensi dan penggunaan VRAM yang lebih rendah
Menunjukkan performa lebih baik daripada Z-Image, serta mendukung text-to-image dan pengeditan multi-referensi dalam satu model
Versi Base sedikit lebih lambat, tetapi lebih unggul untuk kustomisasi dan kebutuhan riset
Pengukuran kecepatan dilakukan pada lingkungan GB200 (bf16)

Visi interactive visual intelligence

FLUX.2 [klein] melampaui sekadar peningkatan kecepatan dan menjadi langkah menuju kecerdasan visual interaktif real-time
Menargetkan sistem AI yang dapat melihat, mencipta, dan beriterasi
Ini membuka kemungkinan aplikasi baru seperti alat desain real-time, penalaran visual, dan pembuatan konten interaktif

Sumber daya dan jalur akses

Coba langsung: Demo, Playground
Hugging Face Space: klein 9B, klein 4B
Materi pengembangan: Docs, GitHub, Model weights
Info tambahan: Halaman model resmi

2 komentar

yangeok 2026-01-19

Ah, kalau di Mac sepertinya tidak bisa ya. Katanya No GPU or XPU found haha,,

GN⁺ 2026-01-19

Opini Hacker News

Saya belum sempat menambahkan Klein ke situs GenAI Showdown saya
Tapi jika mirip dengan Z-Image Turbo, performanya sepertinya akan sangat bagus
Sebagai perbandingan, Z-Image Turbo mendapat skor 4 dari 15 poin, dan mengingat Flux.2 (32b) yang jauh lebih besar hanya unggul 1 poin, itu cukup mengesankan
Hasil perbandingan model lokal bisa dilihat di sini
- Di ponsel ada masalah gelembung info yang langsung hilang saat ditekan. Sudah saya minta diperbaiki
- Saya rasa ada masalah pada metode pengujiannya. Model besar punya kemampuan belajar yang lebih canggih dan pemahaman rendering CGI yang lebih baik
  Pengujian berbasis data terstruktur bisa memberi rasa percaya diri yang keliru. Sekarang text-to-image sederhana bukan lagi benchmark yang bagus
Menakjubkan melihat model makin kecil sambil tetap meningkatkan kualitas dan efisiensi
Z-Image Turbo benar-benar luar biasa, dan saya ingin segera mencoba model ini juga
Thread lama terkait bisa dilihat di sini
- Sepertinya ada momen ketika model kecil juga mencapai titik kritis
  Model 100GB sulit diunduh dan dijalankan, tetapi model 4GB bisa langsung dicoba oleh sebagian besar developer
- Kualitas memang membaik, tetapi model kecil masih kekurangan jumlah pengetahuan dibanding model besar (Qwen Image, Flux 2 Full)
  Terutama untuk representasi orang, artis, dan objek tertentu, perbedaannya besar
- Saya penasaran apakah ada jumlah parameter minimum yang dibutuhkan untuk kualitas output tertentu
  Setelah GPT 3.5, Deepseek dilatih dengan biaya jauh lebih rendah, dan sekarang model yang melampaui 3.5 bahkan bisa berjalan di laptop. Saya penasaran seberapa jauh ini bisa diperkecil
Model ini tidak bisa membuat gambar pogo stick
Saya mencoba membuat gambar ‘harimau yang melompat di atas pogo stick’, tetapi bahkan pogo stick-nya sendiri tidak berhasil dibuat
- Bahkan ketika diberi gambar gelas anggur kosong lalu diminta mengisinya dengan anggur, hasilnya tetap gagal
  Manipulasi fisik seperti ini masih belum bisa dilakukan model, jadi pekerjaan terkait tampaknya masih aman untuk sementara
- Ini pengujian yang sulit untuk model lokal. gpt-image dan NB tidak bermasalah, tetapi hanya Qwen-Image yang memberi hasil mendekati
  Sampel dari beberapa model bisa dilihat di sini
  Model kecil memerlukan prompt tambahan untuk merepresentasikan objek spesifik seperti ‘pogo stick’
- Bahkan dengan memberi gambar referensi pun tetap gagal.
  Jika model punya kemampuan penalaran yang memadai, seharusnya ia bisa melengkapi pengetahuan lewat gambar referensi eksternal, tetapi saat ini masih belum cukup
- Ini prompt benchmark yang bagus. Z-Image Turbo juga kurang bagus menggambar pogo stick
  Contoh harimau, ini bukan pogo stick, contoh Nano Banana Pro
FLUX.2 [klein] 4B disebut sebagai versi tercepat dalam keluarga Klein, dirancang untuk pratinjau real-time atau lingkungan produksi yang sensitif terhadap latensi
Saya penasaran situasi seperti apa yang dimaksud
- Saat memakai model lokal, saya tidak ingin menunggu 10 menit untuk menghasilkan satu gambar
  Terutama dalam pekerjaan pengeditan gambar, kecepatan itu penting
- Mungkin akan cocok untuk pengeditan gambar cepat
Awalnya saya kira ini tentang aplikasi F.lux yang membuat layar jadi agak oranye pada malam hari
Sekarang fitur seperti itu sudah jadi bawaan di semua OS, jadi tidak diperlukan lagi
Jika model GenAI dipandang sebagai implementasi kompresi, teks terkompresi dengan baik tetapi gambar dan video tidak
Meski begitu, model text-to-image dan text-to-video terbaru jauh lebih kecil daripada LLM seperti Llama-3
Ini mungkin karena kita baru melatih pada wilayah sempit yang berpusat pada manusia dalam dunia visual. Masih banyak ruang kombinasi visual yang belum dieksplorasi
- Teks bisa dikompresi tanpa kehilangan, tetapi gambar dan video punya banyak noise, jadi perbandingan sederhana tidak adil
  Jika memakai kompresi lossy yang tidak bisa dibedakan manusia, justru gambar mungkin bisa lebih efisien
- Faktanya, gambar dan video memang terkompresi jauh lebih baik daripada teks
  Teks ada di kisaran 4:1~6:1, tetapi gambar masih tampak lossless secara visual bahkan di atas 10:1, dan video lebih efisien berkat konsistensi temporal
- Saya rasa LLM masih punya banyak ruang untuk peningkatan efisiensi
  Pada saat yang sama, kita juga tidak boleh meremehkan jumlah meta-pengetahuan yang secara implisit dikandung LLM
Saya penasaran apakah ada yang sudah mencoba Flux 2 Klein
Sekarang saya tidak lagi mengejar model baru, dan sedang membangun seluruh aplikasi saya hanya dengan Nano Banana Pro
Hasilnya sudah cukup memuaskan
picxstudio.com
Saya sangat menikmati memakai Flux 1, dan sekarang sedang bermain-main dengan Z-Image Turbo
Saya akan mencoba Flux2 Klein saat sudah ditambahkan ke Invoke
- Setuju. Pengalaman memakai ZIT di Invoke sangat bagus
Saya penasaran seperti apa kemampuan interaksinya dibanding versi GPT
Saya suka karena ini versi kecil tapi tetap dirilis sebagai open source
Ini membuka banyak peluang karena bisa dijalankan tanpa anggaran besar
Peningkatan kecepatannya juga cukup mengesankan

FLUX.2 [klein]: Menuju kecerdasan visual interaktif

Gambaran umum FLUX.2 [klein]

Fitur utama

Konfigurasi model

FLUX.2 [klein] 9B

FLUX.2 [klein] 4B

FLUX.2 [klein] Base 9B / 4B

Versi kuantisasi

Analisis performa

Visi interactive visual intelligence

Sumber daya dan jalur akses

Bacaan terkait

2 komentar

Opini Hacker News