5 poin oleh GN⁺ 2026-01-19 | 2 komentar | Bagikan ke WhatsApp
  • FLUX.2 [klein] adalah keluarga model generasi visual ultra-cepat yang menggabungkan pembuatan dan pengeditan gambar, dengan kecepatan inferensi di bawah 1 detik serta kompatibilitas dengan GPU konsumen
  • Mendukung text-to-image, pengeditan gambar, dan generasi multi-referensi dalam satu arsitektur, sambil mempertahankan kualitas setara model besar
  • Model 9B dirilis dengan lisensi FLUX NCL, sedangkan model 4B dirilis dengan lisensi Apache 2.0, sehingga lebih mudah diakses dan dikustomisasi oleh pengembang
  • Versi terkuantisasi FP8·NVFP4 dibuat bekerja sama dengan NVIDIA, mengurangi penggunaan VRAM hingga 55% dan meningkatkan kecepatan hingga 2,7x
  • Menjadi langkah menuju visi “interactive visual intelligence” yang menargetkan generasi real-time dan interaksi, serta dapat dimanfaatkan pada alat desain dan pembuatan konten real-time

Gambaran umum FLUX.2 [klein]

  • FLUX.2 [klein] adalah keluarga model pembangkitan gambar tercepat yang dirilis oleh Black Forest Labs, mengintegrasikan generasi dan pengeditan dalam satu struktur
    • Kecepatan inferensi end-to-end berada di bawah 1 detik, memungkinkan pembuatan gambar berkualitas tinggi secara real-time
    • Dapat dijalankan hanya dengan 13GB VRAM, sehingga bisa berjalan di GPU kelas RTX 3090/4070
  • Nama model “klein” berarti “kecil” dalam bahasa Jerman, yang menandakan arsitektur ringkas dan latensi rendah
    • Namun performanya setara model besar, dan mendukung text-to-image generation, editing, serta multi-reference generation

Fitur utama

  • Pembuatan atau pengeditan gambar dengan inferensi di bawah 0,5 detik
  • Menawarkan realisme setingkat foto dan keragaman tinggi
  • Arsitektur model terpadu memungkinkan tugas text-to-image, image-to-image, dan multi-reference dijalankan dalam satu model
  • Kompatibel dengan GPU konsumen: model 4B berjalan pada sekitar 13GB VRAM
  • Lebih ramah pengembang: model 4B dirilis dengan Apache 2.0, model 9B dengan FLUX NCL
  • Menyediakan API dan bobot terbuka untuk eksekusi lokal maupun deployment produksi

Konfigurasi model

FLUX.2 [klein] 9B

  • Model andalan yang mendefinisikan keseimbangan antara kualitas dan latensi
    • Pada text-to-image, pengeditan referensi tunggal, dan generasi multi-referensi, performanya setara atau lebih baik dari model yang 5x lebih besar
    • Kecepatan inferensi di bawah 0,5 detik
    • Berbasis model flow 9B dan Qwen3 text embedder 8B
    • Struktur inferensi 4 langkah (step-distilled) untuk efisiensi maksimal
  • Lisensi: FLUX NCL

FLUX.2 [klein] 4B

  • Model yang sepenuhnya terbuka dengan lisensi Apache 2.0
    • Dapat dijalankan pada GPU konsumen seperti RTX 3090/4070
    • Mendukung text-to-image (T2I), image-to-image (I2I), dan generasi multi-referensi
    • Meski ringkas, tetap menawarkan kualitas tinggi dibanding ukurannya
    • Cocok untuk pengembangan lokal dan deployment edge

FLUX.2 [klein] Base 9B / 4B

  • Versi tanpa distilasi (full-capacity) yang sepenuhnya mempertahankan sinyal pelatihan
    • Cocok untuk fine-tuning, pelatihan LoRA, dan pipeline riset
    • Memiliki keragaman output lebih tinggi dibanding model distilasi
  • Lisensi: Base 4B menggunakan Apache 2.0, Base 9B menggunakan FLUX NCL

Versi kuantisasi

  • Versi FP8 dan NVFP4 dirilis bekerja sama dengan NVIDIA
    • FP8: hingga 1,6x lebih cepat dan menghemat VRAM 40%
    • NVFP4: hingga 2,7x lebih cepat dan menghemat VRAM 55%
    • Benchmark 1024×1024 T2I dilakukan pada RTX 5080/5090
  • Skema lisensi tetap sama: 4B menggunakan Apache 2.0, 9B menggunakan FLUX NCL

Analisis performa

  • FLUX.2 [klein] mencapai kualitas setara atau lebih baik dibanding Qwen, dengan latensi dan penggunaan VRAM yang lebih rendah
  • Menunjukkan performa lebih baik daripada Z-Image, serta mendukung text-to-image dan pengeditan multi-referensi dalam satu model
  • Versi Base sedikit lebih lambat, tetapi lebih unggul untuk kustomisasi dan kebutuhan riset
  • Pengukuran kecepatan dilakukan pada lingkungan GB200 (bf16)

Visi interactive visual intelligence

  • FLUX.2 [klein] melampaui sekadar peningkatan kecepatan dan menjadi langkah menuju kecerdasan visual interaktif real-time
  • Menargetkan sistem AI yang dapat melihat, mencipta, dan beriterasi
  • Ini membuka kemungkinan aplikasi baru seperti alat desain real-time, penalaran visual, dan pembuatan konten interaktif

Sumber daya dan jalur akses


2 komentar

 
yangeok 2026-01-19

Ah, kalau di Mac sepertinya tidak bisa ya. Katanya No GPU or XPU found haha,,

 
GN⁺ 2026-01-19
Opini Hacker News
  • Saya belum sempat menambahkan Klein ke situs GenAI Showdown saya
    Tapi jika mirip dengan Z-Image Turbo, performanya sepertinya akan sangat bagus
    Sebagai perbandingan, Z-Image Turbo mendapat skor 4 dari 15 poin, dan mengingat Flux.2 (32b) yang jauh lebih besar hanya unggul 1 poin, itu cukup mengesankan
    Hasil perbandingan model lokal bisa dilihat di sini

    • Di ponsel ada masalah gelembung info yang langsung hilang saat ditekan. Sudah saya minta diperbaiki
    • Saya rasa ada masalah pada metode pengujiannya. Model besar punya kemampuan belajar yang lebih canggih dan pemahaman rendering CGI yang lebih baik
      Pengujian berbasis data terstruktur bisa memberi rasa percaya diri yang keliru. Sekarang text-to-image sederhana bukan lagi benchmark yang bagus
  • Menakjubkan melihat model makin kecil sambil tetap meningkatkan kualitas dan efisiensi
    Z-Image Turbo benar-benar luar biasa, dan saya ingin segera mencoba model ini juga
    Thread lama terkait bisa dilihat di sini

    • Sepertinya ada momen ketika model kecil juga mencapai titik kritis
      Model 100GB sulit diunduh dan dijalankan, tetapi model 4GB bisa langsung dicoba oleh sebagian besar developer
    • Kualitas memang membaik, tetapi model kecil masih kekurangan jumlah pengetahuan dibanding model besar (Qwen Image, Flux 2 Full)
      Terutama untuk representasi orang, artis, dan objek tertentu, perbedaannya besar
    • Saya penasaran apakah ada jumlah parameter minimum yang dibutuhkan untuk kualitas output tertentu
      Setelah GPT 3.5, Deepseek dilatih dengan biaya jauh lebih rendah, dan sekarang model yang melampaui 3.5 bahkan bisa berjalan di laptop. Saya penasaran seberapa jauh ini bisa diperkecil
  • Model ini tidak bisa membuat gambar pogo stick
    Saya mencoba membuat gambar ‘harimau yang melompat di atas pogo stick’, tetapi bahkan pogo stick-nya sendiri tidak berhasil dibuat

    • Bahkan ketika diberi gambar gelas anggur kosong lalu diminta mengisinya dengan anggur, hasilnya tetap gagal
      Manipulasi fisik seperti ini masih belum bisa dilakukan model, jadi pekerjaan terkait tampaknya masih aman untuk sementara
    • Ini pengujian yang sulit untuk model lokal. gpt-image dan NB tidak bermasalah, tetapi hanya Qwen-Image yang memberi hasil mendekati
      Sampel dari beberapa model bisa dilihat di sini
      Model kecil memerlukan prompt tambahan untuk merepresentasikan objek spesifik seperti ‘pogo stick’
    • Bahkan dengan memberi gambar referensi pun tetap gagal.
      Jika model punya kemampuan penalaran yang memadai, seharusnya ia bisa melengkapi pengetahuan lewat gambar referensi eksternal, tetapi saat ini masih belum cukup
    • Ini prompt benchmark yang bagus. Z-Image Turbo juga kurang bagus menggambar pogo stick
      Contoh harimau, ini bukan pogo stick, contoh Nano Banana Pro
  • FLUX.2 [klein] 4B disebut sebagai versi tercepat dalam keluarga Klein, dirancang untuk pratinjau real-time atau lingkungan produksi yang sensitif terhadap latensi
    Saya penasaran situasi seperti apa yang dimaksud

    • Saat memakai model lokal, saya tidak ingin menunggu 10 menit untuk menghasilkan satu gambar
      Terutama dalam pekerjaan pengeditan gambar, kecepatan itu penting
    • Mungkin akan cocok untuk pengeditan gambar cepat
  • Awalnya saya kira ini tentang aplikasi F.lux yang membuat layar jadi agak oranye pada malam hari
    Sekarang fitur seperti itu sudah jadi bawaan di semua OS, jadi tidak diperlukan lagi

  • Jika model GenAI dipandang sebagai implementasi kompresi, teks terkompresi dengan baik tetapi gambar dan video tidak
    Meski begitu, model text-to-image dan text-to-video terbaru jauh lebih kecil daripada LLM seperti Llama-3
    Ini mungkin karena kita baru melatih pada wilayah sempit yang berpusat pada manusia dalam dunia visual. Masih banyak ruang kombinasi visual yang belum dieksplorasi

    • Teks bisa dikompresi tanpa kehilangan, tetapi gambar dan video punya banyak noise, jadi perbandingan sederhana tidak adil
      Jika memakai kompresi lossy yang tidak bisa dibedakan manusia, justru gambar mungkin bisa lebih efisien
    • Faktanya, gambar dan video memang terkompresi jauh lebih baik daripada teks
      Teks ada di kisaran 4:1~6:1, tetapi gambar masih tampak lossless secara visual bahkan di atas 10:1, dan video lebih efisien berkat konsistensi temporal
    • Saya rasa LLM masih punya banyak ruang untuk peningkatan efisiensi
      Pada saat yang sama, kita juga tidak boleh meremehkan jumlah meta-pengetahuan yang secara implisit dikandung LLM
  • Saya penasaran apakah ada yang sudah mencoba Flux 2 Klein
    Sekarang saya tidak lagi mengejar model baru, dan sedang membangun seluruh aplikasi saya hanya dengan Nano Banana Pro
    Hasilnya sudah cukup memuaskan
    picxstudio.com

  • Saya sangat menikmati memakai Flux 1, dan sekarang sedang bermain-main dengan Z-Image Turbo
    Saya akan mencoba Flux2 Klein saat sudah ditambahkan ke Invoke

    • Setuju. Pengalaman memakai ZIT di Invoke sangat bagus
  • Saya penasaran seperti apa kemampuan interaksinya dibanding versi GPT

  • Saya suka karena ini versi kecil tapi tetap dirilis sebagai open source
    Ini membuka banyak peluang karena bisa dijalankan tanpa anggaran besar
    Peningkatan kecepatannya juga cukup mengesankan