4 poin oleh GN⁺ 2025-08-02 | 1 komentar | Bagikan ke WhatsApp
  • Krea 1 dirilis sebagai model gambar pertama dengan versi bobot terbuka bernama FLUX.1 Krea
  • Berbeda dari model gambar yang ada, model ini dirancang untuk menargetkan gambar yang "tidak terasa seperti AI", dengan fokus pada selera estetika yang jelas dan fotorealisme
  • Ditemukan bahwa benchmark dan metrik evaluasi yang sudah ada sering tidak selaras dengan sensitivitas estetika yang diinginkan pengguna nyata. Untuk mengatasi hal ini, diterapkan data yang dikurasi langsung serta bias estetika berbasis opini
  • Dengan membedakan proses pra-pelatihan (pre-training) dan pascapelatihan (post-training), tim menjalankan secara sistematis tahap yang menjamin keragaman dan tahap yang mengarahkan konvergensi ke gaya yang jelas
  • Ke depan, direncanakan penelitian personalisasi dan penyesuaian selera, perluasan domain visual yang lebih luas, dan fitur untuk mendukung kreator

Rilis Sumber Terbuka FLUX.1 Krea

  • Krea 1 adalah model gambar pertama yang dilatih bersama Black Forest Labs, dengan target unggul dalam kontrol estetika dan kualitas gambar
  • FLUX.1 Krea [dev] dirilis dengan bobot terbuka dan sepenuhnya kompatibel dengan ekosistem FLUX.1-dev yang ada
  • Model ini memaksimalkan fotorealisme dan elemen estetika, dan mengarah pada opinionated aesthetics yang merefleksikan selera estetika tertentu

Fenomena "AI Look" dan Batasannya

  • Gambar yang dihasilkan AI sebelumnya sering menampilkan fenomena yang disebut "AI look", seperti latar belakang yang sangat buram, kulit seperti lilin, dan komposisi yang datar
  • Karena terlalu fokus pada optimasi benchmark dan metrik teknis, dianggap ada pengorbanan terhadap tekstur yang realistis, keragaman gaya, dan hasil yang kreatif
  • Keterbatasan model evaluasi yang tidak merefleksikan preferensi pengguna nyata
    • Pada tahap pra-pelatihan, Fréchet Inception Distance (FID) dan CLIP Score berguna untuk mengukur performa keseluruhan model
    • Di akademisi dan industri digunakan berbagai benchmark seperti DPG, GenEval, T2I-Compbench, GenAI-Bench, tetapi umumnya hanya menilai kesesuaian prompt, hubungan spasial, dan penggabungan atribut
    • Untuk metrik evaluasi estetika ada LAION-Aesthetics, Pickscore, ImageReward, HPSv2, tetapi kebanyakan berbasis CLIP dan dibatasi oleh resolusi serta jumlah parameter
    • Misalnya, LAION-Aesthetics cenderung bias terhadap gambar wanita, latar belakang buram, warna cerah; jika dipakai untuk menyaring data, model bisa mendapatkan bias implisit
  • Metrik dan filter estetika berguna untuk menyaring gambar buruk, tetapi bila terlalu bergantung pada pemilihan data pelatihan, risiko bias menjadi tertanam di model itu sendiri meningkat
  • Metrik berbasis model visi-bahasa terbaru memang muncul, tetapi selera estetika tetap subjektif sehingga sulit direduksi menjadi satu angka tunggal

Struktur Pra-pelatihan (Pre-training) dan Pascapelatihan (Post-training)

  • Pra-pelatihan (Pre-training)

    • Pra-pelatihan mempelajari secara luas pengetahuan tentang dunia visual seperti gaya, objek, orang, lokasi untuk memaksimalkan mode coverage
    • Termasuk data yang "tidak baik" agar model juga mempelajari karakteristik yang tidak diinginkan (misalnya jari yang aneh, buram, dan sebagainya)
    • Pra-pelatihan menentukan batas tertinggi kualitas serta keragaman gaya model
  • Pascapelatihan (Post-training)

    • Pascapelatihan memfokuskan distribusi model ke gaya yang disukai (mode collapsing), agar konvergen ke arah estetika yang jelas, bukan AI look
    • Dilakukan dalam 2 tahap Supervised Finetuning (SFT) dan RLHF (reinforcement learning berbasis preferensi)
      • SFT: menggunakan dataset berkualitas tinggi yang dikurasi langsung serta memanfaatkan gambar sintetis dari Krea-1
      • RLHF: berdasarkan data preferensi internal, mengoptimasi berulang kali untuk menyempurnakan estetika dan gaya
    • Ditemukan bahwa kualitas data lebih menentukan daripada jumlah data (kurang dari 1 juta data berkualitas tinggi pun sudah cukup)
    • Diterapkan label preferensi estetika dengan pendekatan opinionated, sehingga saat hanya memakai data preferensi publik, model tidak akan tenggelam menjadi monoton dan kembali ke AI look

Model Pipeline dan Insight Eksperimental

  • Menggunakan model dasar 12B parameter bernama flux-dev-raw dengan teknik guidance-distilled, yang membedakannya dari model open yang terlalu dipoles (over-finetuned)
  • Pada tahap RLHF diterapkan teknik TPO (preference optimization) untuk memperkuat kepekaan estetika dan karakter stylisasi
  • Data preferensi internal berkualitas tinggi (dengan penyaringan ketat) dipakai berulang kali untuk menyesuaikan output model secara presisi
  • Temuan Utama

    • 1. Kualitas data lebih penting daripada kuantitasnya. Pascapelatihan bermakna tetap bisa dilakukan dengan kurang dari 1 juta data. Keragaman kuantitatif efektif untuk meredakan bias dan meningkatkan stabilitas, tetapi yang paling penting adalah data terkurasi berkualitas tinggi
    • 2. Diperlukan pengumpulan data yang berpusat pada selera yang jelas. Data publik yang umum dapat memicu bias tidak sengaja, regresi AI look, dan bias komposisi/warna yang terlalu sederhana
      • Pada target objektif seperti implementasi teks, anatomi, dan struktur, keragaman data membantu; untuk target subjektif seperti rasa estetika, data yang lebih spesifik justru lebih efisien dibanding campuran
      • Mencampur banyak distribusi selera estetika membuat hasil yang tidak memuaskan siapa pun, dan disebutkan bahwa banyak pengguna lalu bergantung pada metode pascaproses seperti LoRA

Arah Penelitian Masa Depan dan Penutup

  • Krea 1 adalah langkah awal bagi kreator yang memprioritaskan standar estetika dan kualitas, dan diharapkan memperluas komunitas open source
  • Ke depan, ditargetkan penguatan kompetensi inti, dukungan domain visual yang lebih beragam, serta penelitian personalisasi dan controllability untuk menyediakan model yang sesuai dengan selera estetika pengguna
  • Lihat di GitHub ( https://github.com/krea-ai/flux-krea )

1 komentar

 
GN⁺ 2025-08-02
Komentar Hacker News
  • Halo semuanya, senang bertemu. Saya adalah salah satu pendiri sekaligus CTO Krea. Sudah lama saya ingin membuka bobot model kami dan membagikannya kepada komunitas HN. Hari ini saya akan berusaha tetap online semaksimal mungkin dan menjawab pertanyaan yang ada
    • Saya penasaran apakah ada rencana mendukung versi Flux 'Kontext', yaitu model editing. Potensi penggunaan untuk pengeditan gambar berbasis prompt tampak sangat besar. Walau saya belum melihat kualitas versi open-weight-nya, demonya sangat mengesankan. Sebagai referensi, model ini juga berukuran 12B
    • Saya penasaran apa tujuan dari rilis ini. Apakah ada sasaran bisnis tertentu, atau ini benar-benar murni sebagai kontribusi
    • Kita butuh model yang juga mendukung bahasa selain Inggris
    • Saya penasaran bagaimana secara praktis konflik ini diputuskan pada contoh P(.|photo) vs P(.|minimal). Menurut saya, fotorealisme seharusnya menjadi nilai default. Misalnya, jika pengguna menulis "kucing yang sedang membaca buku", rasanya yang benar adalah muncul kucing sungguhan yang sedang membaca buku, bukan gaya AI atau ilustrasi. Tanpa konteks tambahan, terasa wajar jika 'kucing' dipahami sebagai kucing realistis. Jika pengguna menginginkan gaya lain seperti ilustrasi, bukankah seharusnya itu ditulis jelas di prompt? Saya penasaran apakah ada nuansa yang saya lewatkan
  • Rilis yang bagus. Saya sempat mengujinya secara singkat dengan model 12b Txt2Img Krea. Hal yang paling menonjol adalah kecepatannya yang tinggi (dan mungkin juga realismenya). Namun, seperti yang bisa diduga, dalam hal <i>prompt adherence</i> model ini tidak mendapat skor lebih tinggi daripada model Flux.1D biasa. Hasilnya bisa dilihat di https://genai-showdown.specr.net. Sementara itu, tampaknya Wan 2.2+ berpotensi memainkan peran besar ke depan di ranah T2I, tetapi mungkin akan membutuhkan sangat banyak LoRA untuk menutupi kurangnya keragaman gambar
    • Saya penasaran apakah Anda bisa membagikan URL untuk melihat hasil pengujian itu. Dan sebagai catatan, model ini memang lebih berfokus pada <i>aesthetics</i>, bukan semata-mata mengejar akurasi prompt. Ini bukan alasan untuk sampel yang kurang bagus, tetapi saya ingin menekankan bahwa itu memang salah satu tujuan risetnya. Jika ingin menghilangkan gaya khas yang disebut 'flux look', ini adalah trade-off yang wajib dipertimbangkan. Dan ada juga orang yang membuat gambar dasar dengan Wan 2.2 lalu me-refine-nya dengan Krea, pendekatan yang cukup menarik
  • Halo! Saya adalah peneliti utama untuk Krea-1 FLUX.1. Krea adalah 12B Rectified Flow Model yang didistilasi dari Krea-1 dan dirancang agar kompatibel dengan arsitektur FLUX. Jika ada pertanyaan teknis, saya bisa menjawab
    • Saya berasal dari produksi media tradisional. Memecah media menjadi beberapa layer lalu menggabungkannya adalah inti dari pengendalian biaya dan kualitas. Namun, cara pembuatan gambar, video, dan audio AI saat ini tidak mendukung hal seperti itu. ForgeUI sempat mendukungnya sebentar tetapi dihentikan. Menurut saya itu karena tidak memahami kebutuhan produksi media skala besar yang nyata. Saya penasaran apakah ada orang di tim Anda yang memiliki pengalaman nyata di VFX film, iklan animasi, atau produksi bernilai jutaan dolar. Jika ingin sukses, Anda harus mendukung cara kerja produksi media tradisional. Tool AI yang ada saat ini tidak terhubung sama sekali dengan tool produksi atau ekspektasi di lapangan, sehingga tidak diadopsi di lingkungan produksi nyata
    • Kualitas modelnya benar-benar luar biasa. Saya terutama terkesan dengan bagian "flux-dev-raw adalah guidance distilled model, jadi kami membuat loss function khusus dan melakukan fine-tuning langsung pada distribusi classifier-free guided". Jika ada penjelasan lebih rinci dan tips fine-tuning terkait ini, saya ingin mendengarnya. Di komunitas AI art open-source juga banyak yang penasaran karena fine-tuning original distilled flux-dev sangat sulit
    • Saya sangat menghargai upaya seperti ini. Saya penasaran apa arti dari "dirancang agar kompatibel dengan arsitektur FLUX" dan mengapa itu penting
  • Saya agak bingung dengan file safetensor berukuran 23.8GB untuk model 12B parameter. Saya kira 1B parameter membutuhkan 1GB VRAM, jadi saya penasaran apakah model ini memakai 24GB VRAM atau 12GB. Mungkin pemahaman saya yang keliru
    • Jika dihitung dengan bfloat16, 1B x 16bit = 2GB, jadi untuk 12B memang hampir 24GB. File ini diunggah dalam bfloat16 karena penurunan dari float32 ke bfloat16 hampir tidak menimbulkan penurunan performa
    • Ukuran float per parameter berbeda-beda. Banyak model didistribusikan dalam FP8 (8bit/parameter), tetapi model ini FP16 (16bit). Sering kali model dilatih dalam FP16 lalu dikuantisasi ke FP8 atau FP4 untuk distribusi
    • Untuk model yang dikuantisasi ke 8bit, bisa dianggap 1B=1GB, tetapi 16bit dan 32bit membutuhkan 2~4 kali lebih banyak
  • Saya mendapatkan hasil yang aneh dengan prompt sederhana: "Octopus DJ spinning the turntables at a rave." Tangan manusia yang muncul pada DJ itu cukup mencolok. Sebanyak apa pun saya memprompt, saya tidak bisa menghilangkan tangan itu. Seperti yang disebutkan di makalah, model ini memang jelas cukup opinionated
    • Saat saya memasukkan prompt "Octopus DJ with no fingers", tangannya memang hilang, tetapi bersamaan dengan itu semua ciri manusianya juga ikut hilang, jadi yang tersisa hanya gurita murni yang sedang memutar turntable
  • Gambar yang selalu ingin saya buat adalah Galton board. Di bagian atas ada dua lubang yang agak berjauhan tempat bola jatuh, satu berisi bola biru dan satu berisi bola merah. Di bagian bawah, distribusi kedua warna itu bergabung menjadi kolom yang menunjukkan distribusi normal ganda. Gambar referensi: https://imgur.com/a/DiAOTzJ (dua spout di bagian atas). Hasil percobaan nyata: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • Saya penasaran apakah Anda pernah membuatnya sendiri di dunia nyata. Saya tidak berhasil menemukan video double Galton board
  • hey hn! Saya adalah salah satu pendiri Krea. Ada posting blog yang merangkum bagaimana kami melatih FLUX Krea, jadi jika ingin tahu lebih detail, silakan lihat: https://www.krea.ai/blog/flux-krea-open-source-release
    • Ini pertanyaan yang agak di luar topik, tapi saya penasaran apakah kalian benar-benar menyembunyikan scroll bar di situs web. Saya tidak mengerti kenapa melakukan itu.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • Saya penasaran apakah Anda menyediakan versi yang dioptimalkan untuk NVIDIA. Seperti FLUX.1 Kontext yang dipercepat RTX: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • Kami belum membuat versi RTX-accelerated khusus untuk FLUX.1 Krea. Namun, model ini sepenuhnya kompatibel dengan codebase FLUX.1 dev yang sudah ada. Tampaknya juga belum ada export ONNX terpisah. Versi terkuantisasi 4~8bit dengan SVDQuant bisa menjadi tindak lanjut yang bagus agar checkpoint-nya lebih ramah untuk hardware yang lebih umum
  • Ringkasan tautan referensi:
  • Saya menyarankan agar disediakan jalur yang terdokumentasi dengan baik supaya perusahaan bisa dengan jelas melisensikan hak penggunaan komersial ketika mereka sudah mendapatkan hasil yang mereka inginkan (Anda akan segera tahu maksudnya!)