4 poin oleh GN⁺ 2025-08-02 | Belum ada komentar. | Bagikan ke WhatsApp
  • Krea 1 dirilis sebagai model gambar pertama dengan versi bobot terbuka bernama FLUX.1 Krea
  • Berbeda dari model gambar yang ada, model ini dirancang untuk menargetkan gambar yang "tidak terasa seperti AI", dengan fokus pada selera estetika yang jelas dan fotorealisme
  • Ditemukan bahwa benchmark dan metrik evaluasi yang sudah ada sering tidak selaras dengan sensitivitas estetika yang diinginkan pengguna nyata. Untuk mengatasi hal ini, diterapkan data yang dikurasi langsung serta bias estetika berbasis opini
  • Dengan membedakan proses pra-pelatihan (pre-training) dan pascapelatihan (post-training), tim menjalankan secara sistematis tahap yang menjamin keragaman dan tahap yang mengarahkan konvergensi ke gaya yang jelas
  • Ke depan, direncanakan penelitian personalisasi dan penyesuaian selera, perluasan domain visual yang lebih luas, dan fitur untuk mendukung kreator

Rilis Sumber Terbuka FLUX.1 Krea

  • Krea 1 adalah model gambar pertama yang dilatih bersama Black Forest Labs, dengan target unggul dalam kontrol estetika dan kualitas gambar
  • FLUX.1 Krea [dev] dirilis dengan bobot terbuka dan sepenuhnya kompatibel dengan ekosistem FLUX.1-dev yang ada
  • Model ini memaksimalkan fotorealisme dan elemen estetika, dan mengarah pada opinionated aesthetics yang merefleksikan selera estetika tertentu

Fenomena "AI Look" dan Batasannya

  • Gambar yang dihasilkan AI sebelumnya sering menampilkan fenomena yang disebut "AI look", seperti latar belakang yang sangat buram, kulit seperti lilin, dan komposisi yang datar
  • Karena terlalu fokus pada optimasi benchmark dan metrik teknis, dianggap ada pengorbanan terhadap tekstur yang realistis, keragaman gaya, dan hasil yang kreatif
  • Keterbatasan model evaluasi yang tidak merefleksikan preferensi pengguna nyata
    • Pada tahap pra-pelatihan, Fréchet Inception Distance (FID) dan CLIP Score berguna untuk mengukur performa keseluruhan model
    • Di akademisi dan industri digunakan berbagai benchmark seperti DPG, GenEval, T2I-Compbench, GenAI-Bench, tetapi umumnya hanya menilai kesesuaian prompt, hubungan spasial, dan penggabungan atribut
    • Untuk metrik evaluasi estetika ada LAION-Aesthetics, Pickscore, ImageReward, HPSv2, tetapi kebanyakan berbasis CLIP dan dibatasi oleh resolusi serta jumlah parameter
    • Misalnya, LAION-Aesthetics cenderung bias terhadap gambar wanita, latar belakang buram, warna cerah; jika dipakai untuk menyaring data, model bisa mendapatkan bias implisit
  • Metrik dan filter estetika berguna untuk menyaring gambar buruk, tetapi bila terlalu bergantung pada pemilihan data pelatihan, risiko bias menjadi tertanam di model itu sendiri meningkat
  • Metrik berbasis model visi-bahasa terbaru memang muncul, tetapi selera estetika tetap subjektif sehingga sulit direduksi menjadi satu angka tunggal

Struktur Pra-pelatihan (Pre-training) dan Pascapelatihan (Post-training)

  • Pra-pelatihan (Pre-training)

    • Pra-pelatihan mempelajari secara luas pengetahuan tentang dunia visual seperti gaya, objek, orang, lokasi untuk memaksimalkan mode coverage
    • Termasuk data yang "tidak baik" agar model juga mempelajari karakteristik yang tidak diinginkan (misalnya jari yang aneh, buram, dan sebagainya)
    • Pra-pelatihan menentukan batas tertinggi kualitas serta keragaman gaya model
  • Pascapelatihan (Post-training)

    • Pascapelatihan memfokuskan distribusi model ke gaya yang disukai (mode collapsing), agar konvergen ke arah estetika yang jelas, bukan AI look
    • Dilakukan dalam 2 tahap Supervised Finetuning (SFT) dan RLHF (reinforcement learning berbasis preferensi)
      • SFT: menggunakan dataset berkualitas tinggi yang dikurasi langsung serta memanfaatkan gambar sintetis dari Krea-1
      • RLHF: berdasarkan data preferensi internal, mengoptimasi berulang kali untuk menyempurnakan estetika dan gaya
    • Ditemukan bahwa kualitas data lebih menentukan daripada jumlah data (kurang dari 1 juta data berkualitas tinggi pun sudah cukup)
    • Diterapkan label preferensi estetika dengan pendekatan opinionated, sehingga saat hanya memakai data preferensi publik, model tidak akan tenggelam menjadi monoton dan kembali ke AI look

Model Pipeline dan Insight Eksperimental

  • Menggunakan model dasar 12B parameter bernama flux-dev-raw dengan teknik guidance-distilled, yang membedakannya dari model open yang terlalu dipoles (over-finetuned)
  • Pada tahap RLHF diterapkan teknik TPO (preference optimization) untuk memperkuat kepekaan estetika dan karakter stylisasi
  • Data preferensi internal berkualitas tinggi (dengan penyaringan ketat) dipakai berulang kali untuk menyesuaikan output model secara presisi
  • Temuan Utama

    • 1. Kualitas data lebih penting daripada kuantitasnya. Pascapelatihan bermakna tetap bisa dilakukan dengan kurang dari 1 juta data. Keragaman kuantitatif efektif untuk meredakan bias dan meningkatkan stabilitas, tetapi yang paling penting adalah data terkurasi berkualitas tinggi
    • 2. Diperlukan pengumpulan data yang berpusat pada selera yang jelas. Data publik yang umum dapat memicu bias tidak sengaja, regresi AI look, dan bias komposisi/warna yang terlalu sederhana
      • Pada target objektif seperti implementasi teks, anatomi, dan struktur, keragaman data membantu; untuk target subjektif seperti rasa estetika, data yang lebih spesifik justru lebih efisien dibanding campuran
      • Mencampur banyak distribusi selera estetika membuat hasil yang tidak memuaskan siapa pun, dan disebutkan bahwa banyak pengguna lalu bergantung pada metode pascaproses seperti LoRA

Arah Penelitian Masa Depan dan Penutup

  • Krea 1 adalah langkah awal bagi kreator yang memprioritaskan standar estetika dan kualitas, dan diharapkan memperluas komunitas open source
  • Ke depan, ditargetkan penguatan kompetensi inti, dukungan domain visual yang lebih beragam, serta penelitian personalisasi dan controllability untuk menyediakan model yang sesuai dengan selera estetika pengguna
  • Lihat di GitHub ( https://github.com/krea-ai/flux-krea )

Belum ada komentar.

Belum ada komentar.