3 poin oleh GN⁺ 2025-05-30 | 1 komentar | Bagikan ke WhatsApp
  • FLUX.1 Kontext dari Black Forest Labs adalah model AI generatif terbaru yang menerima teks dan gambar secara bersamaan untuk memahami konteks, sekaligus dapat langsung mengedit dan menghasilkan sambil mempertahankan karakteristik serta gaya gambar yang sudah ada
  • Dibanding algoritme generasi teks-ke-gambar yang ada, model ini menunjukkan performa unggul dalam konsistensi teks dan objek, pengeditan lokal, referensi gaya, dan respons berkecepatan tinggi
  • Pengguna dapat memasukkan teks saja, atau menggabungkan gambar dan teks untuk hanya mengubah area tertentu, menerapkan gaya saja, melakukan pengeditan multi-tahap, dan berbagai pekerjaan gambar interaktif lainnya
  • FLUX.1 Kontext [pro] menjaga konsistensi gambar bahkan setelah banyak pengeditan, dan bekerja dengan kecepatan terbaik di industri
  • Model open source versi [dev] adalah diffusion transformer 12B yang diringankan, dan dibuka sebagai private beta untuk keperluan riset serta kustomisasi

Pengenalan FLUX.1 Kontext

  • FLUX.1 Kontext melampaui keterbatasan model lama yang hanya menghasilkan gambar dari teks, dengan menerima teks dan gambar bersama-sama untuk generasi dan pengeditan gambar berbasis konteks melalui model generatif flow matching
  • Dengan memanfaatkan prompt teks dan gambar secara bersamaan, model ini dapat menghapus/menambahkan/mengubah elemen tertentu pada gambar, serta menghasilkan adegan baru sambil mempertahankan gaya atau ciri khasnya

Fitur utama

  • Konsistensi karakter: orang, objek, dan gaya yang sama tetap terjaga konsisten di berbagai adegan dan lingkungan
  • Pengeditan lokal: hanya bagian tertentu dari gambar yang dapat diubah lewat perintah teks (misalnya hanya menghapus elemen tertentu pada wajah, atau hanya mengganti tulisan)
  • Referensi gaya: gaya khas dari gambar referensi dapat diterapkan ke adegan baru
  • Kecepatan interaktif: mendukung pengeditan dan generasi real-time dengan kecepatan inferensi hingga 8 kali lebih cepat dibanding model sebelumnya

Integrasi pengeditan teks-ke-gambar dan gambar-ke-gambar

  • FLUX.1 Kontext tidak hanya kuat untuk satu kali edit, tetapi juga mempertahankan kualitas dan karakteristik gambar dalam instruksi berulang multi-tahap
  • Dengan terus memanfaatkan prompt dan hasil gambar sebelumnya, pengguna dapat mencapai hasil yang diinginkan secara bertahap

Lini model FLUX.1 Kontext

  • FLUX.1 Kontext [pro]
    • Model flagship yang dioptimalkan untuk pengeditan dan generasi iteratif cepat
    • Menerima teks dan gambar referensi secara bersamaan untuk melakukan pengeditan area target dan transformasi adegan kompleks dengan cepat dan konsisten
  • FLUX.1 Kontext [max]
    • Model spesifikasi tertinggi yang bersifat eksperimental, dengan pemahaman prompt, tipografi, dan kemampuan pengeditan konsisten berkecepatan tinggi yang ditingkatkan
  • FLUX.1 Kontext [dev]
    • Model ringan (12B) untuk riset dan kustomisasi, dibuka sebagai private beta
    • Saat dirilis, akan tersedia melalui mitra infrastruktur AI utama seperti FAL, Replicate, Runware, DataCrunch, TogetherAI, dan HuggingFace

Dukungan dan akses

  • Seri FLUX.1 Kontext dapat digunakan di berbagai layanan seperti KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI serta infrastruktur seperti FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
  • Melalui FLUX Playground (https://playground.bfl.ai/) untuk uji coba dan demo real-time, pengguna dapat dengan mudah memverifikasi performa model dan melihat hasilnya tanpa integrasi terpisah

Evaluasi performa

  • Pada benchmark internal KontextBench, model ini dievaluasi terhadap model-model SOTA pada 6 tugas generasi dan pengeditan gambar
  • Mencatat skor tingkat industri tertinggi di bidang pengeditan teks dan pelestarian karakter
  • Kecepatan inferensi juga mencapai latensi yang jauh lebih rendah dibanding model performa terbaik sebelumnya
  • Daya saing juga terbukti di berbagai kriteria seperti kualitas estetika, pemahaman prompt, tipografi, dan realisme

Keterbatasan dan tantangan ke depan

  • Pada pengeditan berulang multi-tahap (lebih dari 6 kali), noise visual (artifact) dapat muncul dan menurunkan kualitas gambar
  • Kadang ada kasus ketika model tidak mengikuti instruksi detail tertentu dalam prompt secara akurat
  • Karena keterbatasan pengetahuan dunia dan pemahaman konteks, model dapat menghasilkan gambar yang tidak akurat secara kontekstual
  • Dalam proses peringanan model dan distillation, kualitas gambar dapat menurun

1 komentar

 
GN⁺ 2025-05-30
Opini Hacker News
  • Saya sudah mencobanya langsung dan mengalami fenomena "context slip" yang menarik. Gambar terkait Saya membuat gambar pesawat luar angkasa yang mendarat di planet terpencil dengan prompt generasi, lalu meminta edit: "buat pesawatnya lebih berwarna dan tampilkan lebih besar di gambar". Namun pesawat luar angkasanya malah berubah menjadi kapal kontainer. Karena riwayat chat masih ada, seharusnya model bisa memahami bahwa saya menginginkan pesawat luar angkasa, tetapi konteks pentingnya terlewat sehingga hasilnya jadi melenceng.

  • Saya sedang menguji langsung lewat endpoint FLUX Kontext Pro milik Replicate. Ada juga aplikasi Replicate yang menunjukkan berbagai cara penggunaan pengeditan gambar FLUX Kontext: FLUX Kontext Apps. Kualitas gambarnya, untuk generasi image-to-image sederhana, terasa mirip dengan level pembuatan gambar GPT-4o. Kecepatan generasinya juga cukup cepat, sekitar 4 detik. Prompt engineering terasa agak rumit di luar contoh-contoh yang ada, tapi menurut saya akan makin membaik. Perubahan gaya atau permintaan detail memang diterapkan, tetapi semakin spesifik instruksinya justru ada kecenderungan mengabaikan detail yang diminta.

    • Dari sisi seberapa baik atribut asli dipertahankan, model FLUX terasa lebih akurat daripada 4o. Jika pada karakter hewan 3D yang sudah ada saya hanya ingin mengganti pencahayaan, 4o cenderung merusak wajah karakter dan mengubah tubuh atau detail lain, sedangkan FLUX dapat mengubah pose atau lighting secara signifikan sambil mempertahankan bentuk visual yang tampak hampir identik dengan sangat baik.
    • Dalam eksperimen image-to-image, ini lebih mengesankan daripada GPT-4o. 4o tampak terlalu terpaku pada warna bernuansa sepia, dan saat edit dilakukan berulang, hasilnya sangat terasa sebagai keluaran 4o. Sebaliknya, FLUX.1 Kontext Max menampilkan ekspresi warna yang jauh lebih luas dan beragam, serta menangkap detail kecil yang mungkin terlewat oleh 4o. Saya belum sempat menguji pembuatan gambar baru hanya dengan prompt. Namun untuk mengedit gambar yang sudah ada lewat prompt, FLUX terasa jauh lebih unggul.
    • Saya sangat suka karena Replicate selalu cepat menyediakan model-model terbaru. Di era AI yang berkembang sangat cepat, keren rasanya melihat versi model riset baru langsung didistribusikan sebagai API dan bisa dipakai dalam skala nyata. Distributor seperti Replicate tampaknya berperan memperbesar dampak perilisan model-model ini berkali-kali lipat.
    • Saya penasaran, patokan sekitar 4 detik itu menggunakan GPU dan VRAM yang mana? Apakah yang dimaksud UI Huggingface?
  • Sebagian sampel tampaknya hanya menampilkan hasil yang terlalu bagus. Ada yang pernah mencoba aplikasi headshot profesional di “Kontext Apps”? Tautan Kontext Apps Saya memasukkan beberapa foto diri saya, tetapi tiap kali hasilnya malah menjadi orang yang benar-benar berbeda. Hasil headshot akhirnya memang terlihat profesional.

    • Di flux playground saya mencoba prompt headshot dengan selfie habis olahraga yang terlihat lelah, dan sebagian besar penampilan saya seperti ekspresi yang sama, keringat, dan warna kulit tetap dipertahankan. Rasanya seperti hanya latarnya yang diganti. Ketika saya memperluas permintaan menjadi "ubah menjadi headshot yang bagus untuk media sosial, dengan senyum, postur dan pakaian yang bagus, kulit bersih tanpa keringat, dan sebagainya", hasilnya hanya mengganti pakaian dan menambahkan senyum yang terasa canggung. Kurang lebih memang seperti itu hasil yang biasanya keluar untuk jenis gambar seperti ini.
    • Saya penasaran apakah rasio gambar input dan output dibuat sama. Jika rasio dipaksa berubah, sepertinya muncul artefak aneh.
    • Pelestarian identitas seperti wajah masih merupakan masalah yang belum sepenuhnya diselesaikan oleh siapa pun. Sama seperti tangan, ini masalah ilmiah yang sulit.
  • Saya sedang mempertimbangkan apakah akan menambahkan model FLUX Kontext ke situs perbandingan gambar GenAI saya. Versi Max memang mendapat skor hampir dua kali lebih tinggi dalam fidelity terhadap prompt, tetapi tetap masih jauh di bawah gpt-image-1 milik OpenAI (di luar urusan kualitas gambar). gpt-image-1 ada di peringkat pertama leaderboard. Flux 1.D masih saya pertahankan sebagai baseline untuk kemampuan GenAI lokal. Situs perbandingan Saya juga baru menambahkan model Image 2.0 dari Hunyuan, tetapi karena ini model real-time, skornya memang rendah. Sebagai catatan, model dari Black Forest Labs ini tampaknya lebih berfokus pada edit dan revisi berulang pada gambar yang sudah ada daripada text-to-image murni.

    • Tolong tambahkan juga “Flux 1.1 Pro Ultra” ke situsnya. Katanya itu yang paling kuat di seri ini, dan fidelity terhadap prompt jauh lebih baik dibanding Flux Dev. Sepertinya bisa jadi perbandingan yang adil sebagai salah satu model open source terbaik. Situsnya sendiri juga seru, dan prompt-promptnya menarik.
    • Saran saya: prompt adegan seperti ini belum pernah benar-benar bisa diwujudkan dengan baik oleh model mana pun di masa lalu. Mungkin belakangan ini sudah banyak membaik…
      A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
      
      Aneh juga kenapa hasilnya masih berantakan padahal datanya mestinya cukup banyak. Ini adegan yang cukup ikonik.
    • Saya sudah meminta situsnya ditambahkan, dan saya menikmatinya.
  • Saya penasaran apakah gambar input dibatasi hanya satu. Saya ingin mencoba prompt gabungan dengan beberapa gambar, seperti "letakkan item dari gambar A ke dalam gambar B" atau "masukkan karakter A ke lanskap B".

    • Dalam mode eksperimental “multi”, beberapa gambar bisa dimasukkan.
    • Antarmuka multi-image bisa dicoba di Fal, dan mungkin juga ada di Replicate (meski saya belum mengeceknya). Model ini sangat kuat. Memang belum mengalahkan gpt-image-1, tetapi benar-benar mendekati. Saya rasa untuk gambar atau video, hambatan dominasi eksklusif sekarang sudah hilang. Saya sempat khawatir Google atau OpenAI akan memonopoli pasar kreativitas, tetapi sekarang siapa pun bisa membuatnya sendiri.
  • Untuk yang penasaran dengan makalah teknisnya, saya bagikan laporan resmi.

    • Implementasinya tampak sederhana dan mirip dengan model terbuka lain (HiDream-E1, ICEdit, DreamO, dll.). Pembeda utamanya adalah kurasi data, tetapi bagian ini hanya dijelaskan secara singkat di makalah.
    • Kebanyakan orang sebenarnya tidak tertarik pada makalahnya; tujuan mereka adalah mengunduh model open-weight dan menjalankannya sendiri. Mayoritas hanya mengambil dan memanfaatkannya, hampir tidak ada yang berkontribusi.
  • Kalau ingin memodifikasi dan melatih ini sendiri secara lokal, kira-kira butuh tingkat keahlian seperti apa? Saya sudah dua hari mengutak-atik RTX 4090 di Windows untuk mencoba tuning LoRA sendiri dengan Flux 1 dev, tetapi belum berhasil dengan benar. Saya penasaran seberapa dalam perlu mempelajarinya, apakah hambatan masuknya cukup rendah, bisa untuk pemula, atau memang hanya realistis bagi yang sudah berpengalaman.

    • Model open source-nya belum dirilis, dan sepertinya tidak akan lebih mudah daripada melatih LoRA di Flux 1 Dev.
    • Saya sarankan memakai skrip SimpleTuner. Saya bisa melakukan tuning LoRA sendiri tanpa harus paham library Python secara mendalam.
    • Biasanya versi yang sudah dirakit di comfyui cukup mudah ditemukan. Untuk para YouTuber, kadang juga dibagikan sebagai reward dukungan Patreon.
    • Kalau RTX 4090 + Windows tidak jalan, kemungkinan masalahnya ada pada OS Windows. Performa aslinya biasanya lebih terasa di Linux.
  • Saya kurang paham contoh remove from face. Kalau tidak ada foto wajah lain, bukankah pada akhirnya model hanya memakai gambar wajah generik?

    • Itu bukan benar-benar memulihkan sesuatu; semuanya tetap hanya gambar yang dihasilkan. Tidak ada wajah asli di sana.
    • Kalau melihat contohnya dengan saksama, saat objek tertentu menutupi sebagian wajah, model mungkin bisa menyimpulkan dan memulihkannya.
    • Ini tergantung pada tahap seperti apa model dasarnya; beberapa model identitas dapat menginterpolasi wajah dengan cukup halus hanya dari geometri parsial.
    • Sepertinya slideshow pada contoh pertama memang bug. Kepingan saljunya menutupi sebagian besar wajah.
    • Jika memakai foto asli, model sering kali malah mengubah wajahnya, jadi sepertinya mereka sengaja memakai contoh foto yang wajahnya memang tidak terlihat.
  • Ada yang bertanya apakah model ini bisa menghasilkan gambar catur. Tautan prediksi AI catur

  • Ada komentar yang menebak-nebak kapan versi pengembang terbuka akan dirilis, apakah dalam seminggu, atau masih butuh satu-dua bulan lagi.