Flux - Model Text-To-Image Open Source 12B Parameter

(blog.fal.ai)

8 poin oleh GN⁺ 2024-08-02 | 1 komentar | Bagikan ke WhatsApp

Model teks-ke-gambar open source SOTA terbesar yang dikembangkan oleh Black Forest Labs
- Tim orisinal pengembang Stable Diffusion
Dengan 12B parameter, model ini memperluas batas kreativitas dan performa, serta menawarkan kemampuan pembuatan gambar yang mirip dengan Midjourney

Tersedia dalam 3 model

FLUX.1 [dev]: Model dasar yang di-open source dengan lisensi nonkomersial. Komunitas dapat membangun di atasnya
FLUX.1 [schnell]: Versi distilled dari model dasar yang berjalan hingga 10x lebih cepat. Lisensi Apache 2.
FLUX.1 [pro]: Versi tertutup yang hanya tersedia melalui API

Fitur utama

Kualitas gambar yang ditingkatkan: Mampu menghasilkan visual menakjubkan beresolusi tinggi
Anatomi manusia tingkat lanjut dan photorealism: Mampu menghasilkan gambar yang sangat realistis dan akurat secara anatomi
Kepatuhan prompt yang lebih baik: Mampu menghasilkan gambar yang lebih akurat dan relevan berdasarkan input
Kecepatan luar biasa: Kecepatan dan efisiensi Flux Schnell ideal untuk aplikasi dengan permintaan tinggi

Integrasi fal

Mengintegrasikan inference engine mutakhir dari fal sehingga model Flux dapat berjalan hingga 2x lebih cepat dibanding eager torch
Waktu pemrosesan cepat sambil tetap mempertahankan kualitas dan detail yang unggul

Ringkasan GN⁺

Flux adalah model teks-ke-gambar terbaru dari Black Forest Labs yang menetapkan tolok ukur baru untuk kreativitas dan performa
Melalui berbagai varian model, Flux menyediakan solusi yang disesuaikan untuk beragam use case
Dengan kualitas gambar yang ditingkatkan dan ekspresi yang realistis, Flux cocok untuk aplikasi dengan permintaan tinggi
Melalui inference engine fal, model dapat dijalankan dengan lebih cepat dan efisien
Proyek lain dengan fungsi serupa antara lain DALL-E dan Midjourney

1 komentar

GN⁺ 2024-08-02

Komentar Hacker News

burkay from fal.ai: model ini bukan dibuat oleh fal, melainkan oleh Black Forest Labs
- fal.ai menjalankan model ini pada mesin inferensi yang dioptimalkan sehingga bisa bekerja sangat cepat
- model ini bisa dicoba di playground
- model [schnell] tersedia sebagai open source di Hugging Face dengan lisensi Apache
- rendering teks sangat cepat dan sangat baik, serta memiliki encoder teks yang dapat menangani teks dan posisi dengan lebih baik
- ketika rendering teks membaik, watermark teks dalam data pelatihan terlihat lebih jelas
- menyediakan tautan untuk mencoba model
  - FLUX.1 [schnell]: Apache 2.0, open weights, step distillation
  - FLUX.1 [dev]: nonkomersial, open weights, guided distillation (perlu login)
  - FLUX.1 [pro]: closed source, SOTA, data mentah (hanya bisa digunakan melalui API)
Pengguna lain: sebagian besar perbandingan tidak benar-benar menguji model baru ini dengan baik
- saat ini kepatuhan prompt terbaik di pasar adalah DALL-E 3, tetapi untuk konsep yang kompleks masih kurang dan sensorinya banyak
- hasil perbandingan Flux dan DALL-E 3 menunjukkan bahwa Flux sangat mengesankan dan berkinerja sangat baik
- hasil perbandingan dipublikasikan di blog
Pengguna lain: menguji dengan prompt dari ideogram, dan Flux menghasilkan gambar yang sangat bagus
- sudah mencoba ideogram, tetapi tidak menyukai filternya
- jika bisa dijalankan secara lokal, kualitas gambar dan kepatuhan prompt-nya sangat mendekati
- saat teks menjadi kompleks, model ini tidak bisa menuliskannya dengan jelas
- memberikan contoh prompt dari gambar ideogram
- sudah lama berhenti menggunakan model stable diffusion, karena teknologinya menjadi terlalu rumit dan tidak lagi menyenangkan
- menginginkan sistem seperti ideogram yang bisa dijalankan lokal tanpa filter
- model ini sangat bagus
Pengguna lain: setiap kali melihat model baru, selalu memeriksa apakah model itu bisa membuat diagram engineering
- model ini masih belum bisa menangani diagram engineering dengan baik
- berharap perusahaan AI bisa menyelesaikan masalah diagram engineering
- kemungkinan besar hal itu belum masuk dalam dataset pelatihan saat ini
- ingin membuat dataset/benchmark sintetis
Pengguna lain: proses pendaftarannya merepotkan
- pembuatan akun Github saat ini mengalami error sehingga perlu dua kali percobaan dan dua browser
Pengguna lain: startup yang didanai modal ventura terus merilis model gratis tanpa model bisnis
- mendukung open source, tetapi khawatir ini tidak berkelanjutan dalam jangka panjang
Pengguna lain: kualitasnya mengesankan
Pengguna lain: tidak mampu menangani relasi spasial dengan baik
- "rumah terbalik" -> rumah biasa
- "kuda yang duduk di atas anjing" -> kuda dan anjing berdampingan
- "Lockheed Martin F-22 Raptor terbalik" -> hasil yang salah

Flux - Model Text-To-Image Open Source 12B Parameter

Tersedia dalam 3 model

Fitur utama

Integrasi fal

Ringkasan GN⁺

Bacaan terkait

1 komentar

Komentar Hacker News