8 poin oleh GN⁺ 2024-08-02 | 1 komentar | Bagikan ke WhatsApp
  • Model teks-ke-gambar open source SOTA terbesar yang dikembangkan oleh Black Forest Labs
    • Tim orisinal pengembang Stable Diffusion
  • Dengan 12B parameter, model ini memperluas batas kreativitas dan performa, serta menawarkan kemampuan pembuatan gambar yang mirip dengan Midjourney

Tersedia dalam 3 model

  • FLUX.1 [dev]: Model dasar yang di-open source dengan lisensi nonkomersial. Komunitas dapat membangun di atasnya
  • FLUX.1 [schnell]: Versi distilled dari model dasar yang berjalan hingga 10x lebih cepat. Lisensi Apache 2.
  • FLUX.1 [pro]: Versi tertutup yang hanya tersedia melalui API

Fitur utama

  • Kualitas gambar yang ditingkatkan: Mampu menghasilkan visual menakjubkan beresolusi tinggi
  • Anatomi manusia tingkat lanjut dan photorealism: Mampu menghasilkan gambar yang sangat realistis dan akurat secara anatomi
  • Kepatuhan prompt yang lebih baik: Mampu menghasilkan gambar yang lebih akurat dan relevan berdasarkan input
  • Kecepatan luar biasa: Kecepatan dan efisiensi Flux Schnell ideal untuk aplikasi dengan permintaan tinggi

Integrasi fal

  • Mengintegrasikan inference engine mutakhir dari fal sehingga model Flux dapat berjalan hingga 2x lebih cepat dibanding eager torch
  • Waktu pemrosesan cepat sambil tetap mempertahankan kualitas dan detail yang unggul

Ringkasan GN⁺

  • Flux adalah model teks-ke-gambar terbaru dari Black Forest Labs yang menetapkan tolok ukur baru untuk kreativitas dan performa
  • Melalui berbagai varian model, Flux menyediakan solusi yang disesuaikan untuk beragam use case
  • Dengan kualitas gambar yang ditingkatkan dan ekspresi yang realistis, Flux cocok untuk aplikasi dengan permintaan tinggi
  • Melalui inference engine fal, model dapat dijalankan dengan lebih cepat dan efisien
  • Proyek lain dengan fungsi serupa antara lain DALL-E dan Midjourney

1 komentar

 
GN⁺ 2024-08-02
Komentar Hacker News
  • burkay from fal.ai: model ini bukan dibuat oleh fal, melainkan oleh Black Forest Labs

    • fal.ai menjalankan model ini pada mesin inferensi yang dioptimalkan sehingga bisa bekerja sangat cepat
    • model ini bisa dicoba di playground
    • model [schnell] tersedia sebagai open source di Hugging Face dengan lisensi Apache
    • rendering teks sangat cepat dan sangat baik, serta memiliki encoder teks yang dapat menangani teks dan posisi dengan lebih baik
    • ketika rendering teks membaik, watermark teks dalam data pelatihan terlihat lebih jelas
    • menyediakan tautan untuk mencoba model
      • FLUX.1 [schnell]: Apache 2.0, open weights, step distillation
      • FLUX.1 [dev]: nonkomersial, open weights, guided distillation (perlu login)
      • FLUX.1 [pro]: closed source, SOTA, data mentah (hanya bisa digunakan melalui API)
  • Pengguna lain: sebagian besar perbandingan tidak benar-benar menguji model baru ini dengan baik

    • saat ini kepatuhan prompt terbaik di pasar adalah DALL-E 3, tetapi untuk konsep yang kompleks masih kurang dan sensorinya banyak
    • hasil perbandingan Flux dan DALL-E 3 menunjukkan bahwa Flux sangat mengesankan dan berkinerja sangat baik
    • hasil perbandingan dipublikasikan di blog
  • Pengguna lain: menguji dengan prompt dari ideogram, dan Flux menghasilkan gambar yang sangat bagus

    • sudah mencoba ideogram, tetapi tidak menyukai filternya
    • jika bisa dijalankan secara lokal, kualitas gambar dan kepatuhan prompt-nya sangat mendekati
    • saat teks menjadi kompleks, model ini tidak bisa menuliskannya dengan jelas
    • memberikan contoh prompt dari gambar ideogram
    • sudah lama berhenti menggunakan model stable diffusion, karena teknologinya menjadi terlalu rumit dan tidak lagi menyenangkan
    • menginginkan sistem seperti ideogram yang bisa dijalankan lokal tanpa filter
    • model ini sangat bagus
  • Pengguna lain: setiap kali melihat model baru, selalu memeriksa apakah model itu bisa membuat diagram engineering

    • model ini masih belum bisa menangani diagram engineering dengan baik
    • berharap perusahaan AI bisa menyelesaikan masalah diagram engineering
    • kemungkinan besar hal itu belum masuk dalam dataset pelatihan saat ini
    • ingin membuat dataset/benchmark sintetis
  • Pengguna lain: proses pendaftarannya merepotkan

    • pembuatan akun Github saat ini mengalami error sehingga perlu dua kali percobaan dan dua browser
  • Pengguna lain: startup yang didanai modal ventura terus merilis model gratis tanpa model bisnis

    • mendukung open source, tetapi khawatir ini tidak berkelanjutan dalam jangka panjang
  • Pengguna lain: kualitasnya mengesankan

  • Pengguna lain: tidak mampu menangani relasi spasial dengan baik

    • "rumah terbalik" -> rumah biasa
    • "kuda yang duduk di atas anjing" -> kuda dan anjing berdampingan
    • "Lockheed Martin F-22 Raptor terbalik" -> hasil yang salah