EveryText: Teknologi untuk menerapkan/mengekspresikan semua bahasa (aksara) di dunia dalam pembuatan gambar AI generatif tanpa pelatihan awal

(fantos-EveryText.hf.space)

5 poin oleh arxivgpt 2024-08-29 | Belum ada komentar. | Bagikan ke WhatsApp

1. Gambaran umum

Seiring percepatan perkembangan teknologi AI, kemajuan inovatif juga terjadi di bidang pembuatan gambar. Di pusat perkembangan ini ada teknologi terobosan bernama "EveryText". Teknologi ini didasarkan pada "TBF('Text by Font') Image Model" yang memungkinkan semua bahasa (aksara) di dunia diterapkan dan ditampilkan dalam gambar AI generatif tanpa pelatihan awal.

2. Latar belakang dan kebutuhan

Dengan perkembangan terbaru teknologi pembuatan gambar AI, platform seperti Midjourney V6 dan FLUX kini mendukung kemampuan untuk menampilkan teks yang dimasukkan pengguna (misalnya, "HELLO WORLD") ke dalam gambar dengan visibilitas dan keterbacaan yang baik. Namun, teknologi ini pada dasarnya masih terbatas pada bahasa Inggris.

Untuk mengatasi keterbatasan tersebut, Alibaba Group dari Tiongkok telah mengimplementasikan sistem yang juga mendukung bahasa Tionghoa, Jepang, dan Korea. Ini merupakan sinyal jelas bahwa teknologi sedang berevolusi menuju pemrosesan semua bahasa di dunia.

3. Masalah saat ini

Metode yang ada sebelumnya memiliki berbagai keterbatasan dan masalah:

Perlu pengeditan terpisah: Untuk menyisipkan teks yang diinginkan ke dalam gambar, dibutuhkan pekerjaan pengeditan tambahan, yang tidak efisien dari sisi waktu dan biaya.
Ketergantungan pada pelatihan: Saat menghasilkan gambar dengan AI, agar teks tertentu bisa ditampilkan secara jelas, pelatihan gambar atau pekerjaan pelabelan menggunakan LoRA dan sejenisnya bersifat wajib.
Padat sumber daya: Pendekatan Midjourney V6, FLUX, dan Alibaba Group membutuhkan banyak sumber daya GPU dan waktu.
Kosakata terbatas: Teks yang tidak ada sebelumnya tidak dapat dipelajari, sehingga sulit untuk diekspresikan.
Keterbatasan bahasa: Untuk memproses semua bahasa dunia selain bahasa Inggris, dibutuhkan sumber daya yang sangat besar.

4. Pendekatan pemecahan masalah yang inovatif

Inti dari EveryText adalah pendekatan baru terhadap "pelatihan". Jika metode sebelumnya membutuhkan pelatihan langsung, EveryText memecahkan masalah ini dengan memanfaatkan "Font".

Font as Pre-trained Model: Semua teks pada dasarnya sudah berada dalam kondisi 'terlatih' karena "Font" telah secara efektif menyertakan pelabelan. EveryText menggunakan 'Font' ini seperti 'model yang sudah dilatih'.
Keragaman dan estetika: Dengan menerapkan banyak "Font" dari berbagai wilayah bahasa, teknologi ini sekaligus mencapai kekayaan tipografi dan keindahan visual.
Ekspresi tanpa batas: Dengan menggunakan "Font" sebagai "model yang pelatihannya sudah selesai", bahkan kata-kata yang tidak ada sebelumnya pun dapat diekspresikan selama berupa karakter apa pun yang dapat dimasukkan/ditampilkan.

5. Cara menggunakan layanan

EveryText dapat digunakan gratis oleh siapa saja. Cara menggunakannya adalah sebagai berikut:

Prompt: Masukkan deskripsi dasar untuk pembuatan gambar.
Text for Image Generation: Masukkan teks yang akan ditampilkan pada gambar.
Text Position: Pilih posisi teks di dalam gambar.
Text Size: Sesuaikan ukuran teks.
Select Font(Option): Pilih font yang diinginkan.
Advanced Settings(Option): Melalui pengaturan lanjutan, proses pembuatan gambar dapat disesuaikan dengan lebih rinci.
Klik tombol "START" untuk membuat gambar.

6. Perbandingan dengan teknologi pesaing (hingga saat ini merupakan pendapat subjektif dari sejumlah kecil evaluator)

-Midjourney V6/ Flux: hanya mendukung bahasa Inggris / kualitas gambar A+ / ekspresi teks dan keterbacaan A

-AnyText("Alibaba Group"): mendukung bahasa Inggris, Tionghoa, Jepang, Korea / kualitas gambar B / pengenalan teks dan keterbacaan C

-EveryText: mendukung semua bahasa (aksara) di dunia / kualitas gambar A / pengenalan teks dan keterbacaan B+ -Midjourney V6/ Flux: hanya mendukung bahasa Inggris / kualitas gambar A+ / ekspresi teks dan keterbacaan A

EveryText mendukung semua bahasa di dunia sekaligus menawarkan kualitas gambar tinggi serta ekspresi teks dan keterbacaan yang sangat baik.

7. Kesimpulan

EveryText membuka cakrawala baru bagi teknologi gambar AI generatif. Pendekatan inovatif ini, yang memungkinkan semua bahasa di dunia diintegrasikan secara alami ke dalam gambar tanpa pelatihan awal, sangat memperluas kemungkinan komunikasi global dan ekspresi kreatif. Menarik untuk melihat bagaimana EveryText akan dimanfaatkan dan berkembang di berbagai bidang ke depannya.

Tautan terkait

Huggingface Service: https://fantos-EveryText.hf.space
Discord Community: https://discord.gg/openfreeai
Kontak: arxivgpt@gmail.com