- OpenAI telah lama meyakini bahwa pembuatan gambar harus menjadi salah satu kemampuan inti model bahasa, dan berdasarkan visi tersebut mereka mengintegrasikan generator gambar yang paling canggih dan kuat ke dalam GPT‑4o
- Pembuatan gambar di GPT‑4o tidak hanya menghasilkan gambar yang indah, tetapi juga hasil yang benar-benar berguna dan bernilai
- Presisi dan akurat, serta mampu menghasilkan gambar berkualitas tinggi pada tingkat fotorealistik
- Kemampuan multimodal sudah terpasang secara bawaan, sehingga memungkinkan pembuatan konten visual dengan memanfaatkan bahasa, gambar, dan konteks secara bersamaan
Fitur pembuatan gambar yang berguna
- Manusia telah lama menggunakan citra visual untuk menyampaikan informasi, meyakinkan, dan menganalisis, mulai dari lukisan dinding kuno hingga infografik modern
- Model generatif sebelumnya dapat membuat gambar yang fantastis atau mengesankan, tetapi kesulitan membuat gambar praktis untuk penyampaian informasi
- Pembuatan gambar GPT‑4o unggul dalam menghasilkan gambar yang akurat dalam menyampaikan makna, seperti logo atau diagram
- Mencakup fitur lanjutan seperti rendering teks yang akurat, pemanfaatan konteks percakapan pengguna, dan pembuatan berdasarkan gambar yang diunggah
- Fitur-fitur ini membantu pengguna membuat gambar yang diinginkan dengan lebih akurat
Kemampuan pembuatan gambar yang ditingkatkan
- Memahami hubungan antara gambar dan bahasa, serta antar gambar, dengan mempelajari distribusi gabungan dari gambar dan teks online
- Melalui proses penyelarasan setelah pelatihan, keluwesan visual meningkat sehingga dapat menghasilkan gambar yang berguna dan konsisten
Fitur rendering teks
- Gambar dapat memuat ribuan kata, tetapi beberapa teks yang ditempatkan dengan tepat dapat memperkuat makna
- GPT‑4o dapat menggabungkan simbol atau teks secara presisi ke dalam gambar sehingga bisa digunakan sebagai alat komunikasi visual
Pembuatan gambar interaktif
- GPT‑4o mengintegrasikan pembuatan gambar sebagai kemampuan bawaan, sehingga gambar dapat dibuat dan diedit dalam alur percakapan
- Contoh: saat mendesain karakter game, perubahan berulang dapat dilakukan sambil menjaga tampilan tetap konsisten
Penerapan instruksi secara akurat
- GPT‑4o dapat menerapkan prompt yang rinci secara akurat
- Sistem lain umumnya hanya mampu menangani sekitar 5-8 objek, tetapi GPT‑4o dapat menghasilkan hingga 10-20 objek secara konsisten
- Menjaga representasi atribut objek dan hubungan antarnya dengan lebih akurat
Pembelajaran berbasis konteks
- Menganalisis gambar yang diunggah pengguna dan mencerminkan detail gambar tersebut dalam pembuatan gambar
Keterhubungan dengan pengetahuan dunia
- GPT‑4o dapat menghubungkan pengetahuan antara teks dan gambar sehingga memungkinkan pembuatan gambar yang lebih cerdas dan efisien
Fotorealisme dan berbagai gaya
- Dilatih dengan berbagai gaya gambar sehingga mampu menghasilkan gambar realistis dan melakukan transformasi gaya
Keterbatasan model
- Ini bukan model yang sempurna
- Setelah peluncuran awal, perbaikan berkelanjutan direncanakan berdasarkan umpan balik pengguna dan data
Upaya untuk memastikan keamanan
- Tetap mempertahankan standar keamanan yang kuat sambil mendorong aktivitas kreatif yang bermanfaat seperti pengembangan game, eksplorasi sejarah, dan pendidikan
- Kebijakan ketat sedang diterapkan untuk mencegah pembuatan gambar yang tidak pantas
-
Menjamin transparansi melalui C2PA dan alat pencarian internal
- Semua gambar yang dihasilkan GPT‑4o menyertakan metadata C2PA untuk memperjelas asalnya
- Dengan memanfaatkan alat pencarian internal, asal gambar dapat diverifikasi berdasarkan atribut teknisnya
-
Pemblokiran gambar yang tidak pantas
- Permintaan pembuatan gambar yang melanggar kebijakan, seperti gambar seksual anak atau deepfake, akan diblokir
- Pembatasan yang lebih ketat diterapkan untuk gambar yang mencakup orang nyata
- Sistem pemblokiran awal yang ketat dijalankan untuk gambar telanjang dan gambar kekerasan
-
Penguatan keamanan berbasis penalaran
- Melatih LLM berbasis penalaran yang beroperasi berdasarkan spesifikasi kebijakan yang ditulis manusia
- Digunakan untuk mengidentifikasi dan menyelesaikan ambiguitas dalam kebijakan, dan dikombinasikan dengan teknologi multimodal untuk menyesuaikan baik teks masukan maupun gambar keluaran agar sesuai dengan standar kebijakan
Ketersediaan
- Mulai hari ini, tersedia sebagai generator gambar bawaan untuk pengguna Plus, Pro, Team, dan Free
- Enterprise dan Edu akan segera didukung
- Juga tersedia di Sora, dan model DALL·E yang ada tetap dapat diakses melalui GPT terpisah
- Fitur pembuatan gambar melalui API dijadwalkan tersedia untuk developer dalam beberapa minggu ke depan
- Pengguna dapat membuat gambar hanya dengan deskripsi yang diinginkan, serta menentukan rasio, warna (kode hex), apakah latar belakang transparan, dan sebagainya
- Karena pembuatan gambar berpresisi tinggi, waktu rendering dapat memakan hingga 1 menit
3 komentar
Sepertinya memang belum terlihat di paket free; jadi ini hanya dibuka untuk Plus, Pro, dan Team, ya?
Di Pro, kalau menekan tombol ... di bawah jendela chat, tertulis "Buat gambar (diperbarui)", jadi sepertinya ini fitur itu.
Tapi Best of # tidak muncul, jadi agak membingungkan apakah ini sudah diterapkan atau belum.
Komentar Hacker News
Metode pembuatan gambar baru ini menggunakan token dan melakukan inferensi di ruang piksel alih-alih difusi
Pengenalan 4o Image Generation: generator gambar paling canggih
Penasaran kenapa tidak menambahkan benchmark terhadap o1
Siaran langsung OpenAI GPT-4o Image Generation berjalan lambat, memerlukan sekitar 30 detik per gambar
Setelah mencobanya, saya bisa membuat undangan ulang tahun putri saya sekaligus dalam satu kali proses
Senang karena hasilnya bukan gaya CG/kartun yang terlalu jenuh
Penasaran apakah ada cara untuk memeriksa apakah prompt tertentu diproses oleh 4o atau oleh Dall-E
Masih gagal pada tes gelas anggur
Penasaran seberapa banyak kurasi yang dilakukan pada banyak gambar berlabel "Best of 8"
Ada contoh pengeditan iteratif dengan model baru ini