OpenAI mengumumkan fitur pembuatan gambar 4o

(openai.com)

12 poin oleh GN⁺ 2025-03-26 | 3 komentar | Bagikan ke WhatsApp

OpenAI telah lama meyakini bahwa pembuatan gambar harus menjadi salah satu kemampuan inti model bahasa, dan berdasarkan visi tersebut mereka mengintegrasikan generator gambar yang paling canggih dan kuat ke dalam GPT‑4o
Pembuatan gambar di GPT‑4o tidak hanya menghasilkan gambar yang indah, tetapi juga hasil yang benar-benar berguna dan bernilai
Presisi dan akurat, serta mampu menghasilkan gambar berkualitas tinggi pada tingkat fotorealistik
Kemampuan multimodal sudah terpasang secara bawaan, sehingga memungkinkan pembuatan konten visual dengan memanfaatkan bahasa, gambar, dan konteks secara bersamaan

Fitur pembuatan gambar yang berguna

Manusia telah lama menggunakan citra visual untuk menyampaikan informasi, meyakinkan, dan menganalisis, mulai dari lukisan dinding kuno hingga infografik modern
Model generatif sebelumnya dapat membuat gambar yang fantastis atau mengesankan, tetapi kesulitan membuat gambar praktis untuk penyampaian informasi
Pembuatan gambar GPT‑4o unggul dalam menghasilkan gambar yang akurat dalam menyampaikan makna, seperti logo atau diagram
Mencakup fitur lanjutan seperti rendering teks yang akurat, pemanfaatan konteks percakapan pengguna, dan pembuatan berdasarkan gambar yang diunggah
Fitur-fitur ini membantu pengguna membuat gambar yang diinginkan dengan lebih akurat

Kemampuan pembuatan gambar yang ditingkatkan

Memahami hubungan antara gambar dan bahasa, serta antar gambar, dengan mempelajari distribusi gabungan dari gambar dan teks online
Melalui proses penyelarasan setelah pelatihan, keluwesan visual meningkat sehingga dapat menghasilkan gambar yang berguna dan konsisten

Fitur rendering teks

Gambar dapat memuat ribuan kata, tetapi beberapa teks yang ditempatkan dengan tepat dapat memperkuat makna
GPT‑4o dapat menggabungkan simbol atau teks secara presisi ke dalam gambar sehingga bisa digunakan sebagai alat komunikasi visual

Pembuatan gambar interaktif

GPT‑4o mengintegrasikan pembuatan gambar sebagai kemampuan bawaan, sehingga gambar dapat dibuat dan diedit dalam alur percakapan
Contoh: saat mendesain karakter game, perubahan berulang dapat dilakukan sambil menjaga tampilan tetap konsisten

Penerapan instruksi secara akurat

GPT‑4o dapat menerapkan prompt yang rinci secara akurat
Sistem lain umumnya hanya mampu menangani sekitar 5-8 objek, tetapi GPT‑4o dapat menghasilkan hingga 10-20 objek secara konsisten
Menjaga representasi atribut objek dan hubungan antarnya dengan lebih akurat

Pembelajaran berbasis konteks

Menganalisis gambar yang diunggah pengguna dan mencerminkan detail gambar tersebut dalam pembuatan gambar

Keterhubungan dengan pengetahuan dunia

GPT‑4o dapat menghubungkan pengetahuan antara teks dan gambar sehingga memungkinkan pembuatan gambar yang lebih cerdas dan efisien

Fotorealisme dan berbagai gaya

Dilatih dengan berbagai gaya gambar sehingga mampu menghasilkan gambar realistis dan melakukan transformasi gaya

Keterbatasan model

Ini bukan model yang sempurna
Setelah peluncuran awal, perbaikan berkelanjutan direncanakan berdasarkan umpan balik pengguna dan data

Upaya untuk memastikan keamanan

Tetap mempertahankan standar keamanan yang kuat sambil mendorong aktivitas kreatif yang bermanfaat seperti pengembangan game, eksplorasi sejarah, dan pendidikan
Kebijakan ketat sedang diterapkan untuk mencegah pembuatan gambar yang tidak pantas
Menjamin transparansi melalui C2PA dan alat pencarian internal
- Semua gambar yang dihasilkan GPT‑4o menyertakan metadata C2PA untuk memperjelas asalnya
- Dengan memanfaatkan alat pencarian internal, asal gambar dapat diverifikasi berdasarkan atribut teknisnya
Pemblokiran gambar yang tidak pantas
- Permintaan pembuatan gambar yang melanggar kebijakan, seperti gambar seksual anak atau deepfake, akan diblokir
- Pembatasan yang lebih ketat diterapkan untuk gambar yang mencakup orang nyata
- Sistem pemblokiran awal yang ketat dijalankan untuk gambar telanjang dan gambar kekerasan
Penguatan keamanan berbasis penalaran
- Melatih LLM berbasis penalaran yang beroperasi berdasarkan spesifikasi kebijakan yang ditulis manusia
- Digunakan untuk mengidentifikasi dan menyelesaikan ambiguitas dalam kebijakan, dan dikombinasikan dengan teknologi multimodal untuk menyesuaikan baik teks masukan maupun gambar keluaran agar sesuai dengan standar kebijakan

Ketersediaan

Mulai hari ini, tersedia sebagai generator gambar bawaan untuk pengguna Plus, Pro, Team, dan Free
Enterprise dan Edu akan segera didukung
Juga tersedia di Sora, dan model DALL·E yang ada tetap dapat diakses melalui GPT terpisah
Fitur pembuatan gambar melalui API dijadwalkan tersedia untuk developer dalam beberapa minggu ke depan
Pengguna dapat membuat gambar hanya dengan deskripsi yang diinginkan, serta menentukan rasio, warna (kode hex), apakah latar belakang transparan, dan sebagainya
Karena pembuatan gambar berpresisi tinggi, waktu rendering dapat memakan hingga 1 menit

3 komentar

j2sus91 2025-03-26

Sepertinya memang belum terlihat di paket free; jadi ini hanya dibuka untuk Plus, Pro, dan Team, ya?

laeyoung 2025-03-26

Di Pro, kalau menekan tombol ... di bawah jendela chat, tertulis "Buat gambar (diperbarui)", jadi sepertinya ini fitur itu.
Tapi Best of # tidak muncul, jadi agak membingungkan apakah ini sudah diterapkan atau belum.

GN⁺ 2025-03-26

Komentar Hacker News

Metode pembuatan gambar baru ini menggunakan token dan melakukan inferensi di ruang piksel alih-alih difusi
- Misalnya, bisa diminta menggambar notepad dengan papan tic-tac-toe kosong lalu meletakkan langkah pertama, kemudian pengguna bisa melanjutkan dengan memainkan langkah mereka sendiri
- Juga bisa mengubah gaya gambar atau melakukan transformasi yang mempertahankan informasi seperti "mengubah siang menjadi malam" atau "memakaikan topi"
- Resolusi model ini terbatas, tetapi kemajuan di bidang ini membuka kemungkinan untuk merancang aplikasi langkah demi langkah dalam bentuk gambar lalu menulis kodenya
- Model ini bisa terus "berinferensi" dari gambar eksternal, sehingga hasil awal yang kurang bagus pun masih bisa diperbaiki
- Jika modelnya menjadi lebih cepat, kita bisa membayangkan UI generatif sungguhan yang menghasilkan frame berikutnya dari aplikasi berdasarkan event LLM
- Model difusi juga bisa melakukan pekerjaan serupa dengan lebih cepat
Pengenalan 4o Image Generation: generator gambar paling canggih
- Gemini 2.5 dari Google: model AI paling cerdas
- Pengenalan Gemini 2.0: model AI paling mumpuni
- Semoga tren seperti ini hilang dan Apple memakai sesuatu yang efektif agar perusahaan lain menyalin istilah baru itu
Penasaran kenapa tidak menambahkan benchmark terhadap o1
Siaran langsung OpenAI GPT-4o Image Generation berjalan lambat, memerlukan sekitar 30 detik per gambar
- Sam Altman menjelaskan bahwa "memang lambat, tetapi gambar yang dihasilkan sepadan"
- Alih-alih pendekatan difusi, sistem ini menghasilkan dan mendekode token gambar, mirip DALL-E asli
- Gemini dari Google bisa menghasilkan dan mengedit gambar dalam hitungan detik
- API-nya belum tersedia, dan karena lambat diperkirakan biayanya akan lebih mahal daripada pesaing yang mematok $0.03+/gambar
Setelah mencobanya, saya bisa membuat undangan ulang tahun putri saya sekaligus dalam satu kali proses
- Elemen dan gaya yang diinginkan pas dengan tepat
- Saat diminta menambahkan detail seperti tanggal dan lokasi, hasilnya juga bagus
- Model sebelumnya bahkan tidak mendekati setengah kemampuannya
Senang karena hasilnya bukan gaya CG/kartun yang terlalu jenuh
Penasaran apakah ada cara untuk memeriksa apakah prompt tertentu diproses oleh 4o atau oleh Dall-E
- Saat ini tampaknya prompt masih diproses oleh yang terakhir
- Rencana jangka panjangnya adalah sepenuhnya beralih ke 4o dan memindahkan Dall-E ke tab terpisah
Masih gagal pada tes gelas anggur
Penasaran seberapa banyak kurasi yang dilakukan pada banyak gambar berlabel "Best of 8"
- Dari tiga gambar gratis, dua mengesankan dan satu gagal total
Ada contoh pengeditan iteratif dengan model baru ini
- Jauh lebih baik daripada model sebelumnya, tetapi masih menghasilkan tubuh dengan jari terlalu banyak atau lengan terlalu banyak