12 poin oleh GN⁺ 2025-03-26 | 3 komentar | Bagikan ke WhatsApp
  • OpenAI telah lama meyakini bahwa pembuatan gambar harus menjadi salah satu kemampuan inti model bahasa, dan berdasarkan visi tersebut mereka mengintegrasikan generator gambar yang paling canggih dan kuat ke dalam GPT‑4o
  • Pembuatan gambar di GPT‑4o tidak hanya menghasilkan gambar yang indah, tetapi juga hasil yang benar-benar berguna dan bernilai
  • Presisi dan akurat, serta mampu menghasilkan gambar berkualitas tinggi pada tingkat fotorealistik
  • Kemampuan multimodal sudah terpasang secara bawaan, sehingga memungkinkan pembuatan konten visual dengan memanfaatkan bahasa, gambar, dan konteks secara bersamaan

Fitur pembuatan gambar yang berguna

  • Manusia telah lama menggunakan citra visual untuk menyampaikan informasi, meyakinkan, dan menganalisis, mulai dari lukisan dinding kuno hingga infografik modern
  • Model generatif sebelumnya dapat membuat gambar yang fantastis atau mengesankan, tetapi kesulitan membuat gambar praktis untuk penyampaian informasi
  • Pembuatan gambar GPT‑4o unggul dalam menghasilkan gambar yang akurat dalam menyampaikan makna, seperti logo atau diagram
  • Mencakup fitur lanjutan seperti rendering teks yang akurat, pemanfaatan konteks percakapan pengguna, dan pembuatan berdasarkan gambar yang diunggah
  • Fitur-fitur ini membantu pengguna membuat gambar yang diinginkan dengan lebih akurat

Kemampuan pembuatan gambar yang ditingkatkan

  • Memahami hubungan antara gambar dan bahasa, serta antar gambar, dengan mempelajari distribusi gabungan dari gambar dan teks online
  • Melalui proses penyelarasan setelah pelatihan, keluwesan visual meningkat sehingga dapat menghasilkan gambar yang berguna dan konsisten

Fitur rendering teks

  • Gambar dapat memuat ribuan kata, tetapi beberapa teks yang ditempatkan dengan tepat dapat memperkuat makna
  • GPT‑4o dapat menggabungkan simbol atau teks secara presisi ke dalam gambar sehingga bisa digunakan sebagai alat komunikasi visual

Pembuatan gambar interaktif

  • GPT‑4o mengintegrasikan pembuatan gambar sebagai kemampuan bawaan, sehingga gambar dapat dibuat dan diedit dalam alur percakapan
  • Contoh: saat mendesain karakter game, perubahan berulang dapat dilakukan sambil menjaga tampilan tetap konsisten

Penerapan instruksi secara akurat

  • GPT‑4o dapat menerapkan prompt yang rinci secara akurat
  • Sistem lain umumnya hanya mampu menangani sekitar 5-8 objek, tetapi GPT‑4o dapat menghasilkan hingga 10-20 objek secara konsisten
  • Menjaga representasi atribut objek dan hubungan antarnya dengan lebih akurat

Pembelajaran berbasis konteks

  • Menganalisis gambar yang diunggah pengguna dan mencerminkan detail gambar tersebut dalam pembuatan gambar

Keterhubungan dengan pengetahuan dunia

  • GPT‑4o dapat menghubungkan pengetahuan antara teks dan gambar sehingga memungkinkan pembuatan gambar yang lebih cerdas dan efisien

Fotorealisme dan berbagai gaya

  • Dilatih dengan berbagai gaya gambar sehingga mampu menghasilkan gambar realistis dan melakukan transformasi gaya

Keterbatasan model

  • Ini bukan model yang sempurna
  • Setelah peluncuran awal, perbaikan berkelanjutan direncanakan berdasarkan umpan balik pengguna dan data

Upaya untuk memastikan keamanan

  • Tetap mempertahankan standar keamanan yang kuat sambil mendorong aktivitas kreatif yang bermanfaat seperti pengembangan game, eksplorasi sejarah, dan pendidikan
  • Kebijakan ketat sedang diterapkan untuk mencegah pembuatan gambar yang tidak pantas
  • Menjamin transparansi melalui C2PA dan alat pencarian internal

    • Semua gambar yang dihasilkan GPT‑4o menyertakan metadata C2PA untuk memperjelas asalnya
    • Dengan memanfaatkan alat pencarian internal, asal gambar dapat diverifikasi berdasarkan atribut teknisnya
  • Pemblokiran gambar yang tidak pantas

    • Permintaan pembuatan gambar yang melanggar kebijakan, seperti gambar seksual anak atau deepfake, akan diblokir
    • Pembatasan yang lebih ketat diterapkan untuk gambar yang mencakup orang nyata
    • Sistem pemblokiran awal yang ketat dijalankan untuk gambar telanjang dan gambar kekerasan
  • Penguatan keamanan berbasis penalaran

    • Melatih LLM berbasis penalaran yang beroperasi berdasarkan spesifikasi kebijakan yang ditulis manusia
    • Digunakan untuk mengidentifikasi dan menyelesaikan ambiguitas dalam kebijakan, dan dikombinasikan dengan teknologi multimodal untuk menyesuaikan baik teks masukan maupun gambar keluaran agar sesuai dengan standar kebijakan

Ketersediaan

  • Mulai hari ini, tersedia sebagai generator gambar bawaan untuk pengguna Plus, Pro, Team, dan Free
  • Enterprise dan Edu akan segera didukung
  • Juga tersedia di Sora, dan model DALL·E yang ada tetap dapat diakses melalui GPT terpisah
  • Fitur pembuatan gambar melalui API dijadwalkan tersedia untuk developer dalam beberapa minggu ke depan
  • Pengguna dapat membuat gambar hanya dengan deskripsi yang diinginkan, serta menentukan rasio, warna (kode hex), apakah latar belakang transparan, dan sebagainya
  • Karena pembuatan gambar berpresisi tinggi, waktu rendering dapat memakan hingga 1 menit

3 komentar

 
j2sus91 2025-03-26

Sepertinya memang belum terlihat di paket free; jadi ini hanya dibuka untuk Plus, Pro, dan Team, ya?

 
laeyoung 2025-03-26

Di Pro, kalau menekan tombol ... di bawah jendela chat, tertulis "Buat gambar (diperbarui)", jadi sepertinya ini fitur itu.
Tapi Best of # tidak muncul, jadi agak membingungkan apakah ini sudah diterapkan atau belum.

 
GN⁺ 2025-03-26
Komentar Hacker News
  • Metode pembuatan gambar baru ini menggunakan token dan melakukan inferensi di ruang piksel alih-alih difusi

    • Misalnya, bisa diminta menggambar notepad dengan papan tic-tac-toe kosong lalu meletakkan langkah pertama, kemudian pengguna bisa melanjutkan dengan memainkan langkah mereka sendiri
    • Juga bisa mengubah gaya gambar atau melakukan transformasi yang mempertahankan informasi seperti "mengubah siang menjadi malam" atau "memakaikan topi"
    • Resolusi model ini terbatas, tetapi kemajuan di bidang ini membuka kemungkinan untuk merancang aplikasi langkah demi langkah dalam bentuk gambar lalu menulis kodenya
    • Model ini bisa terus "berinferensi" dari gambar eksternal, sehingga hasil awal yang kurang bagus pun masih bisa diperbaiki
    • Jika modelnya menjadi lebih cepat, kita bisa membayangkan UI generatif sungguhan yang menghasilkan frame berikutnya dari aplikasi berdasarkan event LLM
    • Model difusi juga bisa melakukan pekerjaan serupa dengan lebih cepat
  • Pengenalan 4o Image Generation: generator gambar paling canggih

    • Gemini 2.5 dari Google: model AI paling cerdas
    • Pengenalan Gemini 2.0: model AI paling mumpuni
    • Semoga tren seperti ini hilang dan Apple memakai sesuatu yang efektif agar perusahaan lain menyalin istilah baru itu
  • Penasaran kenapa tidak menambahkan benchmark terhadap o1

  • Siaran langsung OpenAI GPT-4o Image Generation berjalan lambat, memerlukan sekitar 30 detik per gambar

    • Sam Altman menjelaskan bahwa "memang lambat, tetapi gambar yang dihasilkan sepadan"
    • Alih-alih pendekatan difusi, sistem ini menghasilkan dan mendekode token gambar, mirip DALL-E asli
    • Gemini dari Google bisa menghasilkan dan mengedit gambar dalam hitungan detik
    • API-nya belum tersedia, dan karena lambat diperkirakan biayanya akan lebih mahal daripada pesaing yang mematok $0.03+/gambar
  • Setelah mencobanya, saya bisa membuat undangan ulang tahun putri saya sekaligus dalam satu kali proses

    • Elemen dan gaya yang diinginkan pas dengan tepat
    • Saat diminta menambahkan detail seperti tanggal dan lokasi, hasilnya juga bagus
    • Model sebelumnya bahkan tidak mendekati setengah kemampuannya
  • Senang karena hasilnya bukan gaya CG/kartun yang terlalu jenuh

  • Penasaran apakah ada cara untuk memeriksa apakah prompt tertentu diproses oleh 4o atau oleh Dall-E

    • Saat ini tampaknya prompt masih diproses oleh yang terakhir
    • Rencana jangka panjangnya adalah sepenuhnya beralih ke 4o dan memindahkan Dall-E ke tab terpisah
  • Masih gagal pada tes gelas anggur

  • Penasaran seberapa banyak kurasi yang dilakukan pada banyak gambar berlabel "Best of 8"

    • Dari tiga gambar gratis, dua mengesankan dan satu gagal total
  • Ada contoh pengeditan iteratif dengan model baru ini

    • Jauh lebih baik daripada model sebelumnya, tetapi masih menghasilkan tubuh dengan jari terlalu banyak atau lengan terlalu banyak