GPT Images 1.5 Dirilis

(openai.com)

3 poin oleh GN⁺ 2025-12-17 | 1 komentar | Bagikan ke WhatsApp

Fitur pembuatan gambar ChatGPT kini ditingkatkan, menawarkan pengeditan yang lebih presisi dan kecepatan generasi yang lebih tinggi
Model GPT‑Image‑1.5 mengikuti instruksi teks dengan lebih akurat, serta dapat mengedit sambil mempertahankan kemiripan sosok, pencahayaan, dan komposisi
Melalui antarmuka sidebar Images yang baru, tersedia preset style, prompt yang sedang tren, dan fitur penggunaan ulang tampilan
Di API, peningkatan performa yang sama juga tersedia dengan biaya 20% lebih rendah, cocok untuk pembuatan logo merek dan gambar produk
Pembaruan ini langsung digulirkan ke semua pengguna ChatGPT dan API, sehingga sangat meningkatkan kegunaan dan kualitas pembuatan gambar

Pengantar GPT‑Image‑1.5

Versi baru ChatGPT Images dirilis dengan basis model pembuatan gambar paling kuat
- Mengikuti instruksi teks dengan lebih akurat, serta memungkinkan pengeditan sambil mempertahankan detail seperti kemiripan wajah
- Kecepatan pembuatan gambar menjadi hingga 4 kali lebih cepat, meningkatkan efisiensi eksperimen berulang dan eksplorasi ide
Model ini menawarkan transformasi yang ekspresif, rendering teks yang padat, dan hasil yang natural
- Mendukung mulai dari edit kecil hingga rekonstruksi penuh, dan memungkinkan pembuatan mudah dengan memilih preset style
Sedang digulirkan bertahap untuk semua pengguna ChatGPT, dan tersedia di API sebagai GPT‑Image‑1.5

Hasil yang sesuai dengan maksud pengguna

Model hanya mengubah bagian yang diminta sambil menjaga pencahayaan, komposisi, dan kemiripan sosok tetap konsisten
Hal ini memungkinkan tingkat kecocokan tinggi untuk edit foto, simulasi pakaian dan gaya rambut, style filter, serta transformasi konsep
ChatGPT dapat berfungsi seperti studio kreatif portabel, menangani baik pengeditan praktis maupun rekonstruksi artistik
- Mendukung berbagai jenis edit seperti penambahan, penghapusan, penggabungan, dan pencampuran
- Memperkuat fitur transformasi kreatif untuk menambahkan elemen seperti teks dan layout
- Dibanding GPT Image 1.0, pemahaman terhadap instruksi meningkat, sehingga pengeditan lebih rinci dimungkinkan
- Kualitas rendering teks kecil dan padat juga ditingkatkan

Ruang pembuatan gambar baru

Sidebar khusus Images di dalam ChatGPT diperkenalkan untuk mempersingkat proses eksplorasi dan pembuatan gambar
- Termasuk filter preset, prompt yang sedang tren, dan fitur penggunaan ulang tampilan
- Gambar dapat digunakan berulang setelah satu kali unggah tanpa perlu memakai kembali camera roll
Kecepatan pembuatan gambar meningkat hingga 4 kali, dan beberapa gambar dapat dibuat sekaligus
Dari edit kecil hingga rekonstruksi penuh, hasil yang diberikan selaras dengan visi pengguna

Peningkatan kualitas tambahan

Peningkatan kualitas yang siap dipakai langsung, seperti representasi banyak wajah kecil dan rendering hasil yang natural
Contoh: adegan jalanan London era 1970-an direproduksi secara realistis, dengan fokus detail dan representasi sosok yang ditingkatkan

Peningkatan dan batasan

Dibanding versi awal, terlihat peningkatan performa yang jelas pada beragam kasus
Namun beberapa hasil masih belum sempurna, dan pemrosesan banyak wajah serta multibahasa masih memiliki ruang untuk perbaikan

Ketersediaan API GPT Image 1.5

Versi API mencakup peningkatan yang sama seperti ChatGPT Images
- Menjaga konsistensi logo merek dan visual utama
- Cocok untuk pembuatan gambar untuk pemasaran dan e-commerce
Biaya input/output turun 20%, sehingga lebih banyak gambar dapat dibuat dengan anggaran yang sama
Dapat dicoba di OpenAI Playground, galeri, dan panduan prompt
Perusahaan seperti Wix, Canva, Figma, dan Envato sudah memanfaatkannya
- Wix menilai bahwa “pembuatan gambar berkualitas tinggi dengan konsistensi tinggi mendukung workflow produksi yang cepat”

Rilis dan distribusi

Model ChatGPT Images yang baru langsung digulirkan ke semua pengguna ChatGPT dan API di seluruh dunia
Dapat digunakan tanpa memilih model terpisah, sementara versi sebelumnya tetap dipertahankan dalam bentuk custom GPT
OpenAI menilai pembaruan ini sebagai tahap penting dalam kemajuan teknologi pembuatan gambar
- Ke depan, peningkatan tambahan seperti pengeditan yang lebih detail dan dukungan multibahasa akan hadir

1 komentar

GN⁺ 2025-12-17

Komentar Hacker News

Membagikan hasil gpt-image 1.5 di situs GenAI Showdown
OpenAI masih kuat dalam pemahaman prompt, tetapi dulu agak lemah dalam fidelity gambar. Pada pembaruan kali ini, kelemahan itu tampak banyak membaik
Terutama, model ini mampu melakukan localized edit dengan baik tanpa merusak estetika keseluruhan
Skornya naik dua kali lipat dari 4/12 menjadi 8/12, dan ini satu-satunya model yang lolos ‘Giraffe prompt’
Steerability modelnya juga tinggi, di kisaran 90%
Fitur baru yang ditambahkan mencakup bagian outtakes untuk tiap model, penambahan model REVE dan Flux.2 Dev, serta sistem penilaian berbasis bobot
Untuk membandingkan tiga model (gpt-image-1, gpt-image-1.5, NB Pro), lihat tautan ini
Sedang menyiapkan tulisan blog yang merangkum eksperimen terkait Nano Banana
Setelah menguji model Image baru dari ChatGPT, hasilnya jauh di bawah Nano Banana Pro, tetapi lebih baik daripada Nano Banana versi dasar
Harganya belum jelas, tetapi gpt-image-1.5 tampaknya sekitar 20% lebih murah dibanding model sebelumnya
Hal yang menarik adalah kasus grid generation. NBP kehilangan konsistensi prompt di atas 4x4, jadi cukup mengesankan bahwa OpenAI mencoba contoh 6x6
- Hari ini saya berencana menjalankan gpt-image-1.5 di GenAI Showdown milik saya
  Sementara itu, hasil mengesankan dari NB Pro bisa dilihat di blog ini
  NB Pro menghasilkan hal-hal yang mengejutkan seperti merakit jigsaw puzzle yang belum pernah dilihat, memperkirakan medan 3D, dan mengubah jendela menjadi cermin
- Setelah menguji GPT1.5 langsung, kualitas gambarnya mirip NBP, tetapi konsistensi prompt dan pemahaman world model-nya lebih lemah
  Misalnya, saat diminta dua orang yang sedang mendayung, perahunya terlalu kecil hingga mereka nyaris tidak muat
  Selain itu, sangat mengganggu ada bug yang membuat percakapan sebelumnya hilang setiap kali saya memberi prompt revisi
  Untuk hasil yang natural, saya menambahkan frasa seperti “shaky amateur smartphone photo” di awal prompt
  Sebagai referensi, tanggapan terkait juga bisa dilihat di tweet ini
- Dari sudut pandang seseorang yang sudah lebih dari 10 tahun membuat film, saya sangat membutuhkan alat komposisi adegan yang konsisten
  gpt-image-1 jauh lebih unggul daripada Nano Banana(Pro) dalam fungsi previz-to-render
  Nano Banana mempertahankan elemen previz beresolusi rendah apa adanya, sedangkan gpt-image-1 memahami pose karakter dan blocking adegan lalu sekaligus melakukan upscale
  Contoh video: 3D + Posing + Blocking, versi daur ulang set, Gaussian splats, contoh tambahan
  Ke depan, dibutuhkan model yang mampu memberi kontrol gaya, kecepatan, dan styling berbasis gambar referensi
  Adobe juga sedang bereksperimen dengan fungsi serupa, dan mendemonstrasikan Relighting, pengeditan Image→3D, pengeditan Gaussian, konversi 3D→Image, dan lainnya
  Saya sendiri sedang mengimplementasikan fitur-fitur ini sebagai alat desktop open-source dan mengembangkannya dengan Rust
- Saya menerima umpan balik bahwa eksperimennya menarik. Berkat itu, cara saya menulis prompt membaik dan ekspektasi saya juga menjadi lebih realistis
Jika ini adalah layanan tahun 2010 di mana staf Photoshop menggabungkan gambar untuk Anda, rasanya akan menimbulkan kontroversi besar
Sekarang kita hidup di era ketika AI meruntuhkan konsep hak cipta dan kepengarangan, jadi saya penasaran bagaimana konten baru bisa dilindungi
Pernah ada kasus ketika gpt mereproduksi hampir persis foto bergaya langka yang dulu saya ambil
- Penggunaan gambar referensi adalah praktik standar di industri seni digital. Namun, AI berisiko menyalin terlalu mirip
- Untuk melindungi konten, satu-satunya cara adalah air gap. Artinya, jangan mengunggahnya ke internet
  Begitu dipublikasikan, kita harus menerima adanya tingkat penyalahgunaan tertentu. Jika model mengalami overfitting pada karya asli, masih belum ada preseden hukum
- Mungkin kita sedang memasuki era pasca-hak cipta. Hukum akan segera menyusul
- Ada juga pertanyaan: jika seseorang menyalin karya saya, tetapi karena itu karya tersebut dilihat banyak orang, apakah itu pasti hal buruk?
Saya mencoba membuat sprite map dan UV texture map dengan gpt-image-1.5, dan nuansa Megaman Legends-nya terasa kuat
Contoh1, Contoh2
Namun, karena tidak ada model 3D aslinya, saya tidak yakin apakah itu benar-benar UV map yang akurat. Versi awal Nano Banana tidak bisa melakukan pekerjaan seperti ini
- Untuk memperjelas, ini bukan UV map sungguhan. Misalnya, bagian punggung model Crash tidak ada
  Tekstur seperti ini masih bisa dipakai, tetapi distorsinya akan parah
  Pendekatan yang benar adalah meng-unwrap model lalu menggunakan wireframe UV map sebagai input
  Model Crash yang sebenarnya bisa dilihat di sini
Ada eksperimen menerapkan dark theme pada produk perangkat lunak
Gemini/Nano hanya mengubah beberapa panel menjadi abu-abu, tetapi GPT memberi tema pada seluruh aplikasi dengan sangat baik
Meski begitu, detail desain tetap membutuhkan sentuhan desainer
Saya penasaran mengapa gambar ChatGPT selalu punya nuansa kuning
- Ini fenomena yang muncul sejak titik waktu tertentu. Tampaknya berkaitan dengan efek reinforcement learning yang dipicu booming gaya Ghibli
- Dugaan saya, OpenAI mungkin salah menghitung normalisasi gambar. Pada model baru ini, masalah itu hilang
- Codec Avatars dari Meta juga pernah mengalami masalah serupa. Mereka mengumpulkan data dengan peralatan bernilai jutaan dolar, tetapi hasilnya bernuansa hijau karena kegagalan kalibrasi kamera
- Hipotesis lain adalah bahwa ‘filter Mexico’ yang sering dipakai di film terserap ke dalam data pelatihan
- Saat melakukan style tuning berbasis preferensi manusia, muncul bias kuning yang halus, dan bias itu menumpuk semakin sering pengeditan diulang
Pitch produk “membuat gambar dari kenangan yang tidak pernah ada” terasa aneh
- Saya juga merasa begitu, tetapi jika melihat riset pasar, pembuatan gambar memang sangat populer
  Saya pribadi terutama memakainya untuk pekerjaan berbasis teks seperti pemrograman, wiki, dan matematika
  Fenomena ini mirip dengan masa ketika filter Snapchat sedang populer. Saya sendiri cenderung membiarkannya dalam mode dasar
- Kalau prompt itu dipakai untuk membuat hewan origami, rasanya justru akan lebih menyeramkan
- Mungkin suatu hari para aktor akan menjual citra diri mereka untuk membuat foto palsu
  Pada akhirnya semua orang bisa saja berlangganan kehidupan virtual, lalu kembali ke realitas saat pembayaran kartu gagal
Karena model baru ini dikatakan berjalan di API, saya memperbarui grail SDK Golang saya,
tetapi saat dipanggil muncul error server 500. gpt-image-1.5 juga tidak ada di daftar model
Lihat contoh kode
- Faktanya, ini memang belum bisa dipakai di API. Bahkan di Image Playground yang ditautkan OpenAI pun belum terlihat
  Di playground lokal saya (gpt-image-1-playground), saya sudah memodifikasi penanganan 404
  - Saya juga mencobanya dan mendapat error 500 yang sama.
    Jika nama model dimasukkan salah, muncul pesan bahwa ‘nilai yang didukung hanya gpt-image-1 dan gpt-image-1-mini’
  - Tampaknya sedang dalam rollout bertahap, dan di backend juga belum terkonfirmasi
Saya masih memakai Midjourney. Model besar lain masih kurang dalam kreativitas gaya dan terlalu fokus pada fotorealisme
- Saya tidak terlalu mengikuti pembaruan terbaru Midjourney, tetapi fitur konsistensi gaya dan mempertahankan karakter itu penting
  Untuk membuat sequence yang punya konteks, bukan hanya satu gambar tunggal, fitur seperti ini wajib ada
- Fenomena ini bisa dilihat sebagai perbedaan antara ‘model yang punya opini’ vs model yang mengikuti pilihan pengguna’. Yang pertama punya keunggulan jika bekerja dengan baik
- Ada juga reaksi yang menyebut ini mengesankan, dan orang-orang penasaran apakah ada galeri yang mengumpulkan gambar-gambar terkait
- Kecenderungan ini adalah masalah budaya yang sudah ada bahkan sebelum generasi gambar AI
  Ada kecenderungan menilai nilai seni hanya dari ‘kemampuan rendering’, dan itu mengabaikan makna penciptaan budaya dalam konteks sosialnya

GPT Images 1.5 Dirilis

Pengantar GPT‑Image‑1.5

Hasil yang sesuai dengan maksud pengguna

Ruang pembuatan gambar baru

Peningkatan kualitas tambahan

Peningkatan dan batasan

Ketersediaan API GPT Image 1.5

Rilis dan distribusi

Bacaan terkait

1 komentar

Komentar Hacker News