GPT Images 1.5 Dirilis
(openai.com)- Fitur pembuatan gambar ChatGPT kini ditingkatkan, menawarkan pengeditan yang lebih presisi dan kecepatan generasi yang lebih tinggi
- Model GPT‑Image‑1.5 mengikuti instruksi teks dengan lebih akurat, serta dapat mengedit sambil mempertahankan kemiripan sosok, pencahayaan, dan komposisi
- Melalui antarmuka sidebar Images yang baru, tersedia preset style, prompt yang sedang tren, dan fitur penggunaan ulang tampilan
- Di API, peningkatan performa yang sama juga tersedia dengan biaya 20% lebih rendah, cocok untuk pembuatan logo merek dan gambar produk
- Pembaruan ini langsung digulirkan ke semua pengguna ChatGPT dan API, sehingga sangat meningkatkan kegunaan dan kualitas pembuatan gambar
Pengantar GPT‑Image‑1.5
- Versi baru ChatGPT Images dirilis dengan basis model pembuatan gambar paling kuat
- Mengikuti instruksi teks dengan lebih akurat, serta memungkinkan pengeditan sambil mempertahankan detail seperti kemiripan wajah
- Kecepatan pembuatan gambar menjadi hingga 4 kali lebih cepat, meningkatkan efisiensi eksperimen berulang dan eksplorasi ide
- Model ini menawarkan transformasi yang ekspresif, rendering teks yang padat, dan hasil yang natural
- Mendukung mulai dari edit kecil hingga rekonstruksi penuh, dan memungkinkan pembuatan mudah dengan memilih preset style
- Sedang digulirkan bertahap untuk semua pengguna ChatGPT, dan tersedia di API sebagai GPT‑Image‑1.5
Hasil yang sesuai dengan maksud pengguna
- Model hanya mengubah bagian yang diminta sambil menjaga pencahayaan, komposisi, dan kemiripan sosok tetap konsisten
- Hal ini memungkinkan tingkat kecocokan tinggi untuk edit foto, simulasi pakaian dan gaya rambut, style filter, serta transformasi konsep
- ChatGPT dapat berfungsi seperti studio kreatif portabel, menangani baik pengeditan praktis maupun rekonstruksi artistik
- Mendukung berbagai jenis edit seperti penambahan, penghapusan, penggabungan, dan pencampuran
- Memperkuat fitur transformasi kreatif untuk menambahkan elemen seperti teks dan layout
- Dibanding GPT Image 1.0, pemahaman terhadap instruksi meningkat, sehingga pengeditan lebih rinci dimungkinkan
- Kualitas rendering teks kecil dan padat juga ditingkatkan
Ruang pembuatan gambar baru
- Sidebar khusus Images di dalam ChatGPT diperkenalkan untuk mempersingkat proses eksplorasi dan pembuatan gambar
- Termasuk filter preset, prompt yang sedang tren, dan fitur penggunaan ulang tampilan
- Gambar dapat digunakan berulang setelah satu kali unggah tanpa perlu memakai kembali camera roll
- Kecepatan pembuatan gambar meningkat hingga 4 kali, dan beberapa gambar dapat dibuat sekaligus
- Dari edit kecil hingga rekonstruksi penuh, hasil yang diberikan selaras dengan visi pengguna
Peningkatan kualitas tambahan
- Peningkatan kualitas yang siap dipakai langsung, seperti representasi banyak wajah kecil dan rendering hasil yang natural
- Contoh: adegan jalanan London era 1970-an direproduksi secara realistis, dengan fokus detail dan representasi sosok yang ditingkatkan
Peningkatan dan batasan
- Dibanding versi awal, terlihat peningkatan performa yang jelas pada beragam kasus
- Namun beberapa hasil masih belum sempurna, dan pemrosesan banyak wajah serta multibahasa masih memiliki ruang untuk perbaikan
Ketersediaan API GPT Image 1.5
- Versi API mencakup peningkatan yang sama seperti ChatGPT Images
- Menjaga konsistensi logo merek dan visual utama
- Cocok untuk pembuatan gambar untuk pemasaran dan e-commerce
- Biaya input/output turun 20%, sehingga lebih banyak gambar dapat dibuat dengan anggaran yang sama
- Dapat dicoba di OpenAI Playground, galeri, dan panduan prompt
- Perusahaan seperti Wix, Canva, Figma, dan Envato sudah memanfaatkannya
- Wix menilai bahwa “pembuatan gambar berkualitas tinggi dengan konsistensi tinggi mendukung workflow produksi yang cepat”
Rilis dan distribusi
- Model ChatGPT Images yang baru langsung digulirkan ke semua pengguna ChatGPT dan API di seluruh dunia
- Dapat digunakan tanpa memilih model terpisah, sementara versi sebelumnya tetap dipertahankan dalam bentuk custom GPT
- OpenAI menilai pembaruan ini sebagai tahap penting dalam kemajuan teknologi pembuatan gambar
- Ke depan, peningkatan tambahan seperti pengeditan yang lebih detail dan dukungan multibahasa akan hadir
1 komentar
Komentar Hacker News
Membagikan hasil gpt-image 1.5 di situs GenAI Showdown
OpenAI masih kuat dalam pemahaman prompt, tetapi dulu agak lemah dalam fidelity gambar. Pada pembaruan kali ini, kelemahan itu tampak banyak membaik
Terutama, model ini mampu melakukan localized edit dengan baik tanpa merusak estetika keseluruhan
Skornya naik dua kali lipat dari 4/12 menjadi 8/12, dan ini satu-satunya model yang lolos ‘Giraffe prompt’
Steerability modelnya juga tinggi, di kisaran 90%
Fitur baru yang ditambahkan mencakup bagian outtakes untuk tiap model, penambahan model REVE dan Flux.2 Dev, serta sistem penilaian berbasis bobot
Untuk membandingkan tiga model (gpt-image-1, gpt-image-1.5, NB Pro), lihat tautan ini
Sedang menyiapkan tulisan blog yang merangkum eksperimen terkait Nano Banana
Setelah menguji model Image baru dari ChatGPT, hasilnya jauh di bawah Nano Banana Pro, tetapi lebih baik daripada Nano Banana versi dasar
Harganya belum jelas, tetapi gpt-image-1.5 tampaknya sekitar 20% lebih murah dibanding model sebelumnya
Hal yang menarik adalah kasus grid generation. NBP kehilangan konsistensi prompt di atas 4x4, jadi cukup mengesankan bahwa OpenAI mencoba contoh 6x6
Sementara itu, hasil mengesankan dari NB Pro bisa dilihat di blog ini
NB Pro menghasilkan hal-hal yang mengejutkan seperti merakit jigsaw puzzle yang belum pernah dilihat, memperkirakan medan 3D, dan mengubah jendela menjadi cermin
Misalnya, saat diminta dua orang yang sedang mendayung, perahunya terlalu kecil hingga mereka nyaris tidak muat
Selain itu, sangat mengganggu ada bug yang membuat percakapan sebelumnya hilang setiap kali saya memberi prompt revisi
Untuk hasil yang natural, saya menambahkan frasa seperti “shaky amateur smartphone photo” di awal prompt
Sebagai referensi, tanggapan terkait juga bisa dilihat di tweet ini
gpt-image-1 jauh lebih unggul daripada Nano Banana(Pro) dalam fungsi previz-to-render
Nano Banana mempertahankan elemen previz beresolusi rendah apa adanya, sedangkan gpt-image-1 memahami pose karakter dan blocking adegan lalu sekaligus melakukan upscale
Contoh video: 3D + Posing + Blocking, versi daur ulang set, Gaussian splats, contoh tambahan
Ke depan, dibutuhkan model yang mampu memberi kontrol gaya, kecepatan, dan styling berbasis gambar referensi
Adobe juga sedang bereksperimen dengan fungsi serupa, dan mendemonstrasikan Relighting, pengeditan Image→3D, pengeditan Gaussian, konversi 3D→Image, dan lainnya
Saya sendiri sedang mengimplementasikan fitur-fitur ini sebagai alat desktop open-source dan mengembangkannya dengan Rust
Jika ini adalah layanan tahun 2010 di mana staf Photoshop menggabungkan gambar untuk Anda, rasanya akan menimbulkan kontroversi besar
Sekarang kita hidup di era ketika AI meruntuhkan konsep hak cipta dan kepengarangan, jadi saya penasaran bagaimana konten baru bisa dilindungi
Pernah ada kasus ketika gpt mereproduksi hampir persis foto bergaya langka yang dulu saya ambil
Begitu dipublikasikan, kita harus menerima adanya tingkat penyalahgunaan tertentu. Jika model mengalami overfitting pada karya asli, masih belum ada preseden hukum
Saya mencoba membuat sprite map dan UV texture map dengan gpt-image-1.5, dan nuansa Megaman Legends-nya terasa kuat
Contoh1, Contoh2
Namun, karena tidak ada model 3D aslinya, saya tidak yakin apakah itu benar-benar UV map yang akurat. Versi awal Nano Banana tidak bisa melakukan pekerjaan seperti ini
Tekstur seperti ini masih bisa dipakai, tetapi distorsinya akan parah
Pendekatan yang benar adalah meng-unwrap model lalu menggunakan wireframe UV map sebagai input
Model Crash yang sebenarnya bisa dilihat di sini
Ada eksperimen menerapkan dark theme pada produk perangkat lunak
Gemini/Nano hanya mengubah beberapa panel menjadi abu-abu, tetapi GPT memberi tema pada seluruh aplikasi dengan sangat baik
Meski begitu, detail desain tetap membutuhkan sentuhan desainer
Saya penasaran mengapa gambar ChatGPT selalu punya nuansa kuning
Pitch produk “membuat gambar dari kenangan yang tidak pernah ada” terasa aneh
Saya pribadi terutama memakainya untuk pekerjaan berbasis teks seperti pemrograman, wiki, dan matematika
Fenomena ini mirip dengan masa ketika filter Snapchat sedang populer. Saya sendiri cenderung membiarkannya dalam mode dasar
Pada akhirnya semua orang bisa saja berlangganan kehidupan virtual, lalu kembali ke realitas saat pembayaran kartu gagal
Karena model baru ini dikatakan berjalan di API, saya memperbarui grail SDK Golang saya,
tetapi saat dipanggil muncul error server 500. gpt-image-1.5 juga tidak ada di daftar model
Lihat contoh kode
Di playground lokal saya (gpt-image-1-playground), saya sudah memodifikasi penanganan 404
Jika nama model dimasukkan salah, muncul pesan bahwa ‘nilai yang didukung hanya gpt-image-1 dan gpt-image-1-mini’
Saya masih memakai Midjourney. Model besar lain masih kurang dalam kreativitas gaya dan terlalu fokus pada fotorealisme
Untuk membuat sequence yang punya konteks, bukan hanya satu gambar tunggal, fitur seperti ini wajib ada
Ada kecenderungan menilai nilai seni hanya dari ‘kemampuan rendering’, dan itu mengabaikan makna penciptaan budaya dalam konteks sosialnya