ChatGPT Images 2.0 Diluncurkan

(openai.com)

6 poin oleh GN⁺ 2026-04-22 | 4 komentar | Bagikan ke WhatsApp

OpenAI meluncurkan versi generasi berikutnya dari model pembuat gambar, dan alih-alih menuliskannya langsung dalam teks pada artikel perkenalan, mereka memperkenalkannya hanya lewat teks yang dimasukkan ke dalam gambar yang dibuat dengan Images 2.0
Berfokus pada pembuatan hasil siap pakai yang mencakup tugas visual kompleks dan rendering teks presisi tinggi
Sebagai model gambar pertama dengan kemampuan berpikir (thinking), model ini dapat melakukan pencarian web, membuat beberapa gambar secara bersamaan, dan memverifikasi hasil keluarannya sendiri
Performa rendering karakter non-Latin meningkat signifikan, termasuk untuk bahasa Jepang, Korea, Mandarin, Hindi, dan Bengali, sehingga praktis untuk produksi desain multibahasa
Dengan dukungan rasio aspek yang fleksibel dari 3:1 hingga 1:3, model ini dapat langsung menyesuaikan berbagai format seperti banner, poster, dan layar mobile
Mengusung pergeseran dari alat rendering menjadi sistem desain strategis, dan tersedia di ChatGPT, Codex, serta API

Era baru pembuatan gambar

Gambar didefinisikan bukan sekadar dekorasi, melainkan sebuah bahasa, yang berperan dalam menjelaskan mekanisme, membangun suasana, memvalidasi ide, dan menyampaikan argumen
Setelah ChatGPT Images yang dirilis setahun lalu membuktikan bahwa gambar AI bisa indah sekaligus berguna, Images 2.0 hadir sebagai model generasi berikutnya yang menangani tugas visual kompleks dengan presisi
Mengikuti instruksi detail dengan setia, dengan lompatan besar dalam penempatan objek yang akurat, ekspresi hubungan antarobjek, dan rendering teks padat
Komposisi dan sensibilitas visualnya sangat baik sehingga hasilnya terasa seperti desain yang disengaja, bukan gambar buatan AI
Bekerja akurat dalam berbagai bahasa, dan dengan memanfaatkan pengetahuan visual serta pengetahuan dunia yang lebih luas, model ini mampu menghasilkan gambar yang lebih cerdas bahkan dengan prompt yang lebih sedikit
Model ini menggabungkan kecerdasan model penalaran OpenAI dan pemahaman dunia visual, mengubah pembuatan gambar dari sekadar rendering menjadi desain strategis, dan dari alat menjadi sistem visual
Mulai hari ini tersedia untuk seluruh pengguna ChatGPT, Codex, dan API

Presisi dan kontrol yang lebih tinggi

Images 2.0 menghadirkan tingkat spesifisitas dan fidelitas yang belum pernah ada sebelumnya dalam pembuatan gambar
Bukan hanya mampu membayangkan gambar yang lebih canggih, tetapi juga mewujudkannya secara efektif, dengan kekuatan pada kepatuhan terhadap instruksi, pelestarian detail permintaan, dan rendering elemen halus
Menangani teks kecil, ikon, elemen UI, komposisi padat, dan batasan gaya yang subtil yang sulit ditangani model gambar sebelumnya, hingga resolusi 2K
Menghasilkan output yang benar-benar siap langsung digunakan, bukan sekadar “gambar yang kira-kira mirip”

Dukungan teks multibahasa yang ditingkatkan

Model sebelumnya menunjukkan performa yang konsisten dalam bahasa Inggris dan bahasa beraksara Latin, tetapi lemah dalam menangani karakter non-Latin pada teks yang kompleks atau padat
Images 2.0 membawa peningkatan pemahaman multibahasa dan terutama peningkatan besar dalam rendering teks non-Latin untuk bahasa Jepang, Korea, Mandarin, Hindi, dan Bengali
Bukan hanya mampu merender teks non-Inggris secara akurat, tetapi juga menghasilkan output yang mengalir alami secara linguistik
Melampaui sekadar menerjemahkan label, model ini menjaga konsistensi visual pada poster, materi penjelasan, diagram, dan komik di mana bahasa merupakan bagian dari desain
Pengguna dapat membuat visual dalam bahasa yang benar-benar mereka gunakan, sehingga meningkatkan kegunaan secara global

Kehalusan gaya dan realisme

Images 2.0 menunjukkan peningkatan besar dalam fidelitas di berbagai gaya visual
Konsistensi pada tekstur, pencahayaan, komposisi, dan detail meningkat dalam berbagai bahasa visual unik seperti ciri khas foto, termasuk cacat halus yang menambah realisme, still film, pixel art, dan komik
Menghasilkan output yang merefleksikan gaya yang diminta dengan setia, bukan sekadar mendekatinya
Sangat berguna khususnya untuk prototyping game, storyboard, materi kreatif pemasaran, serta pembuatan aset untuk medium atau genre tertentu

Dukungan rasio aspek yang fleksibel

Mendukung rentang rasio aspek yang luas, dari 3:1 (landscape) hingga 1:3 (portrait)
Dapat langsung menghasilkan output yang sesuai dengan format yang dibutuhkan seperti banner lebar, slide presentasi, poster, layar mobile, bookmark, dan grafik media sosial
Rasio aspek yang diinginkan dapat ditentukan dalam prompt, atau dipilih dari opsi preset untuk dibuat ulang dalam ukuran baru

Kecerdasan dunia nyata

Images 2.0 mencerminkan pemahaman dunia yang lebih mutakhir dalam pembuatan gambar, dengan knowledge cutoff yang diperbarui ke Desember 2025
Menguntungkan untuk output di mana akurasi dan kejelasan sama pentingnya dengan unsur estetika, seperti materi penjelasan, peta, grafik edukasi, dan ringkasan visual
Dengan kecerdasan yang ditingkatkan, model ini mampu melakukan pekerjaan end-to-end mulai dari sintesis informasi, penulisan copy, hingga visualisasi
- Memiliki sensibilitas desain yang rapi dan terstruktur dengan mempertimbangkan penempatan ruang kosong, keterbacaan, dan alur

Mitra berpikir visual

Saat memilih model thinking atau pro, model akan meluangkan lebih banyak waktu untuk memahami dan menjalankan tugas secara agentic
Model dapat mencari informasi terkait di web, mengubah materi yang diunggah menjadi bahan penjelasan visual yang jelas, dan menalar struktur gambar sebelum pembuatan
Dalam mode ini, Images 2.0 berfungsi sebagai mitra berpikir visual, sangat mengurangi beban kerja pengguna dari konsep draf hingga aset final
Dalam mode thinking, model dapat membuat beberapa gambar berbeda sekaligus dalam satu kali proses — fitur pertama untuk pembuatan gambar di ChatGPT
- Mendukung workflow seperti rangkaian halaman komik, arah redesign satu rumah penuh, keluarga konsep poster, atau set grafik media sosial dengan berbagai rasio aspek dan bahasa
Alih-alih mem-prompt gambar satu per satu dan merangkainya sendiri, pengguna dapat meminta hingga 10 hasil yang konsisten dengan kontinuitas karakter dan objek sekaligus
- Setiap hasil dibangun secara berurutan berdasarkan hasil sebelumnya

4 komentar

j2sus91 2026-04-22

Penalaran dimasukkan ke dalam gambar, jadi hasilnya benar-benar gila.

Saya cuma melemparkan keyword sederhana terkait bisnis baru,
namun ia sampai menalar pesan inti/pain point lalu meleburkannya ke landing page.

Bahkan mengambil mentah-mentah warna brand, tone pesan brand, sampai model dari situs yang sebelumnya diminta sebagai referensi itu sudah jadi hal dasar.
Melihat bahasa Korea pun sama sekali tidak rusak, sepertinya ke depan potensi pemanfaatannya bakal luar biasa besar..

Sekarang perkembangan AI benar-benar mulai terasa makin menakutkan.

kirinonakar 2026-04-22

Luar biasa. Saat Nanobanana keluar pun saya sudah terkejut, tapi ini jadi lebih bagus lagi. Sepertinya karena ada persaingan, perkembangannya jadi cepat.

xguru 2026-04-22

Oh.. pemrosesan teks sebelumnya terasa seperti Nano Banana, tapi kali ini sepertinya mereka benar-benar serius.
Semua teks dalam tulisan pengenalan dibuat menjadi gambar.
Seluruh tulisannya bisa dilihat sambil menggulir gambar.
Tulisan tangan di tengah cukup mengesankan

GN⁺ 2026-04-22

Komentar Hacker News

Saya menguji model baru ini seperti ini. Dengan gpt-image-2 saya membuat "gambar bergaya Where's Waldo yang menampilkan rakun memegang radio ham", dan kodenya ada di sini. Hasilnya adalah gambar ini, tetapi saya sendiri tidak yakin apakah rakun itu benar-benar sedang memegang radio ham. Memang untuk tes ala Where's Waldo seperti ini, saya biasanya tidak punya kesabaran untuk terus mencarinya sampai ketemu
- Saya menjalankannya lagi dengan perintah yang memakai resolusi maksimum, dan hasilnya jauh lebih baik. Saya mengacu pada ukuran yang direkomendasikan di OpenAI cookbook (tautan), dan hasilnya ada di sini. Kali ini saya berhasil menemukan raccoon-nya, dan sepertinya satu gambar menghabiskan sekitar 40 sen
- Saya berterima kasih untuk gambar itu, tetapi wajah orang-orangnya terlalu aneh sampai terasa seperti bisa muncul di mimpi buruk
- Menurut saya prompt ini memang tugas yang sangat kejam dan sulit untuk model keluarga diffusion saat ini. Justru karena itu, usahanya sendiri terasa mengesankan
- Saat membaca kalimat "tidak punya kesabaran untuk mencari sampai habis", saya merasa ini malah bisa dijadikan benchmark AI baru
- Saya merasa jenis tugas seperti ini tampak seperti area di mana AI akan terus lemah dalam detail struktural. Dari jauh terlihat meyakinkan, tetapi dari dekat terlalu banyak kesalahan seperti wajah yang tampak sedang menjerit, papan petunjuk yang menunjuk ke dua arah sekaligus, tenda darurat yang tidak ada, dan anjing yang tampak seperti monster. Sampel promosinya juga mirip, dan contoh seperti anatomi atau tabel periodik pun runtuh saat dilihat detailnya. Pada akhirnya saya jadi skeptis, apakah kita hanya menghabiskan RAM & GPUs, air, dan listrik dalam jumlah besar untuk membuat versi Where's Waldo yang lebih jelek
Saat bereksperimen dengan Nano Banana Pro, saya membuat prompt yang sangat menarik untuk menguji kemampuan model gambar dalam mematuhi aturan. Kira-kira begini: "susun Pokémon dengan nomor National Pokédex yang merupakan 64 bilangan prima pertama dalam grid 8x8, lalu gambarkan dengan gaya 8-bit, charcoal, dan Ukiyo-e sesuai banyak digit nomornya". Hasil NBP ada di sini, dan nomor, Pokémon, serta gayanya secara umum benar, meski ada kritik bahwa penerapan gayanya malas dan gambarnya bisa terlihat seperti plagiat. Hasil prompt yang sama di gpt-2-image high ada di sini; model ini menghasilkan gaya yang lebih kreatif dan tampak lebih orisinal, tetapi logika gayanya diterapkan per baris, bukan berdasarkan angka, beberapa Pokémon salah, font-nya juga salah, dan bagian bawahnya pun tidak berbentuk persegi. Hasil yang cukup aneh
- Saya merasa tes ini benar-benar luar biasa, dan sekaligus agak lucu melihat gpt-2-image bisa seburuk ini. Sampai-sampai saya merasa gambar plagiarized yang sekadar hasil cari lalu salin-tempel mungkin malah lebih baik. Setidaknya juga tidak terlihat ada sanity check atau tahap pascaproses untuk memeriksa apakah "instruksinya benar-benar diikuti", padahal pelanggaran aturan gaya per digit seharusnya mudah dideteksi. Ditambah lagi harganya mahal, jadi makin disayangkan kalau hasilnya praktis tidak bisa dipakai
- Saya justru penasaran mengapa prompt ini dianggap sebagai prompt yang bagus
Saya merangkum bahwa jika membuat gambar 4096x4096 dengan gemini-3.1-flash-image-preview, biayanya 2.520 token, sekitar $0.151 per gambar, sedangkan dengan gpt-image-2 untuk gambar 3840x2160 biayanya 13.342 token, sekitar $0.4. Jadi model ini lebih dari 2x lebih mahal daripada Gemini
- Menurut saya perbandingan ini apples to oranges. Ini seperti membandingkan versi flash dengan versi penuh secara langsung, dan untuk detail halus model ini terasa sekitar 5x lebih baik daripada flash
Saya punya hard prompt yang selalu dipakai saat menguji model generasi gambar. Caranya adalah memasukkan sekaligus syarat seperti tangan tukang jam tua, jam saku vintage, air dangkal, refraksi dan caustics, tetesan air yang jatuh, wajah terdistorsi yang terpantul di permukaan kaca, dan lensa makro 100mm. Gambar hasilnya saya unggah ke Google Drive, dan saya sudah menjalankannya beberapa kali baik di web maupun API, tetapi secara keseluruhan hasilnya tidak sebaik Nano Banana
- Saya penasaran mengapa ini dianggap sebagai prompt yang bagus
- Saya mencoba melihat gambar yang dibagikan, tetapi tampaknya host-nya terkena rate limit, jadi saya ingin memberi tahu
- Saya memastikan bahwa tautan-tautannya terlihat rusak
Menurut saya gpt-image-1.5 dari OpenAI dan NB2 dari Google cukup berimbang di situs perbandingan saya. Dalam evaluasi yang berfokus pada kepatuhan prompt, keduanya menunjukkan tingkat keberhasilan sekitar 70% untuk kriteria generasi dan penyuntingan, sementara kualitas visual selalu sedikit lebih unggul di pihak Gemini. Meski begitu, gpt-image-1.5 adalah lompatan besar untuk OpenAI dan menghilangkan banyak masalah lama seperti yang dulu disebut "piss filter". Grafik perbandingannya bisa dilihat untuk edit di sini dan generasi di sini. Berdasarkan pembaruan, gpt-image-2 berhasil melewati bintang 9 sudut yang selama ini disebut model killer dalam set tes, dan pada benchmark text-to-image berhasil menjawab 12 dari 15 prompt dengan benar, unggul 1 poin dari model terbaik sebelumnya. Namun, prompt coral snake dengan urutan warna yang ketat, D20 dengan 20 bilangan prima pertama tertulis di tiap sisi, dan planet berbentuk bumi datar dengan manusia meluber ke tepi masih tetap gagal. Perbandingan lengkap ada di All Models, dan jika hanya model utama, ada di sini
Saya merangkum perbandingan harga. GPT Image 2 untuk Low adalah $0.006 pada 1024x1024, lalu $0.005 untuk 1024x1536 dan 1536x1024; Medium masing-masing $0.053, $0.041, $0.041; High masing-masing $0.211, $0.165, $0.165. Sementara GPT Image 1 untuk Low adalah $0.011, $0.016, $0.016; Medium $0.042, $0.063, $0.063; dan High $0.167, $0.25, $0.25
- Saya merasa batasan resolusi yang sebesar ini agak aneh. Saya penasaran, kalau dibuat lebih besar apakah detail-nya runtuh saat diperbesar, atau hanya karena biayanya melonjak tajam
- Saya merasa menarik bahwa pada v2 output besar lebih mahal daripada persegi kecil, sementara pada v1 justru sebaliknya. Saya penasaran mengapa struktur harga seperti itu muncul
Saya memastikan bahwa kali ini model tersebut lolos tes tuts piano. Contoh yang berhasil ada di sini, walau pelabelan middle C salah pada percobaan ini. Namun setelah diminta lagi, model itu berhasil memperbaikinya
- Saat NB 2 keluar, saya menaikkan tingkat kesulitan tes ini. Saya membalik warna semua accidentals dan naturals, dan model itu tetap menjawab sempurna; contohnya ada di sini
Saya merasa peningkatan dalam rendering teks bahasa Mandarin benar-benar menonjol dan mengesankan. Meski begitu, pada gambar sampel Wuxi masih ada salah ketik; misalnya karakter 笼 dalam 小笼包 ditulis salah. Di bagian "极小中文也清晰可读" juga masih ada beberapa salah ketik lagi, tetapi tidak terlalu mengganggu untuk dibaca. Meski begitu, tetap jelas terasa bahwa model ini jauh lebih baik daripada model generasi gambar sebelumnya
- Saya penasaran apakah ini bahkan lebih baik daripada model Tiongkok lokal. Karena data latihnya pasti jauh lebih banyak memuat contoh bahasa Mandarin, saya kira biasanya model-model itu akan lebih fokus pada aspek ini
Saya rasa sekarang adalah saat yang tepat untuk membicarakan C2PA. Ini adalah standar yang secara aktif membuktikan asal-usul gambar, dan OpenAI juga ikut serta. Jika saya memasukkan gambar buatan AI ke C2PA Viewer, asalnya ditampilkan sebagai ChatGPT. Tentu saja, pengguna berniat jahat bisa menghapus metadata agar gambar terlihat seperti gambar biasa, tetapi dalam jangka panjang saya pikir gambar tanpa penanda asal seharusnya diperlakukan sebagai sinyal risiko, seperti non-https. Detail lebih lanjut bisa dilihat di c2pa.org
- Saya merasa sulit melihat masalah ini semata-mata sebagai tindakan bad actors. Sebagian besar platform seperti Instagram dan Facebook menghapus metadata secara default demi privasi, dan EXIF bisa berisi informasi seperti lokasi, nama file, waktu pembuatan, dan info perangkat. Jadi saat ini, dibanding manipulasi jahat, masalah praktis yang lebih besar bagi pelestarian C2PA justru tampaknya adalah struktur di mana mayoritas situs melakukan penghapusan metadata saat gambar diunggah
- Saya ingin menambahkan bahwa OpenAI sejak awal sudah menyematkan C2PA manifests pada gambar yang dihasilkan. Dan berdasarkan evaluasi kecil yang saya lakukan, detektor gambar AI berbasis ML terbaru seperti OmniAID cukup baik dalam mendeteksi gambar yang dibuat oleh GPT-Image-2. Makalah terkait ada di sini, dan saya sendiri membuat detektor gambar AI on-device dengan menggabungkan keduanya
Saya sudah memakai model ini selama beberapa jam, dan sejujurnya saya cukup terkesan. Ini pertama kalinya saya merasa model gambar benar-benar membantu pekerjaan saya, terutama terasa sangat kuat untuk membuat slide PowerPoint dan mockup