ChatGPT Images 2.0 Diluncurkan
(openai.com)- OpenAI meluncurkan versi generasi berikutnya dari model pembuat gambar, dan alih-alih menuliskannya langsung dalam teks pada artikel perkenalan, mereka memperkenalkannya hanya lewat teks yang dimasukkan ke dalam gambar yang dibuat dengan Images 2.0
- Berfokus pada pembuatan hasil siap pakai yang mencakup tugas visual kompleks dan rendering teks presisi tinggi
- Sebagai model gambar pertama dengan kemampuan berpikir (thinking), model ini dapat melakukan pencarian web, membuat beberapa gambar secara bersamaan, dan memverifikasi hasil keluarannya sendiri
- Performa rendering karakter non-Latin meningkat signifikan, termasuk untuk bahasa Jepang, Korea, Mandarin, Hindi, dan Bengali, sehingga praktis untuk produksi desain multibahasa
- Dengan dukungan rasio aspek yang fleksibel dari 3:1 hingga 1:3, model ini dapat langsung menyesuaikan berbagai format seperti banner, poster, dan layar mobile
- Mengusung pergeseran dari alat rendering menjadi sistem desain strategis, dan tersedia di ChatGPT, Codex, serta API
Era baru pembuatan gambar
- Gambar didefinisikan bukan sekadar dekorasi, melainkan sebuah bahasa, yang berperan dalam menjelaskan mekanisme, membangun suasana, memvalidasi ide, dan menyampaikan argumen
- Setelah ChatGPT Images yang dirilis setahun lalu membuktikan bahwa gambar AI bisa indah sekaligus berguna, Images 2.0 hadir sebagai model generasi berikutnya yang menangani tugas visual kompleks dengan presisi
- Mengikuti instruksi detail dengan setia, dengan lompatan besar dalam penempatan objek yang akurat, ekspresi hubungan antarobjek, dan rendering teks padat
- Komposisi dan sensibilitas visualnya sangat baik sehingga hasilnya terasa seperti desain yang disengaja, bukan gambar buatan AI
- Bekerja akurat dalam berbagai bahasa, dan dengan memanfaatkan pengetahuan visual serta pengetahuan dunia yang lebih luas, model ini mampu menghasilkan gambar yang lebih cerdas bahkan dengan prompt yang lebih sedikit
- Model ini menggabungkan kecerdasan model penalaran OpenAI dan pemahaman dunia visual, mengubah pembuatan gambar dari sekadar rendering menjadi desain strategis, dan dari alat menjadi sistem visual
- Mulai hari ini tersedia untuk seluruh pengguna ChatGPT, Codex, dan API
Presisi dan kontrol yang lebih tinggi
- Images 2.0 menghadirkan tingkat spesifisitas dan fidelitas yang belum pernah ada sebelumnya dalam pembuatan gambar
- Bukan hanya mampu membayangkan gambar yang lebih canggih, tetapi juga mewujudkannya secara efektif, dengan kekuatan pada kepatuhan terhadap instruksi, pelestarian detail permintaan, dan rendering elemen halus
- Menangani teks kecil, ikon, elemen UI, komposisi padat, dan batasan gaya yang subtil yang sulit ditangani model gambar sebelumnya, hingga resolusi 2K
- Menghasilkan output yang benar-benar siap langsung digunakan, bukan sekadar “gambar yang kira-kira mirip”
Dukungan teks multibahasa yang ditingkatkan
- Model sebelumnya menunjukkan performa yang konsisten dalam bahasa Inggris dan bahasa beraksara Latin, tetapi lemah dalam menangani karakter non-Latin pada teks yang kompleks atau padat
- Images 2.0 membawa peningkatan pemahaman multibahasa dan terutama peningkatan besar dalam rendering teks non-Latin untuk bahasa Jepang, Korea, Mandarin, Hindi, dan Bengali
- Bukan hanya mampu merender teks non-Inggris secara akurat, tetapi juga menghasilkan output yang mengalir alami secara linguistik
- Melampaui sekadar menerjemahkan label, model ini menjaga konsistensi visual pada poster, materi penjelasan, diagram, dan komik di mana bahasa merupakan bagian dari desain
- Pengguna dapat membuat visual dalam bahasa yang benar-benar mereka gunakan, sehingga meningkatkan kegunaan secara global
Kehalusan gaya dan realisme
- Images 2.0 menunjukkan peningkatan besar dalam fidelitas di berbagai gaya visual
- Konsistensi pada tekstur, pencahayaan, komposisi, dan detail meningkat dalam berbagai bahasa visual unik seperti ciri khas foto, termasuk cacat halus yang menambah realisme, still film, pixel art, dan komik
- Menghasilkan output yang merefleksikan gaya yang diminta dengan setia, bukan sekadar mendekatinya
- Sangat berguna khususnya untuk prototyping game, storyboard, materi kreatif pemasaran, serta pembuatan aset untuk medium atau genre tertentu
Dukungan rasio aspek yang fleksibel
- Mendukung rentang rasio aspek yang luas, dari 3:1 (landscape) hingga 1:3 (portrait)
- Dapat langsung menghasilkan output yang sesuai dengan format yang dibutuhkan seperti banner lebar, slide presentasi, poster, layar mobile, bookmark, dan grafik media sosial
- Rasio aspek yang diinginkan dapat ditentukan dalam prompt, atau dipilih dari opsi preset untuk dibuat ulang dalam ukuran baru
Kecerdasan dunia nyata
- Images 2.0 mencerminkan pemahaman dunia yang lebih mutakhir dalam pembuatan gambar, dengan knowledge cutoff yang diperbarui ke Desember 2025
- Menguntungkan untuk output di mana akurasi dan kejelasan sama pentingnya dengan unsur estetika, seperti materi penjelasan, peta, grafik edukasi, dan ringkasan visual
- Dengan kecerdasan yang ditingkatkan, model ini mampu melakukan pekerjaan end-to-end mulai dari sintesis informasi, penulisan copy, hingga visualisasi
- Memiliki sensibilitas desain yang rapi dan terstruktur dengan mempertimbangkan penempatan ruang kosong, keterbacaan, dan alur
Mitra berpikir visual
- Saat memilih model thinking atau pro, model akan meluangkan lebih banyak waktu untuk memahami dan menjalankan tugas secara agentic
- Model dapat mencari informasi terkait di web, mengubah materi yang diunggah menjadi bahan penjelasan visual yang jelas, dan menalar struktur gambar sebelum pembuatan
- Dalam mode ini, Images 2.0 berfungsi sebagai mitra berpikir visual, sangat mengurangi beban kerja pengguna dari konsep draf hingga aset final
- Dalam mode thinking, model dapat membuat beberapa gambar berbeda sekaligus dalam satu kali proses — fitur pertama untuk pembuatan gambar di ChatGPT
- Mendukung workflow seperti rangkaian halaman komik, arah redesign satu rumah penuh, keluarga konsep poster, atau set grafik media sosial dengan berbagai rasio aspek dan bahasa
- Alih-alih mem-prompt gambar satu per satu dan merangkainya sendiri, pengguna dapat meminta hingga 10 hasil yang konsisten dengan kontinuitas karakter dan objek sekaligus
- Setiap hasil dibangun secara berurutan berdasarkan hasil sebelumnya
4 komentar
Penalaran dimasukkan ke dalam gambar, jadi hasilnya benar-benar gila.
Saya cuma melemparkan keyword sederhana terkait bisnis baru,
namun ia sampai menalar pesan inti/pain point lalu meleburkannya ke landing page.
Bahkan mengambil mentah-mentah warna brand, tone pesan brand, sampai model dari situs yang sebelumnya diminta sebagai referensi itu sudah jadi hal dasar.
Melihat bahasa Korea pun sama sekali tidak rusak, sepertinya ke depan potensi pemanfaatannya bakal luar biasa besar..
Sekarang perkembangan AI benar-benar mulai terasa makin menakutkan.
Luar biasa. Saat Nanobanana keluar pun saya sudah terkejut, tapi ini jadi lebih bagus lagi. Sepertinya karena ada persaingan, perkembangannya jadi cepat.
Oh.. pemrosesan teks sebelumnya terasa seperti Nano Banana, tapi kali ini sepertinya mereka benar-benar serius.
Semua teks dalam tulisan pengenalan dibuat menjadi gambar.
Seluruh tulisannya bisa dilihat sambil menggulir gambar.
Tulisan tangan di tengah cukup mengesankan
Komentar Hacker News
gpt-image-2saya membuat "gambar bergaya Where's Waldo yang menampilkan rakun memegang radio ham", dan kodenya ada di sini. Hasilnya adalah gambar ini, tetapi saya sendiri tidak yakin apakah rakun itu benar-benar sedang memegang radio ham. Memang untuk tes ala Where's Waldo seperti ini, saya biasanya tidak punya kesabaran untuk terus mencarinya sampai ketemugpt-2-image highada di sini; model ini menghasilkan gaya yang lebih kreatif dan tampak lebih orisinal, tetapi logika gayanya diterapkan per baris, bukan berdasarkan angka, beberapa Pokémon salah, font-nya juga salah, dan bagian bawahnya pun tidak berbentuk persegi. Hasil yang cukup anehgemini-3.1-flash-image-preview, biayanya 2.520 token, sekitar $0.151 per gambar, sedangkan dengangpt-image-2untuk gambar 3840x2160 biayanya 13.342 token, sekitar $0.4. Jadi model ini lebih dari 2x lebih mahal daripada Geminigpt-image-1.5dari OpenAI dan NB2 dari Google cukup berimbang di situs perbandingan saya. Dalam evaluasi yang berfokus pada kepatuhan prompt, keduanya menunjukkan tingkat keberhasilan sekitar 70% untuk kriteria generasi dan penyuntingan, sementara kualitas visual selalu sedikit lebih unggul di pihak Gemini. Meski begitu,gpt-image-1.5adalah lompatan besar untuk OpenAI dan menghilangkan banyak masalah lama seperti yang dulu disebut "piss filter". Grafik perbandingannya bisa dilihat untuk edit di sini dan generasi di sini. Berdasarkan pembaruan,gpt-image-2berhasil melewati bintang 9 sudut yang selama ini disebut model killer dalam set tes, dan pada benchmark text-to-image berhasil menjawab 12 dari 15 prompt dengan benar, unggul 1 poin dari model terbaik sebelumnya. Namun, prompt coral snake dengan urutan warna yang ketat, D20 dengan 20 bilangan prima pertama tertulis di tiap sisi, dan planet berbentuk bumi datar dengan manusia meluber ke tepi masih tetap gagal. Perbandingan lengkap ada di All Models, dan jika hanya model utama, ada di siniGPT-Image-2. Makalah terkait ada di sini, dan saya sendiri membuat detektor gambar AI on-device dengan menggabungkan keduanya