3 poin oleh GN⁺ 2025-12-17 | 1 komentar | Bagikan ke WhatsApp
  • Fitur pembuatan gambar ChatGPT kini ditingkatkan, menawarkan pengeditan yang lebih presisi dan kecepatan generasi yang lebih tinggi
  • Model GPT‑Image‑1.5 mengikuti instruksi teks dengan lebih akurat, serta dapat mengedit sambil mempertahankan kemiripan sosok, pencahayaan, dan komposisi
  • Melalui antarmuka sidebar Images yang baru, tersedia preset style, prompt yang sedang tren, dan fitur penggunaan ulang tampilan
  • Di API, peningkatan performa yang sama juga tersedia dengan biaya 20% lebih rendah, cocok untuk pembuatan logo merek dan gambar produk
  • Pembaruan ini langsung digulirkan ke semua pengguna ChatGPT dan API, sehingga sangat meningkatkan kegunaan dan kualitas pembuatan gambar

Pengantar GPT‑Image‑1.5

  • Versi baru ChatGPT Images dirilis dengan basis model pembuatan gambar paling kuat
    • Mengikuti instruksi teks dengan lebih akurat, serta memungkinkan pengeditan sambil mempertahankan detail seperti kemiripan wajah
    • Kecepatan pembuatan gambar menjadi hingga 4 kali lebih cepat, meningkatkan efisiensi eksperimen berulang dan eksplorasi ide
  • Model ini menawarkan transformasi yang ekspresif, rendering teks yang padat, dan hasil yang natural
    • Mendukung mulai dari edit kecil hingga rekonstruksi penuh, dan memungkinkan pembuatan mudah dengan memilih preset style
  • Sedang digulirkan bertahap untuk semua pengguna ChatGPT, dan tersedia di API sebagai GPT‑Image‑1.5

Hasil yang sesuai dengan maksud pengguna

  • Model hanya mengubah bagian yang diminta sambil menjaga pencahayaan, komposisi, dan kemiripan sosok tetap konsisten
  • Hal ini memungkinkan tingkat kecocokan tinggi untuk edit foto, simulasi pakaian dan gaya rambut, style filter, serta transformasi konsep
  • ChatGPT dapat berfungsi seperti studio kreatif portabel, menangani baik pengeditan praktis maupun rekonstruksi artistik
    • Mendukung berbagai jenis edit seperti penambahan, penghapusan, penggabungan, dan pencampuran
    • Memperkuat fitur transformasi kreatif untuk menambahkan elemen seperti teks dan layout
    • Dibanding GPT Image 1.0, pemahaman terhadap instruksi meningkat, sehingga pengeditan lebih rinci dimungkinkan
    • Kualitas rendering teks kecil dan padat juga ditingkatkan
    Iklan

Ruang pembuatan gambar baru

  • Sidebar khusus Images di dalam ChatGPT diperkenalkan untuk mempersingkat proses eksplorasi dan pembuatan gambar
    • Termasuk filter preset, prompt yang sedang tren, dan fitur penggunaan ulang tampilan
    • Gambar dapat digunakan berulang setelah satu kali unggah tanpa perlu memakai kembali camera roll
  • Kecepatan pembuatan gambar meningkat hingga 4 kali, dan beberapa gambar dapat dibuat sekaligus
  • Dari edit kecil hingga rekonstruksi penuh, hasil yang diberikan selaras dengan visi pengguna

Peningkatan kualitas tambahan

  • Peningkatan kualitas yang siap dipakai langsung, seperti representasi banyak wajah kecil dan rendering hasil yang natural
  • Contoh: adegan jalanan London era 1970-an direproduksi secara realistis, dengan fokus detail dan representasi sosok yang ditingkatkan

Peningkatan dan batasan

  • Dibanding versi awal, terlihat peningkatan performa yang jelas pada beragam kasus
  • Namun beberapa hasil masih belum sempurna, dan pemrosesan banyak wajah serta multibahasa masih memiliki ruang untuk perbaikan
Iklan

Ketersediaan API GPT Image 1.5

  • Versi API mencakup peningkatan yang sama seperti ChatGPT Images
    • Menjaga konsistensi logo merek dan visual utama
    • Cocok untuk pembuatan gambar untuk pemasaran dan e-commerce
  • Biaya input/output turun 20%, sehingga lebih banyak gambar dapat dibuat dengan anggaran yang sama
  • Dapat dicoba di OpenAI Playground, galeri, dan panduan prompt
  • Perusahaan seperti Wix, Canva, Figma, dan Envato sudah memanfaatkannya
    • Wix menilai bahwa “pembuatan gambar berkualitas tinggi dengan konsistensi tinggi mendukung workflow produksi yang cepat”

Rilis dan distribusi

  • Model ChatGPT Images yang baru langsung digulirkan ke semua pengguna ChatGPT dan API di seluruh dunia
  • Dapat digunakan tanpa memilih model terpisah, sementara versi sebelumnya tetap dipertahankan dalam bentuk custom GPT
  • OpenAI menilai pembaruan ini sebagai tahap penting dalam kemajuan teknologi pembuatan gambar
    • Ke depan, peningkatan tambahan seperti pengeditan yang lebih detail dan dukungan multibahasa akan hadir

1 komentar

 
GN⁺ 2025-12-17
Komentar Hacker News
  • Membagikan hasil gpt-image 1.5 di situs GenAI Showdown
    OpenAI masih kuat dalam pemahaman prompt, tetapi dulu agak lemah dalam fidelity gambar. Pada pembaruan kali ini, kelemahan itu tampak banyak membaik
    Terutama, model ini mampu melakukan localized edit dengan baik tanpa merusak estetika keseluruhan
    Skornya naik dua kali lipat dari 4/12 menjadi 8/12, dan ini satu-satunya model yang lolos ‘Giraffe prompt’
    Steerability modelnya juga tinggi, di kisaran 90%
    Fitur baru yang ditambahkan mencakup bagian outtakes untuk tiap model, penambahan model REVE dan Flux.2 Dev, serta sistem penilaian berbasis bobot
    Untuk membandingkan tiga model (gpt-image-1, gpt-image-1.5, NB Pro), lihat tautan ini

  • Sedang menyiapkan tulisan blog yang merangkum eksperimen terkait Nano Banana
    Setelah menguji model Image baru dari ChatGPT, hasilnya jauh di bawah Nano Banana Pro, tetapi lebih baik daripada Nano Banana versi dasar
    Harganya belum jelas, tetapi gpt-image-1.5 tampaknya sekitar 20% lebih murah dibanding model sebelumnya
    Hal yang menarik adalah kasus grid generation. NBP kehilangan konsistensi prompt di atas 4x4, jadi cukup mengesankan bahwa OpenAI mencoba contoh 6x6

    • Hari ini saya berencana menjalankan gpt-image-1.5 di GenAI Showdown milik saya
      Sementara itu, hasil mengesankan dari NB Pro bisa dilihat di blog ini
      NB Pro menghasilkan hal-hal yang mengejutkan seperti merakit jigsaw puzzle yang belum pernah dilihat, memperkirakan medan 3D, dan mengubah jendela menjadi cermin
    • Setelah menguji GPT1.5 langsung, kualitas gambarnya mirip NBP, tetapi konsistensi prompt dan pemahaman world model-nya lebih lemah
      Misalnya, saat diminta dua orang yang sedang mendayung, perahunya terlalu kecil hingga mereka nyaris tidak muat
      Selain itu, sangat mengganggu ada bug yang membuat percakapan sebelumnya hilang setiap kali saya memberi prompt revisi
      Untuk hasil yang natural, saya menambahkan frasa seperti “shaky amateur smartphone photo” di awal prompt
      Sebagai referensi, tanggapan terkait juga bisa dilihat di tweet ini
    • Dari sudut pandang seseorang yang sudah lebih dari 10 tahun membuat film, saya sangat membutuhkan alat komposisi adegan yang konsisten
      gpt-image-1 jauh lebih unggul daripada Nano Banana(Pro) dalam fungsi previz-to-render
      Nano Banana mempertahankan elemen previz beresolusi rendah apa adanya, sedangkan gpt-image-1 memahami pose karakter dan blocking adegan lalu sekaligus melakukan upscale
      Contoh video: 3D + Posing + Blocking, versi daur ulang set, Gaussian splats, contoh tambahan
      Ke depan, dibutuhkan model yang mampu memberi kontrol gaya, kecepatan, dan styling berbasis gambar referensi
      Adobe juga sedang bereksperimen dengan fungsi serupa, dan mendemonstrasikan Relighting, pengeditan Image→3D, pengeditan Gaussian, konversi 3D→Image, dan lainnya
      Saya sendiri sedang mengimplementasikan fitur-fitur ini sebagai alat desktop open-source dan mengembangkannya dengan Rust
    • Saya menerima umpan balik bahwa eksperimennya menarik. Berkat itu, cara saya menulis prompt membaik dan ekspektasi saya juga menjadi lebih realistis
  • Jika ini adalah layanan tahun 2010 di mana staf Photoshop menggabungkan gambar untuk Anda, rasanya akan menimbulkan kontroversi besar
    Sekarang kita hidup di era ketika AI meruntuhkan konsep hak cipta dan kepengarangan, jadi saya penasaran bagaimana konten baru bisa dilindungi
    Pernah ada kasus ketika gpt mereproduksi hampir persis foto bergaya langka yang dulu saya ambil

    • Penggunaan gambar referensi adalah praktik standar di industri seni digital. Namun, AI berisiko menyalin terlalu mirip
    • Untuk melindungi konten, satu-satunya cara adalah air gap. Artinya, jangan mengunggahnya ke internet
      Begitu dipublikasikan, kita harus menerima adanya tingkat penyalahgunaan tertentu. Jika model mengalami overfitting pada karya asli, masih belum ada preseden hukum
    • Mungkin kita sedang memasuki era pasca-hak cipta. Hukum akan segera menyusul
    • Ada juga pertanyaan: jika seseorang menyalin karya saya, tetapi karena itu karya tersebut dilihat banyak orang, apakah itu pasti hal buruk?
  • Saya mencoba membuat sprite map dan UV texture map dengan gpt-image-1.5, dan nuansa Megaman Legends-nya terasa kuat
    Contoh1, Contoh2
    Namun, karena tidak ada model 3D aslinya, saya tidak yakin apakah itu benar-benar UV map yang akurat. Versi awal Nano Banana tidak bisa melakukan pekerjaan seperti ini

    • Untuk memperjelas, ini bukan UV map sungguhan. Misalnya, bagian punggung model Crash tidak ada
      Tekstur seperti ini masih bisa dipakai, tetapi distorsinya akan parah
      Pendekatan yang benar adalah meng-unwrap model lalu menggunakan wireframe UV map sebagai input
      Model Crash yang sebenarnya bisa dilihat di sini
  • Ada eksperimen menerapkan dark theme pada produk perangkat lunak
    Gemini/Nano hanya mengubah beberapa panel menjadi abu-abu, tetapi GPT memberi tema pada seluruh aplikasi dengan sangat baik
    Meski begitu, detail desain tetap membutuhkan sentuhan desainer

  • Saya penasaran mengapa gambar ChatGPT selalu punya nuansa kuning

    • Ini fenomena yang muncul sejak titik waktu tertentu. Tampaknya berkaitan dengan efek reinforcement learning yang dipicu booming gaya Ghibli
    • Dugaan saya, OpenAI mungkin salah menghitung normalisasi gambar. Pada model baru ini, masalah itu hilang
    • Codec Avatars dari Meta juga pernah mengalami masalah serupa. Mereka mengumpulkan data dengan peralatan bernilai jutaan dolar, tetapi hasilnya bernuansa hijau karena kegagalan kalibrasi kamera
    • Hipotesis lain adalah bahwa ‘filter Mexico’ yang sering dipakai di film terserap ke dalam data pelatihan
    • Saat melakukan style tuning berbasis preferensi manusia, muncul bias kuning yang halus, dan bias itu menumpuk semakin sering pengeditan diulang
  • Pitch produk “membuat gambar dari kenangan yang tidak pernah ada” terasa aneh

    • Saya juga merasa begitu, tetapi jika melihat riset pasar, pembuatan gambar memang sangat populer
      Saya pribadi terutama memakainya untuk pekerjaan berbasis teks seperti pemrograman, wiki, dan matematika
      Fenomena ini mirip dengan masa ketika filter Snapchat sedang populer. Saya sendiri cenderung membiarkannya dalam mode dasar
    • Kalau prompt itu dipakai untuk membuat hewan origami, rasanya justru akan lebih menyeramkan
    • Mungkin suatu hari para aktor akan menjual citra diri mereka untuk membuat foto palsu
      Pada akhirnya semua orang bisa saja berlangganan kehidupan virtual, lalu kembali ke realitas saat pembayaran kartu gagal
  • Karena model baru ini dikatakan berjalan di API, saya memperbarui grail SDK Golang saya,
    tetapi saat dipanggil muncul error server 500. gpt-image-1.5 juga tidak ada di daftar model
    Lihat contoh kode

    • Faktanya, ini memang belum bisa dipakai di API. Bahkan di Image Playground yang ditautkan OpenAI pun belum terlihat
      Di playground lokal saya (gpt-image-1-playground), saya sudah memodifikasi penanganan 404
      • Saya juga mencobanya dan mendapat error 500 yang sama.
        Jika nama model dimasukkan salah, muncul pesan bahwa ‘nilai yang didukung hanya gpt-image-1 dan gpt-image-1-mini’
      • Tampaknya sedang dalam rollout bertahap, dan di backend juga belum terkonfirmasi
  • Saya masih memakai Midjourney. Model besar lain masih kurang dalam kreativitas gaya dan terlalu fokus pada fotorealisme

    • Saya tidak terlalu mengikuti pembaruan terbaru Midjourney, tetapi fitur konsistensi gaya dan mempertahankan karakter itu penting
      Untuk membuat sequence yang punya konteks, bukan hanya satu gambar tunggal, fitur seperti ini wajib ada
    • Fenomena ini bisa dilihat sebagai perbedaan antara ‘model yang punya opini’ vs model yang mengikuti pilihan pengguna’. Yang pertama punya keunggulan jika bekerja dengan baik
    • Ada juga reaksi yang menyebut ini mengesankan, dan orang-orang penasaran apakah ada galeri yang mengumpulkan gambar-gambar terkait
    • Kecenderungan ini adalah masalah budaya yang sudah ada bahkan sebelum generasi gambar AI
      Ada kecenderungan menilai nilai seni hanya dari ‘kemampuan rendering’, dan itu mengabaikan makna penciptaan budaya dalam konteks sosialnya