4 poin oleh GN⁺ 6 jam lalu | 4 komentar | Bagikan ke WhatsApp
  • Informasi isi spesifik terkait fitur pembuatan gambar tidak disediakan
  • Fitur, perubahan, dan metrik performa ChatGPT Images 2.0 semuanya tidak dapat dikonfirmasi
  • Tidak ada informasi eksplisit tentang cara dukungan, target pengguna, harga, atau cakupan peluncuran
  • Penjelasan terkait contoh gambar, struktur model, dan pengaman juga tidak disediakan
  • Berdasarkan materi yang diberikan saja, fakta inti selain judul tidak dapat diringkas

Tidak ada isi

4 komentar

 
j2sus91 4 jam lalu

Penalaran dimasukkan ke dalam gambar, jadi hasilnya benar-benar gila.

Saya cuma melemparkan keyword sederhana terkait bisnis baru,
namun ia sampai menalar pesan inti/pain point lalu meleburkannya ke landing page.

Bahkan mengambil mentah-mentah warna brand, tone pesan brand, sampai model dari situs yang sebelumnya diminta sebagai referensi itu sudah jadi hal dasar.
Melihat bahasa Korea pun sama sekali tidak rusak, sepertinya ke depan potensi pemanfaatannya bakal luar biasa besar..

Sekarang perkembangan AI benar-benar mulai terasa makin menakutkan.

 
kirinonakar 4 jam lalu

Luar biasa. Saat Nanobanana keluar pun saya sudah terkejut, tapi ini jadi lebih bagus lagi. Sepertinya karena ada persaingan, perkembangannya jadi cepat.

 
xguru 5 jam lalu

Oh.. pemrosesan teks sebelumnya terasa seperti Nano Banana, tapi kali ini sepertinya mereka benar-benar serius.
Semua teks dalam tulisan pengenalan dibuat menjadi gambar.
Seluruh tulisannya bisa dilihat sambil menggulir gambar.
Tulisan tangan di tengah cukup mengesankan

 
GN⁺ 6 jam lalu
Komentar Hacker News
  • Saya menguji model baru ini seperti ini. Dengan gpt-image-2 saya membuat "gambar bergaya Where's Waldo yang menampilkan rakun memegang radio ham", dan kodenya ada di sini. Hasilnya adalah gambar ini, tetapi saya sendiri tidak yakin apakah rakun itu benar-benar sedang memegang radio ham. Memang untuk tes ala Where's Waldo seperti ini, saya biasanya tidak punya kesabaran untuk terus mencarinya sampai ketemu
    • Saya menjalankannya lagi dengan perintah yang memakai resolusi maksimum, dan hasilnya jauh lebih baik. Saya mengacu pada ukuran yang direkomendasikan di OpenAI cookbook (tautan), dan hasilnya ada di sini. Kali ini saya berhasil menemukan raccoon-nya, dan sepertinya satu gambar menghabiskan sekitar 40 sen
    • Saya berterima kasih untuk gambar itu, tetapi wajah orang-orangnya terlalu aneh sampai terasa seperti bisa muncul di mimpi buruk
    • Menurut saya prompt ini memang tugas yang sangat kejam dan sulit untuk model keluarga diffusion saat ini. Justru karena itu, usahanya sendiri terasa mengesankan
    • Saat membaca kalimat "tidak punya kesabaran untuk mencari sampai habis", saya merasa ini malah bisa dijadikan benchmark AI baru
    • Saya merasa jenis tugas seperti ini tampak seperti area di mana AI akan terus lemah dalam detail struktural. Dari jauh terlihat meyakinkan, tetapi dari dekat terlalu banyak kesalahan seperti wajah yang tampak sedang menjerit, papan petunjuk yang menunjuk ke dua arah sekaligus, tenda darurat yang tidak ada, dan anjing yang tampak seperti monster. Sampel promosinya juga mirip, dan contoh seperti anatomi atau tabel periodik pun runtuh saat dilihat detailnya. Pada akhirnya saya jadi skeptis, apakah kita hanya menghabiskan RAM & GPUs, air, dan listrik dalam jumlah besar untuk membuat versi Where's Waldo yang lebih jelek
  • Saat bereksperimen dengan Nano Banana Pro, saya membuat prompt yang sangat menarik untuk menguji kemampuan model gambar dalam mematuhi aturan. Kira-kira begini: "susun Pokémon dengan nomor National Pokédex yang merupakan 64 bilangan prima pertama dalam grid 8x8, lalu gambarkan dengan gaya 8-bit, charcoal, dan Ukiyo-e sesuai banyak digit nomornya". Hasil NBP ada di sini, dan nomor, Pokémon, serta gayanya secara umum benar, meski ada kritik bahwa penerapan gayanya malas dan gambarnya bisa terlihat seperti plagiat. Hasil prompt yang sama di gpt-2-image high ada di sini; model ini menghasilkan gaya yang lebih kreatif dan tampak lebih orisinal, tetapi logika gayanya diterapkan per baris, bukan berdasarkan angka, beberapa Pokémon salah, font-nya juga salah, dan bagian bawahnya pun tidak berbentuk persegi. Hasil yang cukup aneh
    • Saya merasa tes ini benar-benar luar biasa, dan sekaligus agak lucu melihat gpt-2-image bisa seburuk ini. Sampai-sampai saya merasa gambar plagiarized yang sekadar hasil cari lalu salin-tempel mungkin malah lebih baik. Setidaknya juga tidak terlihat ada sanity check atau tahap pascaproses untuk memeriksa apakah "instruksinya benar-benar diikuti", padahal pelanggaran aturan gaya per digit seharusnya mudah dideteksi. Ditambah lagi harganya mahal, jadi makin disayangkan kalau hasilnya praktis tidak bisa dipakai
    • Saya justru penasaran mengapa prompt ini dianggap sebagai prompt yang bagus
  • Saya merangkum bahwa jika membuat gambar 4096x4096 dengan gemini-3.1-flash-image-preview, biayanya 2.520 token, sekitar $0.151 per gambar, sedangkan dengan gpt-image-2 untuk gambar 3840x2160 biayanya 13.342 token, sekitar $0.4. Jadi model ini lebih dari 2x lebih mahal daripada Gemini
    • Menurut saya perbandingan ini apples to oranges. Ini seperti membandingkan versi flash dengan versi penuh secara langsung, dan untuk detail halus model ini terasa sekitar 5x lebih baik daripada flash
  • Saya punya hard prompt yang selalu dipakai saat menguji model generasi gambar. Caranya adalah memasukkan sekaligus syarat seperti tangan tukang jam tua, jam saku vintage, air dangkal, refraksi dan caustics, tetesan air yang jatuh, wajah terdistorsi yang terpantul di permukaan kaca, dan lensa makro 100mm. Gambar hasilnya saya unggah ke Google Drive, dan saya sudah menjalankannya beberapa kali baik di web maupun API, tetapi secara keseluruhan hasilnya tidak sebaik Nano Banana
    • Saya penasaran mengapa ini dianggap sebagai prompt yang bagus
    • Saya mencoba melihat gambar yang dibagikan, tetapi tampaknya host-nya terkena rate limit, jadi saya ingin memberi tahu
    • Saya memastikan bahwa tautan-tautannya terlihat rusak
  • Menurut saya gpt-image-1.5 dari OpenAI dan NB2 dari Google cukup berimbang di situs perbandingan saya. Dalam evaluasi yang berfokus pada kepatuhan prompt, keduanya menunjukkan tingkat keberhasilan sekitar 70% untuk kriteria generasi dan penyuntingan, sementara kualitas visual selalu sedikit lebih unggul di pihak Gemini. Meski begitu, gpt-image-1.5 adalah lompatan besar untuk OpenAI dan menghilangkan banyak masalah lama seperti yang dulu disebut "piss filter". Grafik perbandingannya bisa dilihat untuk edit di sini dan generasi di sini. Berdasarkan pembaruan, gpt-image-2 berhasil melewati bintang 9 sudut yang selama ini disebut model killer dalam set tes, dan pada benchmark text-to-image berhasil menjawab 12 dari 15 prompt dengan benar, unggul 1 poin dari model terbaik sebelumnya. Namun, prompt coral snake dengan urutan warna yang ketat, D20 dengan 20 bilangan prima pertama tertulis di tiap sisi, dan planet berbentuk bumi datar dengan manusia meluber ke tepi masih tetap gagal. Perbandingan lengkap ada di All Models, dan jika hanya model utama, ada di sini
  • Saya merangkum perbandingan harga. GPT Image 2 untuk Low adalah $0.006 pada 1024x1024, lalu $0.005 untuk 1024x1536 dan 1536x1024; Medium masing-masing $0.053, $0.041, $0.041; High masing-masing $0.211, $0.165, $0.165. Sementara GPT Image 1 untuk Low adalah $0.011, $0.016, $0.016; Medium $0.042, $0.063, $0.063; dan High $0.167, $0.25, $0.25
    • Saya merasa batasan resolusi yang sebesar ini agak aneh. Saya penasaran, kalau dibuat lebih besar apakah detail-nya runtuh saat diperbesar, atau hanya karena biayanya melonjak tajam
    • Saya merasa menarik bahwa pada v2 output besar lebih mahal daripada persegi kecil, sementara pada v1 justru sebaliknya. Saya penasaran mengapa struktur harga seperti itu muncul
  • Saya memastikan bahwa kali ini model tersebut lolos tes tuts piano. Contoh yang berhasil ada di sini, walau pelabelan middle C salah pada percobaan ini. Namun setelah diminta lagi, model itu berhasil memperbaikinya
    • Saat NB 2 keluar, saya menaikkan tingkat kesulitan tes ini. Saya membalik warna semua accidentals dan naturals, dan model itu tetap menjawab sempurna; contohnya ada di sini
  • Saya merasa peningkatan dalam rendering teks bahasa Mandarin benar-benar menonjol dan mengesankan. Meski begitu, pada gambar sampel Wuxi masih ada salah ketik; misalnya karakter 笼 dalam 小笼包 ditulis salah. Di bagian "极小中文也清晰可读" juga masih ada beberapa salah ketik lagi, tetapi tidak terlalu mengganggu untuk dibaca. Meski begitu, tetap jelas terasa bahwa model ini jauh lebih baik daripada model generasi gambar sebelumnya
    • Saya penasaran apakah ini bahkan lebih baik daripada model Tiongkok lokal. Karena data latihnya pasti jauh lebih banyak memuat contoh bahasa Mandarin, saya kira biasanya model-model itu akan lebih fokus pada aspek ini
  • Saya rasa sekarang adalah saat yang tepat untuk membicarakan C2PA. Ini adalah standar yang secara aktif membuktikan asal-usul gambar, dan OpenAI juga ikut serta. Jika saya memasukkan gambar buatan AI ke C2PA Viewer, asalnya ditampilkan sebagai ChatGPT. Tentu saja, pengguna berniat jahat bisa menghapus metadata agar gambar terlihat seperti gambar biasa, tetapi dalam jangka panjang saya pikir gambar tanpa penanda asal seharusnya diperlakukan sebagai sinyal risiko, seperti non-https. Detail lebih lanjut bisa dilihat di c2pa.org
    • Saya merasa sulit melihat masalah ini semata-mata sebagai tindakan bad actors. Sebagian besar platform seperti Instagram dan Facebook menghapus metadata secara default demi privasi, dan EXIF bisa berisi informasi seperti lokasi, nama file, waktu pembuatan, dan info perangkat. Jadi saat ini, dibanding manipulasi jahat, masalah praktis yang lebih besar bagi pelestarian C2PA justru tampaknya adalah struktur di mana mayoritas situs melakukan penghapusan metadata saat gambar diunggah
    • Saya ingin menambahkan bahwa OpenAI sejak awal sudah menyematkan C2PA manifests pada gambar yang dihasilkan. Dan berdasarkan evaluasi kecil yang saya lakukan, detektor gambar AI berbasis ML terbaru seperti OmniAID cukup baik dalam mendeteksi gambar yang dibuat oleh GPT-Image-2. Makalah terkait ada di sini, dan saya sendiri membuat detektor gambar AI on-device dengan menggabungkan keduanya
  • Saya sudah memakai model ini selama beberapa jam, dan sejujurnya saya cukup terkesan. Ini pertama kalinya saya merasa model gambar benar-benar membantu pekerjaan saya, terutama terasa sangat kuat untuk membuat slide PowerPoint dan mockup