OpenAI merilis kemampuan pembuatan gambar juga lewat API

(openai.com)

1 poin oleh GN⁺ 2025-04-25 | 1 komentar | Bagikan ke WhatsApp

Fitur pembuatan gambar yang diperkenalkan OpenAI ke ChatGPT bulan lalu mencatat lebih dari 700 juta gambar dibuat pada minggu pertama peluncurannya
Kini hadir model gpt-image-1 yang memperluasnya ke API, sehingga developer dan perusahaan dapat mengintegrasikannya ke platform mereka sendiri
Sudah dimanfaatkan di berbagai industri untuk desain, pembuatan logo, pemasaran, penyuntingan video, dan lainnya
Fitur keamanan telah diperkuat, dan data pelanggan pada penggunaan API secara default tidak digunakan untuk pelatihan
Biaya per gambar kira-kira $0.02 (rendah), $0.07 (sedang), $0.19 (tinggi) tergantung kualitas

Model pembuatan gambar dirilis lewat API

OpenAI merilis model gpt-image-1 dengan memperluas fitur pembuatan gambar yang populer di ChatGPT ke API
Model ini mampu menghasilkan berbagai gaya, merender teks secara presisi, mengikuti pedoman khusus pengguna dengan setia, dan memanfaatkan pengetahuan dunia
Perusahaan dan startup telah menggunakannya di berbagai bidang seperti desain, e-commerce, pendidikan, dan game

Kasus penggunaan utama

Adobe: Menyediakan fitur pembuatan gambar lewat Firefly dan aplikasi Express untuk bereksperimen dengan berbagai gaya estetika
Airtable: Meningkatkan produktivitas kreatif dalam workflow berskala besar dengan memanfaatkan AI
Figma: Mengintegrasikan fitur pembuatan dan penyuntingan gambar ke platform melalui gpt-image-1, sehingga pengguna dapat mengeksplorasi ide secara visual
Canva mengintegrasikan gpt-image-1 ke Canva AI dan Magic Studio untuk memperluas kemampuan pembuatan dan penyuntingan desain
- Misalnya, mengubah sketsa tangan menjadi elemen grafis yang rapi, atau memungkinkan penyuntingan berpresisi tinggi
GoDaddy sedang menguji pembuatan gambar untuk pembuatan dan penyuntingan logo
- Memungkinkan penghapusan latar belakang, pembuatan tipografi, dan pembuatan konten yang mencerminkan identitas merek
- Juga mendukung pembuatan konten media sosial dan aset pemasaran melalui integrasi dengan GoDaddy Airo®
HubSpot sedang menguji fitur pembuatan gambar untuk membuat materi pemasaran dan penjualan
- Dengan potensi membuat gambar berkualitas tinggi tanpa desainer, fitur ini dapat digunakan untuk email, media sosial, dan landing page
Gamma: Membuat lebih dari 5 juta gambar AI setiap hari untuk membantu presentasi dan situs web
HeyGen: Meningkatkan fitur pembuatan dan penyuntingan avatar untuk memberikan pengalaman yang lebih personal kepada pengguna
OpusClip: Membuat thumbnail yang mendorong klik untuk kreator YouTube
Instacart sedang menguji penggunaan image generation API untuk menambahkan gambar ke resep atau daftar belanja
invideo menambahkan peningkatan pembuatan teks, kontrol penyuntingan presisi, dan panduan gaya dengan mengadopsi gpt-image-1

Keamanan

gpt-image-1 menggunakan pengaman yang sama dengan pembuatan gambar 4o di ChatGPT
Mencegah pembuatan gambar berbahaya dan menyertakan metadata C2PA pada gambar yang dihasilkan
Sensitivitas pemfilteran dapat diatur lewat parameter moderation (default: auto, sensitivitas rendah: low)
OpenAI tidak melatih model menggunakan data pelanggan API, dan input/output mengikuti kebijakan penggunaan API

Kebijakan harga

Token input teks: $5 per 1 juta token
Token input gambar: $10 per 1 juta token
Token output gambar: $40 per 1 juta token
Biaya per gambar kira-kira $0.02 (rendah), $0.07 (sedang), $0.19 (tinggi) tergantung kualitas

Cara memulai

gpt-image-1 tersedia di Images API global, dan dukungan untuk Responses API akan segera hadir
Beberapa developer mungkin perlu melalui proses verifikasi organisasi untuk menggunakannya
Fitur dapat diuji di Playground, dan mulai digunakan melalui dokumentasi panduan

1 komentar

GN⁺ 2025-04-25

Komentar Hacker News

Kemarin ada yang mengeluh bahwa tingkat penolakan untuk pekerjaan terkait pemerintah dan militer sangat tinggi. Ini bisa merusak pekerjaan karena para kontraktor jadi memakai model open source yang dikembangkan di CN
- Hari ini saya mengetahui bahwa perusahaan-perusahaan yang bekerja di bidang itu punya lapisan akses API yang nyaris tanpa penyensoran konten. Saya tidak tahu cara meminta lapisan akses ini, tetapi saya sudah berbicara dengan empat kontraktor pertahanan yang sudah memakainya
Karena penasaran, saya membuat prompt yang sama untuk tiap jenis kualitas: 'Auto', 'low', 'medium', 'high'
- Prompt: "Seekor anjing lucu sedang memeluk kucing lucu"
- Saya menampilkan beberapa gambar DALL:E 3 di komentar untuk perbandingan
Saya menghasilkan 5 gambar di playground. Satu hanya memakai prompt teks, dan 4 sisanya memakai gambar dari ponsel. Saya menghabiskan $0.85 untuk potret bergaya Studio Ghibli untuk grup chat keluarga, tetapi terlalu mahal untuk dipakai dalam produk pelanggan
Saya penasaran aplikasi seperti apa yang perlu menghasilkan ratusan atau ribuan gambar. Saya suka membuat foto keluarga bergaya Ghibli, tetapi tidak perlu membuatnya dalam jumlah besar. Setiap kali saya memakai pembuatan gambar, itu selalu pekerjaan sekali pakai, dan melakukannya di UI ChatGPT sudah terasa memuaskan
Dari sisi harga, API ini akan sulit dibenarkan nilainya kecuali Anda memperoleh nilai dari penyediaan referensi. Hasil 'medium' 1024x1024 dihargai $0.04 per gambar, jadi masuk kelas biaya yang sama dengan Imagen 3 dan Flux 1.1 Pro. Dari pengujian saya di playground baru, gambar medium kualitasnya lebih rendah daripada dua model pesaing itu dan masih memerlukan waktu lebih dari 15 detik untuk dibuat
- Prompt model ini sangat berbeda dan lebih sulit dibanding model tradisional. Trik-trik gambar tradisional pada dasarnya tidak bekerja, dan sulit mendapatkan hasil yang berfungsi tanpa penguatan prompt yang cukup besar
"Penyuntingan video: invideo memungkinkan jutaan pengguna mengubah ide menjadi video dengan AI. Dengan integrasi gpt-image-1, platform ini sekarang menawarkan pembuatan teks yang lebih baik, kontrol penyuntingan yang rinci, dan arahan gaya tingkat lanjut"
- Saya penasaran apakah ini berarti ia juga menangani video dalam bentuk tertentu
Penggunaan gpt-image-1 dihargai per token, dengan harga terpisah untuk token teks dan token gambar
- Token input teks (teks prompt): $5 per 1M token
- Token input gambar (gambar masukan): $10 per 1M token
- Token output gambar (gambar yang dihasilkan): $40 per 1M token
- Dalam praktiknya, ini setara dengan sekitar $0.02, $0.07, dan $0.19 per gambar persegi untuk kualitas rendah, sedang, dan tinggi
- Harga ini agak mahal bagi startup
Bagi yang penasaran, ini berbasis LLM, bukan berbasis diffusion. Karena itu, model ini mengikuti prompt teks dengan akurasi yang jauh lebih tinggi
- Misalnya, pengguna aplikasi pembuat gambar (termasuk saya) mencoba membuat foto seseorang yang berada di dalam kantong kanguru
- Dengan prompt apa pun, itu tidak berhasil
- Model baru ini berhasil melakukannya dalam sekali coba
GoDaddy sedang aktif bereksperimen untuk mengintegrasikan pembuatan gambar agar pelanggan bisa membuat logo yang mudah diedit
- Saya ingat 1-2 tahun lalu bertemu seseorang di Discord yang mengerjakan ikon buatan pelanggan untuk GoDaddy. Model kustom pada skala itu mungkin bisa digantikan oleh gpt-image-1
Adakah yang punya gambaran apa yang dimaksud "token gambar" dalam penetapan harga ini?
- Saya penasaran apakah itu blok gambar berukuran tetap

OpenAI merilis kemampuan pembuatan gambar juga lewat API

Model pembuatan gambar dirilis lewat API

Kasus penggunaan utama

Keamanan

Kebijakan harga

Cara memulai

Bacaan terkait

1 komentar

Komentar Hacker News