- Fitur pembuatan gambar yang diperkenalkan OpenAI ke ChatGPT bulan lalu mencatat lebih dari 700 juta gambar dibuat pada minggu pertama peluncurannya
- Kini hadir model gpt-image-1 yang memperluasnya ke API, sehingga developer dan perusahaan dapat mengintegrasikannya ke platform mereka sendiri
- Sudah dimanfaatkan di berbagai industri untuk desain, pembuatan logo, pemasaran, penyuntingan video, dan lainnya
- Fitur keamanan telah diperkuat, dan data pelanggan pada penggunaan API secara default tidak digunakan untuk pelatihan
- Biaya per gambar kira-kira $0.02 (rendah), $0.07 (sedang), $0.19 (tinggi) tergantung kualitas
Model pembuatan gambar dirilis lewat API
- OpenAI merilis model gpt-image-1 dengan memperluas fitur pembuatan gambar yang populer di ChatGPT ke API
- Model ini mampu menghasilkan berbagai gaya, merender teks secara presisi, mengikuti pedoman khusus pengguna dengan setia, dan memanfaatkan pengetahuan dunia
- Perusahaan dan startup telah menggunakannya di berbagai bidang seperti desain, e-commerce, pendidikan, dan game
Kasus penggunaan utama
- Adobe: Menyediakan fitur pembuatan gambar lewat Firefly dan aplikasi Express untuk bereksperimen dengan berbagai gaya estetika
- Airtable: Meningkatkan produktivitas kreatif dalam workflow berskala besar dengan memanfaatkan AI
- Figma: Mengintegrasikan fitur pembuatan dan penyuntingan gambar ke platform melalui
gpt-image-1, sehingga pengguna dapat mengeksplorasi ide secara visual
- Canva mengintegrasikan gpt-image-1 ke Canva AI dan Magic Studio untuk memperluas kemampuan pembuatan dan penyuntingan desain
- Misalnya, mengubah sketsa tangan menjadi elemen grafis yang rapi, atau memungkinkan penyuntingan berpresisi tinggi
- GoDaddy sedang menguji pembuatan gambar untuk pembuatan dan penyuntingan logo
- Memungkinkan penghapusan latar belakang, pembuatan tipografi, dan pembuatan konten yang mencerminkan identitas merek
- Juga mendukung pembuatan konten media sosial dan aset pemasaran melalui integrasi dengan GoDaddy Airo®
- HubSpot sedang menguji fitur pembuatan gambar untuk membuat materi pemasaran dan penjualan
- Dengan potensi membuat gambar berkualitas tinggi tanpa desainer, fitur ini dapat digunakan untuk email, media sosial, dan landing page
- Gamma: Membuat lebih dari 5 juta gambar AI setiap hari untuk membantu presentasi dan situs web
- HeyGen: Meningkatkan fitur pembuatan dan penyuntingan avatar untuk memberikan pengalaman yang lebih personal kepada pengguna
- OpusClip: Membuat thumbnail yang mendorong klik untuk kreator YouTube
- Instacart sedang menguji penggunaan image generation API untuk menambahkan gambar ke resep atau daftar belanja
- invideo menambahkan peningkatan pembuatan teks, kontrol penyuntingan presisi, dan panduan gaya dengan mengadopsi gpt-image-1
Keamanan
- gpt-image-1 menggunakan pengaman yang sama dengan pembuatan gambar 4o di ChatGPT
- Mencegah pembuatan gambar berbahaya dan menyertakan metadata C2PA pada gambar yang dihasilkan
- Sensitivitas pemfilteran dapat diatur lewat parameter
moderation (default: auto, sensitivitas rendah: low)
- OpenAI tidak melatih model menggunakan data pelanggan API, dan input/output mengikuti kebijakan penggunaan API
Kebijakan harga
- Token input teks: $5 per 1 juta token
- Token input gambar: $10 per 1 juta token
- Token output gambar: $40 per 1 juta token
- Biaya per gambar kira-kira $0.02 (rendah), $0.07 (sedang), $0.19 (tinggi) tergantung kualitas
Cara memulai
- gpt-image-1 tersedia di Images API global, dan dukungan untuk Responses API akan segera hadir
- Beberapa developer mungkin perlu melalui proses verifikasi organisasi untuk menggunakannya
- Fitur dapat diuji di Playground, dan mulai digunakan melalui dokumentasi panduan
1 komentar
Komentar Hacker News
Kemarin ada yang mengeluh bahwa tingkat penolakan untuk pekerjaan terkait pemerintah dan militer sangat tinggi. Ini bisa merusak pekerjaan karena para kontraktor jadi memakai model open source yang dikembangkan di CN
Karena penasaran, saya membuat prompt yang sama untuk tiap jenis kualitas: 'Auto', 'low', 'medium', 'high'
Saya menghasilkan 5 gambar di playground. Satu hanya memakai prompt teks, dan 4 sisanya memakai gambar dari ponsel. Saya menghabiskan $0.85 untuk potret bergaya Studio Ghibli untuk grup chat keluarga, tetapi terlalu mahal untuk dipakai dalam produk pelanggan
Saya penasaran aplikasi seperti apa yang perlu menghasilkan ratusan atau ribuan gambar. Saya suka membuat foto keluarga bergaya Ghibli, tetapi tidak perlu membuatnya dalam jumlah besar. Setiap kali saya memakai pembuatan gambar, itu selalu pekerjaan sekali pakai, dan melakukannya di UI ChatGPT sudah terasa memuaskan
Dari sisi harga, API ini akan sulit dibenarkan nilainya kecuali Anda memperoleh nilai dari penyediaan referensi. Hasil 'medium' 1024x1024 dihargai $0.04 per gambar, jadi masuk kelas biaya yang sama dengan Imagen 3 dan Flux 1.1 Pro. Dari pengujian saya di playground baru, gambar medium kualitasnya lebih rendah daripada dua model pesaing itu dan masih memerlukan waktu lebih dari 15 detik untuk dibuat
"Penyuntingan video: invideo memungkinkan jutaan pengguna mengubah ide menjadi video dengan AI. Dengan integrasi gpt-image-1, platform ini sekarang menawarkan pembuatan teks yang lebih baik, kontrol penyuntingan yang rinci, dan arahan gaya tingkat lanjut"
Penggunaan gpt-image-1 dihargai per token, dengan harga terpisah untuk token teks dan token gambar
Bagi yang penasaran, ini berbasis LLM, bukan berbasis diffusion. Karena itu, model ini mengikuti prompt teks dengan akurasi yang jauh lebih tinggi
GoDaddy sedang aktif bereksperimen untuk mengintegrasikan pembuatan gambar agar pelanggan bisa membuat logo yang mudah diedit
Adakah yang punya gambaran apa yang dimaksud "token gambar" dalam penetapan harga ini?