1 poin oleh GN⁺ 2025-04-25 | 1 komentar | Bagikan ke WhatsApp
  • Fitur pembuatan gambar yang diperkenalkan OpenAI ke ChatGPT bulan lalu mencatat lebih dari 700 juta gambar dibuat pada minggu pertama peluncurannya
  • Kini hadir model gpt-image-1 yang memperluasnya ke API, sehingga developer dan perusahaan dapat mengintegrasikannya ke platform mereka sendiri
  • Sudah dimanfaatkan di berbagai industri untuk desain, pembuatan logo, pemasaran, penyuntingan video, dan lainnya
  • Fitur keamanan telah diperkuat, dan data pelanggan pada penggunaan API secara default tidak digunakan untuk pelatihan
  • Biaya per gambar kira-kira $0.02 (rendah), $0.07 (sedang), $0.19 (tinggi) tergantung kualitas

Model pembuatan gambar dirilis lewat API

  • OpenAI merilis model gpt-image-1 dengan memperluas fitur pembuatan gambar yang populer di ChatGPT ke API
  • Model ini mampu menghasilkan berbagai gaya, merender teks secara presisi, mengikuti pedoman khusus pengguna dengan setia, dan memanfaatkan pengetahuan dunia
  • Perusahaan dan startup telah menggunakannya di berbagai bidang seperti desain, e-commerce, pendidikan, dan game

Kasus penggunaan utama

  • Adobe: Menyediakan fitur pembuatan gambar lewat Firefly dan aplikasi Express untuk bereksperimen dengan berbagai gaya estetika
  • Airtable: Meningkatkan produktivitas kreatif dalam workflow berskala besar dengan memanfaatkan AI
  • Figma: Mengintegrasikan fitur pembuatan dan penyuntingan gambar ke platform melalui gpt-image-1, sehingga pengguna dapat mengeksplorasi ide secara visual
  • Canva mengintegrasikan gpt-image-1 ke Canva AI dan Magic Studio untuk memperluas kemampuan pembuatan dan penyuntingan desain
    • Misalnya, mengubah sketsa tangan menjadi elemen grafis yang rapi, atau memungkinkan penyuntingan berpresisi tinggi
  • GoDaddy sedang menguji pembuatan gambar untuk pembuatan dan penyuntingan logo
    • Memungkinkan penghapusan latar belakang, pembuatan tipografi, dan pembuatan konten yang mencerminkan identitas merek
    • Juga mendukung pembuatan konten media sosial dan aset pemasaran melalui integrasi dengan GoDaddy Airo®
  • HubSpot sedang menguji fitur pembuatan gambar untuk membuat materi pemasaran dan penjualan
    • Dengan potensi membuat gambar berkualitas tinggi tanpa desainer, fitur ini dapat digunakan untuk email, media sosial, dan landing page
  • Gamma: Membuat lebih dari 5 juta gambar AI setiap hari untuk membantu presentasi dan situs web
  • HeyGen: Meningkatkan fitur pembuatan dan penyuntingan avatar untuk memberikan pengalaman yang lebih personal kepada pengguna
  • OpusClip: Membuat thumbnail yang mendorong klik untuk kreator YouTube
  • Instacart sedang menguji penggunaan image generation API untuk menambahkan gambar ke resep atau daftar belanja
  • invideo menambahkan peningkatan pembuatan teks, kontrol penyuntingan presisi, dan panduan gaya dengan mengadopsi gpt-image-1

Keamanan

  • gpt-image-1 menggunakan pengaman yang sama dengan pembuatan gambar 4o di ChatGPT
  • Mencegah pembuatan gambar berbahaya dan menyertakan metadata C2PA pada gambar yang dihasilkan
  • Sensitivitas pemfilteran dapat diatur lewat parameter moderation (default: auto, sensitivitas rendah: low)
  • OpenAI tidak melatih model menggunakan data pelanggan API, dan input/output mengikuti kebijakan penggunaan API

Kebijakan harga

  • Token input teks: $5 per 1 juta token
  • Token input gambar: $10 per 1 juta token
  • Token output gambar: $40 per 1 juta token
  • Biaya per gambar kira-kira $0.02 (rendah), $0.07 (sedang), $0.19 (tinggi) tergantung kualitas

Cara memulai

  • gpt-image-1 tersedia di Images API global, dan dukungan untuk Responses API akan segera hadir
  • Beberapa developer mungkin perlu melalui proses verifikasi organisasi untuk menggunakannya
  • Fitur dapat diuji di Playground, dan mulai digunakan melalui dokumentasi panduan

1 komentar

 
GN⁺ 2025-04-25
Komentar Hacker News
  • Kemarin ada yang mengeluh bahwa tingkat penolakan untuk pekerjaan terkait pemerintah dan militer sangat tinggi. Ini bisa merusak pekerjaan karena para kontraktor jadi memakai model open source yang dikembangkan di CN

    • Hari ini saya mengetahui bahwa perusahaan-perusahaan yang bekerja di bidang itu punya lapisan akses API yang nyaris tanpa penyensoran konten. Saya tidak tahu cara meminta lapisan akses ini, tetapi saya sudah berbicara dengan empat kontraktor pertahanan yang sudah memakainya
  • Karena penasaran, saya membuat prompt yang sama untuk tiap jenis kualitas: 'Auto', 'low', 'medium', 'high'

    • Prompt: "Seekor anjing lucu sedang memeluk kucing lucu"
    • Saya menampilkan beberapa gambar DALL:E 3 di komentar untuk perbandingan
  • Saya menghasilkan 5 gambar di playground. Satu hanya memakai prompt teks, dan 4 sisanya memakai gambar dari ponsel. Saya menghabiskan $0.85 untuk potret bergaya Studio Ghibli untuk grup chat keluarga, tetapi terlalu mahal untuk dipakai dalam produk pelanggan

  • Saya penasaran aplikasi seperti apa yang perlu menghasilkan ratusan atau ribuan gambar. Saya suka membuat foto keluarga bergaya Ghibli, tetapi tidak perlu membuatnya dalam jumlah besar. Setiap kali saya memakai pembuatan gambar, itu selalu pekerjaan sekali pakai, dan melakukannya di UI ChatGPT sudah terasa memuaskan

  • Dari sisi harga, API ini akan sulit dibenarkan nilainya kecuali Anda memperoleh nilai dari penyediaan referensi. Hasil 'medium' 1024x1024 dihargai $0.04 per gambar, jadi masuk kelas biaya yang sama dengan Imagen 3 dan Flux 1.1 Pro. Dari pengujian saya di playground baru, gambar medium kualitasnya lebih rendah daripada dua model pesaing itu dan masih memerlukan waktu lebih dari 15 detik untuk dibuat

    • Prompt model ini sangat berbeda dan lebih sulit dibanding model tradisional. Trik-trik gambar tradisional pada dasarnya tidak bekerja, dan sulit mendapatkan hasil yang berfungsi tanpa penguatan prompt yang cukup besar
  • "Penyuntingan video: invideo memungkinkan jutaan pengguna mengubah ide menjadi video dengan AI. Dengan integrasi gpt-image-1, platform ini sekarang menawarkan pembuatan teks yang lebih baik, kontrol penyuntingan yang rinci, dan arahan gaya tingkat lanjut"

    • Saya penasaran apakah ini berarti ia juga menangani video dalam bentuk tertentu
  • Penggunaan gpt-image-1 dihargai per token, dengan harga terpisah untuk token teks dan token gambar

    • Token input teks (teks prompt): $5 per 1M token
    • Token input gambar (gambar masukan): $10 per 1M token
    • Token output gambar (gambar yang dihasilkan): $40 per 1M token
    • Dalam praktiknya, ini setara dengan sekitar $0.02, $0.07, dan $0.19 per gambar persegi untuk kualitas rendah, sedang, dan tinggi
    • Harga ini agak mahal bagi startup
  • Bagi yang penasaran, ini berbasis LLM, bukan berbasis diffusion. Karena itu, model ini mengikuti prompt teks dengan akurasi yang jauh lebih tinggi

    • Misalnya, pengguna aplikasi pembuat gambar (termasuk saya) mencoba membuat foto seseorang yang berada di dalam kantong kanguru
    • Dengan prompt apa pun, itu tidak berhasil
    • Model baru ini berhasil melakukannya dalam sekali coba
  • GoDaddy sedang aktif bereksperimen untuk mengintegrasikan pembuatan gambar agar pelanggan bisa membuat logo yang mudah diedit

    • Saya ingat 1-2 tahun lalu bertemu seseorang di Discord yang mengerjakan ikon buatan pelanggan untuk GoDaddy. Model kustom pada skala itu mungkin bisa digantikan oleh gpt-image-1
  • Adakah yang punya gambaran apa yang dimaksud "token gambar" dalam penetapan harga ini?

    • Saya penasaran apakah itu blok gambar berukuran tetap