- underdrawing adalah metode yang terlebih dahulu membuat gambar sketsa dasar secara deterministik berisi posisi angka dan teks, lalu model pembuat gambar menambahkan gaya visual di atasnya untuk meningkatkan akurasi
- Dalam tugas menata 50 batu pijakan dalam bentuk spiral dan memberi nomor 1 sampai 50, Gemini 3 Pro dan ChatGPT Images 2 tidak dapat secara konsisten menempatkan angka dan urutannya dengan benar tanpa underdrawing
- Untuk tugas yang sama, Gemini 3.0 Pro yang diberi underdrawing berhasil menghasilkan hasil dengan nomor, jumlah dan urutan tombol, serta bentuk spiral yang benar
- Implementasinya dapat dilakukan dengan alat seperti SVG/HTML untuk menempatkan angka dan teks pada posisi serta arah yang diinginkan, mengekspornya sebagai gambar, lalu memasukkan gambar tersebut bersama prompt teks ke model gambar multimodal
- Metode ini tidak selalu sempurna setiap saat, tetapi untuk pembuatan gambar yang menuntut penempatan teks dan angka secara penting, pendekatan ini membagi penempatan deterministik dan kemampuan ekspresi visual model generatif
Konteks inti dan cara implementasi
- Ini adalah pola yang muncul dalam proses membuat gambar papan petualangan 100 tahap, dan diringkas sebagai pendekatan “memberi kontur lalu membiarkannya diwarnai di atasnya”
-
Lapisan deterministik
- SVG/HTML secara visual memang kaku, tetapi sangat kuat dalam penataan matematis dan presisi
- Cukup tempatkan angka dan teks sesuai posisi serta arah yang diinginkan, lalu ekspor sebagai gambar yang memuat piksel tersebut
- Formatnya bisa menggunakan alat apa pun yang diinginkan seperti SVG, Python, Mermaid, dan lain-lain
-
Lapisan generatif
- Model pembuat gambar mampu menghasilkan visual yang sangat baik, tetapi keandalannya rendah dalam matematika dan teks
- Pada model gambar multimodal yang dapat menerima input gambar dan teks lalu menghasilkan gambar, seperti Gemini 3.0 Pro, gambar underdrawing dan prompt teks dimasukkan bersama
- Prompt contoh tahap 1 meminta pembuatan SVG yang menata 50 batu pijakan dalam spiral ke dalam berlawanan arah jarum jam dan memberi nomor berurutan dari 1 sampai 50 pada tiap batu
- Prompt contoh tahap 2 meminta gambar tersebut diubah menjadi diorama claymation bergaya foto dengan sudut rendah dan sedikit miring, berisi cokelat artisan dan permen yang diletakkan sebagai jalur spiral
-
Otomatisasi dan keterbatasan
- Claude Code atau Codex dapat menjalankan tiap tahap sebagai pengganti
- Hasilnya bagus, tetapi tidak selalu sempurna, dan bahkan pada hasil akhir pun angka “71” tidak terlihat
1 komentar
Komentar Hacker News
Senang melihat ada arus yang makin memahami lebih dalam hal-hal yang pada dasarnya dikuasai LLM dan yang tidak, maksudnya bukan mustahil sama sekali, tetapi pekerjaan yang peluang suksesnya rendah karena keterbatasan mendasar
Ini mirip dengan pendekatan di mana arsitektur perangkat lunak ditentukan manusia lalu implementasi fungsi diserahkan ke LLM, atau alih-alih menyuruhnya melakukan analisis data secara langsung, menyuruhnya menulis kueri SQL
Akan bagus jika ada kerangka klasifikasi tugas dan riset yang lebih jelas tentang unit kerja seperti apa yang cocok untuk LLM dan yang tidak; intuisi soal ini memang mulai terbentuk, tetapi saya masih melihat banyak orang sering tersandung di sini
Caranya menyuruh model membuat garis besar dulu, lalu mengimplementasikan tiap fungsi secara terpisah, dan beberapa kali ada tulisan blog di HN yang menggambarkan pendekatan ini dengan istilah yang diambil dari pekerjaan animasi
Dua tahun lalu, tugas-tugas seperti menghitung huruf atau pemrosesan fonem yang katanya mustahil karena “keterbatasan mendasar” kini dalam banyak kasus sudah bukan masalah besar bahkan tanpa alat bantu
Setiap kali membaca prompt pembuatan gambar, saya selalu melihat detail yang sangat spesifik yang jelas-jelas diabaikan model
Di sini juga, cokelat/permen pada dua gambar terakhir jauh dari kesan buatan tangan ala perajin, terlihat terlalu seperti produk massal yang steril, dan sudut pandangnya juga tidak tepat
Kalau model mengabaikan sebagian besar instruksi, saya jadi bertanya-tanya kenapa prompt-nya harus sepanjang itu
Ekspresi seperti rustic, homemade, atau amateur mungkin lebih cocok dengan penandaan datanya
Awalnya saya mengira ini karena kemampuan menulis prompt saya kurang, tetapi begitu mulai sadar dan memperhatikan ketidakcocokan seperti ini, ternyata cukup sering terlihat
Kalau yang diinginkan adalah gambar seperti yang terakhir, dengan “tombol-tombol” kecil tersusun spiral, itu memang tidak terlalu tampak seperti permen, tetapi bahkan kalau pun tidak terlalu jago Blender, rasanya bisa dibuat dalam satu sore
Saya menemukan teknik sederhana untuk mendapatkan teks dan angka yang stabil dari gambar buatan AI
Cukup mengejutkan karena model gambar sendiri belum melakukannya seperti ini, jadi saya merasa ini cukup berguna dan ingin membagikannya
Saya sudah cukup lama memakai teknik yang sama dengan hanya menggunakan SVG sebagai gambar dasar, dan hasilnya berjalan baik
Sepertinya laboratorium riset pembuatan gambar akan segera mengadopsinya
Strukturnya adalah pengguna membantu model menyelesaikan masalah secara 1-shot atau k-shot alih-alih membiarkannya menyelesaikan sendiri secara 0-shot
Saya pernah memakai teknik serupa dengan sangat efektif, dan karena bidang ini masih sangat baru dan bergerak cepat, rasanya istilah umum yang disepakati masih kurang, jadi blog dan contohnya sangat berguna
Meski begitu, mungkin saja fenomena ini sudah diamati dan dipahami di komunitas yang lebih kecil atau dengan nama lain
Ini pada dasarnya hanya img2img pertama yang dibuat dengan kode dan memiliki struktur yang benar
Jika sejak awal era Stable Diffusion Anda sudah memakai model generatif, ini teknik yang cukup umum dan berguna: menggunakan sketsa (SVG, gambar tangan, dan sebagainya) sebagai ControlNet sementara untuk mengarahkan keluaran model generatif
Dulu pendekatan serupa dipakai saat menyusun visualisasi arsitektur
Jika ingin menaruh sofa, kursi, atau furnitur lain di posisi tertentu, Anda bisa membuat adegan sederhana yang kira-kira menentukan posisi “set piece” utama memakai alat seperti Poser, lalu menghasilkan depth map dari sana dan memasukkannya ke model generatif seperti SDXL pada masa itu untuk mengarahkan penempatan objek
Trik ini jelas termasuk jenis kiat yang membuat orang berpikir, “ah, kenapa saya tidak kepikiran ini”
Senang rasanya punya ini untuk dipakai nanti ketika hasil pembuatan gambar tidak memenuhi harapan
Hanya saja performanya belum sebagus sekarang, jadi saya kurang paham kenapa ini dianggap baru
Sanggahan standarnya adalah ini: kalau LLM benar-benar cerdas, kenapa ia tidak bisa sendiri menyadari bahwa proses dua tahap ini akan menghasilkan hasil yang lebih baik?
Untuk menyusun strategi, meninjau hasil, dan mencoba lagi, dibutuhkan proses bergaya agen di atasnya
Tampaknya Nano Banana dan gpt-image-2 punya sedikit hal seperti ini, tetapi ini mirip perbedaan antara menyuruh model menulis kode sekaligus dalam satu kali jalan dan membiarkan agent harness yang dilengkapi alat menanganinya
Bahkan agen yang sangat sederhana pun bisa menghasilkan kode yang lebih baik daripada ChatGPT sendirian
Cara seperti ini sudah dilakukan sejak lama, dan mirip dengan mengendalikan siluet memakai depth map atau line art
Saya suka nuansa di bagian kesimpulannya yang seperti “ini bekerja, tapi sebenarnya juga tidak sepenuhnya”
Sangat khas demam LLM/AI generatif: mengerahkan upaya rumit untuk menyesuaikan satu contoh yang sangat sempit, terlihat seperti hampir berhasil, tetapi pada akhirnya tetap tidak benar-benar jadi
Bagi manusia mudah memeriksa apakah angkanya benar, dan kalau salah tinggal hasilkan ulang gambarnya
Ini beberapa orde magnitudo lebih mudah daripada membuat gambar dari nol tanpa model
Saya terpikir bahwa untuk tugas umum seperti “SVG pelikan yang sedang bersepeda”, pendekatan sebaliknya bisa dicoba
Jika disuruh langsung mengeluarkan SVG, tentu kualitasnya kemungkinan buruk
Tetapi generator gambar bisa dengan mudah membuat gambar realistis yang keren, jadi mungkin cara yang baik untuk mendapatkan SVG pelikan-bersepeda yang layak adalah membuat gambar dulu, lalu menyuruh model melacaknya dan mengubahnya menjadi SVG
Pada akhirnya manusia juga jarang membuat karya seni SVG hanya dengan mengetik angka di notepad; inti utamanya tetap melihat dan memikirkan hasilnya sebagai gambar
Ini juga tampak mirip dengan cara manusia berusaha melakukannya secara akurat
Jika Anda menyuruh seorang seniman menggambar susunan batu melingkar besar sekaligus dalam satu kali jalan, lengkap dengan nomor urutnya, tanpa revisi atau sketsa, tidak aneh kalau akan muncul kesalahan penempatan