Menggunakan “underdrawing” untuk teks dan angka yang akurat

(samcollins.blog)

8 poin oleh GN⁺ 2026-05-05 | 1 komentar | Bagikan ke WhatsApp

underdrawing adalah metode yang terlebih dahulu membuat gambar sketsa dasar secara deterministik berisi posisi angka dan teks, lalu model pembuat gambar menambahkan gaya visual di atasnya untuk meningkatkan akurasi
Dalam tugas menata 50 batu pijakan dalam bentuk spiral dan memberi nomor 1 sampai 50, Gemini 3 Pro dan ChatGPT Images 2 tidak dapat secara konsisten menempatkan angka dan urutannya dengan benar tanpa underdrawing
Untuk tugas yang sama, Gemini 3.0 Pro yang diberi underdrawing berhasil menghasilkan hasil dengan nomor, jumlah dan urutan tombol, serta bentuk spiral yang benar
Implementasinya dapat dilakukan dengan alat seperti SVG/HTML untuk menempatkan angka dan teks pada posisi serta arah yang diinginkan, mengekspornya sebagai gambar, lalu memasukkan gambar tersebut bersama prompt teks ke model gambar multimodal
Metode ini tidak selalu sempurna setiap saat, tetapi untuk pembuatan gambar yang menuntut penempatan teks dan angka secara penting, pendekatan ini membagi penempatan deterministik dan kemampuan ekspresi visual model generatif

Konteks inti dan cara implementasi

Ini adalah pola yang muncul dalam proses membuat gambar papan petualangan 100 tahap, dan diringkas sebagai pendekatan “memberi kontur lalu membiarkannya diwarnai di atasnya”
Lapisan deterministik
- SVG/HTML secara visual memang kaku, tetapi sangat kuat dalam penataan matematis dan presisi
- Cukup tempatkan angka dan teks sesuai posisi serta arah yang diinginkan, lalu ekspor sebagai gambar yang memuat piksel tersebut
- Formatnya bisa menggunakan alat apa pun yang diinginkan seperti SVG, Python, Mermaid, dan lain-lain
Lapisan generatif
- Model pembuat gambar mampu menghasilkan visual yang sangat baik, tetapi keandalannya rendah dalam matematika dan teks
- Pada model gambar multimodal yang dapat menerima input gambar dan teks lalu menghasilkan gambar, seperti Gemini 3.0 Pro, gambar underdrawing dan prompt teks dimasukkan bersama
- Prompt contoh tahap 1 meminta pembuatan SVG yang menata 50 batu pijakan dalam spiral ke dalam berlawanan arah jarum jam dan memberi nomor berurutan dari 1 sampai 50 pada tiap batu
- Prompt contoh tahap 2 meminta gambar tersebut diubah menjadi diorama claymation bergaya foto dengan sudut rendah dan sedikit miring, berisi cokelat artisan dan permen yang diletakkan sebagai jalur spiral
Otomatisasi dan keterbatasan
- Claude Code atau Codex dapat menjalankan tiap tahap sebagai pengganti
- Hasilnya bagus, tetapi tidak selalu sempurna, dan bahkan pada hasil akhir pun angka “71” tidak terlihat

1 komentar

GN⁺ 2026-05-05

Komentar Hacker News

Senang melihat ada arus yang makin memahami lebih dalam hal-hal yang pada dasarnya dikuasai LLM dan yang tidak, maksudnya bukan mustahil sama sekali, tetapi pekerjaan yang peluang suksesnya rendah karena keterbatasan mendasar
Ini mirip dengan pendekatan di mana arsitektur perangkat lunak ditentukan manusia lalu implementasi fungsi diserahkan ke LLM, atau alih-alih menyuruhnya melakukan analisis data secara langsung, menyuruhnya menulis kueri SQL
Akan bagus jika ada kerangka klasifikasi tugas dan riset yang lebih jelas tentang unit kerja seperti apa yang cocok untuk LLM dan yang tidak; intuisi soal ini memang mulai terbentuk, tetapi saya masih melihat banyak orang sering tersandung di sini
- Pendekatan “arsitektur ditentukan manusia dan fungsi ditulis LLM” adalah cara pakai yang sampai belum lama ini direkomendasikan oleh para pengguna awal alat bantu coding LLM
  Caranya menyuruh model membuat garis besar dulu, lalu mengimplementasikan tiap fungsi secara terpisah, dan beberapa kali ada tulisan blog di HN yang menggambarkan pendekatan ini dengan istilah yang diambil dari pekerjaan animasi
- Ungkapan keterbatasan mendasar sering muncul saat membahas LLM, tetapi sampai sekarang belum ada satu pun pembuktian ketat bahwa keterbatasan seperti itu benar-benar ada
  Dua tahun lalu, tugas-tugas seperti menghitung huruf atau pemrosesan fonem yang katanya mustahil karena “keterbatasan mendasar” kini dalam banyak kasus sudah bukan masalah besar bahkan tanpa alat bantu
Setiap kali membaca prompt pembuatan gambar, saya selalu melihat detail yang sangat spesifik yang jelas-jelas diabaikan model
Di sini juga, cokelat/permen pada dua gambar terakhir jauh dari kesan buatan tangan ala perajin, terlihat terlalu seperti produk massal yang steril, dan sudut pandangnya juga tidak tepat
Kalau model mengabaikan sebagian besar instruksi, saya jadi bertanya-tanya kenapa prompt-nya harus sepanjang itu
- Saya suka contoh ketika meminta “pencahayaan studio” lalu model malah memasukkan banyak peralatan lampu studio ke dalam foto
- Permennya sebenarnya bukan berusaha terlihat seperti buatan tangan perajin, melainkan mencoba mencocokkan gambar dalam data latih yang dipromosikan dan diberi label artisanal oleh perusahaan
  Ekspresi seperti rustic, homemade, atau amateur mungkin lebih cocok dengan penandaan datanya
- Saat beberapa kali memakai generator gambar, saya juga terus gagal tepat di bagian seperti ini
  Awalnya saya mengira ini karena kemampuan menulis prompt saya kurang, tetapi begitu mulai sadar dan memperhatikan ketidakcocokan seperti ini, ternyata cukup sering terlihat
- Saya rasa sebagian besar prompt yang detail itu dibuat oleh AI
- Saya penasaran berapa lama waktu yang dibutuhkan untuk memikirkan semua ini
  Kalau yang diinginkan adalah gambar seperti yang terakhir, dengan “tombol-tombol” kecil tersusun spiral, itu memang tidak terlalu tampak seperti permen, tetapi bahkan kalau pun tidak terlalu jago Blender, rasanya bisa dibuat dalam satu sore
Saya menemukan teknik sederhana untuk mendapatkan teks dan angka yang stabil dari gambar buatan AI
Cukup mengejutkan karena model gambar sendiri belum melakukannya seperti ini, jadi saya merasa ini cukup berguna dan ingin membagikannya
- Dalam beberapa hal ini mirip dengan memakai ControlNet
  Saya sudah cukup lama memakai teknik yang sama dengan hanya menggunakan SVG sebagai gambar dasar, dan hasilnya berjalan baik
- Sangat mengesankan, sederhana, dan stabil
  Sepertinya laboratorium riset pembuatan gambar akan segera mengadopsinya
- Saya merasa ini semacam chain of thought, yaitu mirip dengan https://arxiv.org/abs/2201.11903
  Strukturnya adalah pengguna membantu model menyelesaikan masalah secara 1-shot atau k-shot alih-alih membiarkannya menyelesaikan sendiri secara 0-shot
  Saya pernah memakai teknik serupa dengan sangat efektif, dan karena bidang ini masih sangat baru dan bergerak cepat, rasanya istilah umum yang disepakati masih kurang, jadi blog dan contohnya sangat berguna
  Meski begitu, mungkin saja fenomena ini sudah diamati dan dipahami di komunitas yang lebih kecil atau dengan nama lain
- Ringkasnya, caranya adalah membuat kontur yang benar dengan SVG terlebih dahulu, lalu mengirim gambar itu bersama prompt teks ke Gemini 3.0 Pro agar dirender dengan angka dan teks yang akurat
Ini pada dasarnya hanya img2img pertama yang dibuat dengan kode dan memiliki struktur yang benar
- Ya, tepat seperti itu
  Jika sejak awal era Stable Diffusion Anda sudah memakai model generatif, ini teknik yang cukup umum dan berguna: menggunakan sketsa (SVG, gambar tangan, dan sebagainya) sebagai ControlNet sementara untuk mengarahkan keluaran model generatif
  Dulu pendekatan serupa dipakai saat menyusun visualisasi arsitektur
  Jika ingin menaruh sofa, kursi, atau furnitur lain di posisi tertentu, Anda bisa membuat adegan sederhana yang kira-kira menentukan posisi “set piece” utama memakai alat seperti Poser, lalu menghasilkan depth map dari sana dan memasukkannya ke model generatif seperti SDXL pada masa itu untuk mengarahkan penempatan objek
- Kurang lebih sama persis dengan yang dikatakan penulis, hanya ditambah sedikit konteks untuk pemula
- Benar, tetapi saat membuat kode itu Anda bisa memakai model pembuat kode lain
Trik ini jelas termasuk jenis kiat yang membuat orang berpikir, “ah, kenapa saya tidak kepikiran ini”
Senang rasanya punya ini untuk dipakai nanti ketika hasil pembuatan gambar tidak memenuhi harapan
- Aplikasi Stable Diffusion asli dulu juga sudah punya image-to-image
  Hanya saja performanya belum sebagus sekarang, jadi saya kurang paham kenapa ini dianggap baru
Sanggahan standarnya adalah ini: kalau LLM benar-benar cerdas, kenapa ia tidak bisa sendiri menyadari bahwa proses dua tahap ini akan menghasilkan hasil yang lebih baik?
- Pada level dasar, model gambar hanyalah struktur yang menerima token teks sebagai input lalu mengeluarkan token gambar
  Untuk menyusun strategi, meninjau hasil, dan mencoba lagi, dibutuhkan proses bergaya agen di atasnya
  Tampaknya Nano Banana dan gpt-image-2 punya sedikit hal seperti ini, tetapi ini mirip perbedaan antara menyuruh model menulis kode sekaligus dalam satu kali jalan dan membiarkan agent harness yang dilengkapi alat menanganinya
  Bahkan agen yang sangat sederhana pun bisa menghasilkan kode yang lebih baik daripada ChatGPT sendirian
- Karena LLM umumnya di-hardcode untuk sedikit menyempurnakan prompt jenis “buat gambar” lalu meneruskannya ke model terpisah
- Yang tidak tahu ya memang tidak tahu
- Karena sebenarnya tidak cerdas
- Tidak ada yang pernah memintanya melakukan itu
Cara seperti ini sudah dilakukan sejak lama, dan mirip dengan mengendalikan siluet memakai depth map atau line art
Saya suka nuansa di bagian kesimpulannya yang seperti “ini bekerja, tapi sebenarnya juga tidak sepenuhnya”
Sangat khas demam LLM/AI generatif: mengerahkan upaya rumit untuk menyesuaikan satu contoh yang sangat sempit, terlihat seperti hampir berhasil, tetapi pada akhirnya tetap tidak benar-benar jadi
- Kalau sebagian saja bekerja, itu tetap berguna
  Bagi manusia mudah memeriksa apakah angkanya benar, dan kalau salah tinggal hasilkan ulang gambarnya
  Ini beberapa orde magnitudo lebih mudah daripada membuat gambar dari nol tanpa model
Saya terpikir bahwa untuk tugas umum seperti “SVG pelikan yang sedang bersepeda”, pendekatan sebaliknya bisa dicoba
Jika disuruh langsung mengeluarkan SVG, tentu kualitasnya kemungkinan buruk
Tetapi generator gambar bisa dengan mudah membuat gambar realistis yang keren, jadi mungkin cara yang baik untuk mendapatkan SVG pelikan-bersepeda yang layak adalah membuat gambar dulu, lalu menyuruh model melacaknya dan mengubahnya menjadi SVG
Pada akhirnya manusia juga jarang membuat karya seni SVG hanya dengan mengetik angka di notepad; inti utamanya tetap melihat dan memikirkan hasilnya sebagai gambar
Ini juga tampak mirip dengan cara manusia berusaha melakukannya secara akurat
Jika Anda menyuruh seorang seniman menggambar susunan batu melingkar besar sekaligus dalam satu kali jalan, lengkap dengan nomor urutnya, tanpa revisi atau sketsa, tidak aneh kalau akan muncul kesalahan penempatan

Menggunakan “underdrawing” untuk teks dan angka yang akurat

Konteks inti dan cara implementasi

Lapisan deterministik

Lapisan generatif

Otomatisasi dan keterbatasan

Bacaan terkait

1 komentar

Komentar Hacker News