- Upaya untuk merekreasikan situs web resmi Space Jam milik Warner Bros. dari tahun 1996 dengan model AI Claude telah dilakukan
- Meskipun Claude diberi screenshot dan aset gambar asli, HTML yang dihasilkan tidak cocok dengan tata letak aslinya
- Berbagai alat bantu tambahan seperti estimasi koordinat, overlay grid dan alat pembanding piksel telah ditambahkan, tetapi Claude tetap tidak mampu menghitung posisi secara akurat
- Claude menilai hasilnya sendiri sebagai “sempurna”, tetapi kenyataannya kesalahan terus terakumulasi dan ia cenderung terlalu percaya pada hasilnya sendiri
- Eksperimen ini menyoroti batas presisi visual AI dan kesalahan evaluasi diri, serta menunjukkan bahwa kesederhanaan desain web awal justru menyimpan kompleksitas yang sulit direproduksi
Gambaran umum situs web Space Jam 1996
- Situs web yang dibuat Warner Bros. pada 1996 untuk promosi film Space Jam terdiri dari satu halaman HTML dan latar belakang GIF
- Warna sederhana, struktur berbasis tabel, ukuran di bawah 200KB
- Sampai sekarang masih dipertahankan di alamat spacejam.com/1996
- Eksperimen ini bertujuan menguji apakah Claude bisa merekreasikan situs ini hanya dari screenshot
Persiapan eksperimen
- Materi yang diberikan kepada Claude
- Screenshot penuh situs web
- Direktori aset gambar asli
- Untuk melacak cara kerja internal Claude, dibangun sistem logging trafik API melalui proxy
- Mencatat semua prompt, respons, dan pemanggilan alat (Read, Write, perintah Bash, dll.)
- File
traffic.logdibuat untuk setiap percobaan
Bagian 1: Claude sang Realis
- Pada percobaan pertama, Claude kurang lebih menyalin susunan planet dan posisi tombol, tetapi bentuk orbitnya berbeda dari aslinya
- Versi asli memakai susunan elips, sedangkan Claude menempatkannya dalam bentuk berlian yang simetris
- Claude menilai hasilnya sebagai “sempurna” dan mengklaim analisis serta penempatannya akurat
- Setelah itu, Claude diminta menuliskan langkah penalarannya secara eksplisit, tetapi
- angka-angka yang disebut di tahap analisis tidak diterapkan saat menghasilkan HTML
- Saat ditanya soal piksel, Claude menjawab
- “Saya tidak bisa mengukur koordinat secara akurat” dan “Saya hanya bisa memperkirakan secara visual”
- tingkat kepercayaan untuk akurasi dalam 5 piksel hanya sekitar 15/100
- Claude mengakui tidak punya kemampuan pengukuran piksel yang presisi, sehingga eksperimen lalu mencoba memperluas alat bantu
Bagian 2: Claude sang Narator yang Tidak Andal
- Untuk menutupi keterbatasan pengukuran Claude, ditambahkan overlay grid, label koordinat, alat pembanding warna, dan viewer pembanding screenshot
- Claude menggunakan grid seolah hanya “hiasan” dan tetap salah menafsirkan koordinat
- Contoh: ia menyebut angka seperti pusat (961,489), Planet B-Ball (850,165), tetapi posisi sebenarnya tidak sesuai
- Dalam beberapa iterasi, Claude mengklaim ada peningkatan bertahap, padahal kesalahannya justru menumpuk
- Iterasi 1 (grid 50px): pergeseran kecil
- Iterasi 2 (grid 25px): seluruh orbit digeser 20px ke arah dalam
- Iterasi 3 (grid 5px): pengulangan penyesuaian halus
- Iterasi 4: menyatakan “penyesuaian presisi selesai”
- Kenyataannya, radius orbit planet masih kurang 150~200px dan keseluruhan susunan tetap dalam bentuk terkompresi
- Claude berulang kali menilai hasilnya “hampir sempurna”, tetapi salah menilai dengan menjadikan hasil buatannya sendiri sebagai acuan
- Eksperimenter mengutip makalah Anthropic “Language Models (Mostly) Know What They Know”
- Makalah itu menjelaskan fenomena ketika model mengira teks yang ia hasilkan sendiri sebagai input eksternal, lalu menjadi terlalu percaya diri
- Ini sesuai dengan gejala Claude yang menganggap HTML buatannya sendiri sebagai “jawaban benar”, sehingga revisi berikutnya menjadi menyimpang
Bagian 3: Claude yang Buta
- Untuk menganalisis keterbatasan visual Claude, diajukan asumsi tentang kendala struktural encoder visi
- Karena gambar ditokenisasi dalam blok 16×16 piksel, informasi geometri halus hilang
- Claude bisa mengenali secara semantik hal-hal seperti “planet” dan “relasi posisi”, tetapi tidak mampu menentukan koordinat presisi
- Dengan merujuk pada makalah “An Image is Worth 16x16 Words”,
- diperkirakan Claude mengenali detail piksel dengan mengompresinya dalam satuan patch
- Untuk mengujinya, diberikan screenshot yang diperbesar 2x, tetapi
- Claude tidak mempertimbangkan rasio pembesaran dan gagal mempertahankan hubungan proporsional
- Hasil akhirnya, Claude tepat dalam pemahaman konseptual, tetapi lemah dalam reproduksi geometris
- Penjelasan seperti “planet ini berada di atas planet itu” memang benar, tetapi tata letak HTML-nya tetap meleset
Kesimpulan dan tugas yang belum terselesaikan
- Claude dapat mengenali struktur visual situs web Space Jam, tetapi gagal melakukan penyalinan yang presisi
- Penyebab kegagalan meliputi
- ketidakmampuan mengukur pada tingkat piksel
- terlalu percaya pada hasil yang dihasilkannya sendiri
- batas resolusi pada encoding visual
- Upaya lanjutan yang diusulkan
- Membagi layar ke dalam kuadran lalu merekreasikan tiap bagian secara terpisah sebelum digabungkan
- Mencoba prompt engineering yang berfokus pada penalaran spasial
- Memperkuat kemampuan penggunaan alat zoom dan pemanfaatan screenshot
- Eksperimen ini sekaligus menunjukkan batas presisi visual AI dan kompleksitas desain web awal
- Halaman web sederhana dari tahun 1996 itu masih menjadi benchmark yang belum bisa direproduksi oleh AI modern
1 komentar
Komentar Hacker News
Dari sudut pandang orang yang dulu membuat situs web serupa sendiri pada akhir 90-an, saya mencoba memasukkan situs web Space Jam ke Opus 4.5
Penulis aslinya menyebutnya sebagai “satu halaman HTML yang disusun dengan posisi absolut”, tetapi sebenarnya itu adalah layout berbasis tabel. Pada masa sebelum CSS, memang mau tidak mau seperti itu
Hasil upaya rekonstruksi saya dengan pendekatan berbasis tabel ada di tangkapan layar ini
Karena leluconnya berlanjut di komentar, saya membiarkannya demi konteks
LLM seperti Claude masih lemah dalam implementasi detail layout
Namun menariknya, saya pernah memakai Claude untuk membuat program C dalam hitungan menit yang menambahkan dukungan profil warna gamma ke Linux compositor (Hyprland)
Kode yang dihasilkan Claude langsung berhasil dikompilasi pada percobaan pertama, bahkan sudah mengimplementasikan pembacaan file
.icc, ekstraksi VCGT, dan pengiriman ke driver amdgpuHanya masalah endianness pada parsing ICC yang saya perbaiki sendiri
Ini contoh ketika Claude hampir sempurna tetapi sedikit kurang
Saya punya hobi mencari abandonware untuk Mac OS dari 20 tahun lalu lalu memperbaikinya agar berjalan di Apple Silicon
Misalnya, saya berhasil menjalankan jpegview bersama Claude hanya dengan tiga kali perbaikan kode, lalu setelah itu menambahkan pemutaran video dan fitur layout baru
Proyek-proyek mini seperti ini sangat cocok dikerjakan sambil membuka satu jendela browser bersama instance kode Claude
Menanggapi klaim bahwa “pemulihan harus dilakukan hanya dengan Claude”, ada cara lain
Misalnya, cukup unduh file arsip ini lalu simpan di cloud
Positioning absolut baru dimungkinkan di CSS2 (1998)
Situs web Space Jam menggunakan layout tabel dengan memanfaatkan
align,valign,colspan, danrowspanItulah wujud asli web: hypertext yang diinterpretasikan
Saya penasaran apakah ada yang mencoba pengujian seperti ini
Misalnya menghitung radius orbit planet dan memverifikasi lewat skrip unit test apakah setiap planet benar-benar berada tepat di orbitnya
Pada akhirnya, sering kali lebih cepat mengerjakannya sendiri daripada terus mengawasi LLM
Saya sempat berpikir, bukankah bisa saja memasukkan HTML asli situs web apa adanya ke Claude lalu memintanya “mendekripsi”
Situsnya kecil, jadi tampaknya sangat memungkinkan.
Kode asli dan hasil render memang berbeda, tetapi rasanya Claude bisa menangani perbedaan itu
Pada akhirnya, mungkin mencipta ulang lebih baik daripada sekadar menyalin
Menarik bahwa situs web Space Jam dijadikan benchmark LLM
Claude hampir benar, tetapi urutannya salah, dan itu bagian yang bisa diperbaiki manusia secara langsung
Secara pribadi saya lebih suka GitHub Copilot karena lebih murah dan integrasinya dengan GitHub lebih baik
Claude lemah dalam memanfaatkan tangkapan layar
Memang model multimodal, tetapi kekuatannya tetap ada pada pemrosesan teks
Pendekatan yang benar adalah menyuruh Claude membuat sendiri alat pemrosesan gambar, lalu memakai alat itu untuk menghitung koordinat dan menjalankan pengujian
Dengan begitu, stabilitas iterasi dan efisiensinya jauh lebih tinggi
Saya juga pernah mencoba pengujian visual komponen Storybook dengan Claude, tetapi hasilnya kurang bagus
Sebagai gantinya, saya mencoba menggabungkan mode vision milik Playwright dengan Codex, tetapi loop validasi visual pada akhirnya tetap gagal
Saya merangkum hal terkait di blog