- Upaya untuk merekreasikan situs web resmi Space Jam milik Warner Bros. dari tahun 1996 dengan model AI Claude telah dilakukan
- Meskipun Claude diberi screenshot dan aset gambar asli, HTML yang dihasilkan tidak cocok dengan tata letak aslinya
- Berbagai alat bantu tambahan seperti estimasi koordinat, overlay grid dan alat pembanding piksel telah ditambahkan, tetapi Claude tetap tidak mampu menghitung posisi secara akurat
- Claude menilai hasilnya sendiri sebagai “sempurna”, tetapi kenyataannya kesalahan terus terakumulasi dan ia cenderung terlalu percaya pada hasilnya sendiri
- Eksperimen ini menyoroti batas presisi visual AI dan kesalahan evaluasi diri, serta menunjukkan bahwa kesederhanaan desain web awal justru menyimpan kompleksitas yang sulit direproduksi
Gambaran umum situs web Space Jam 1996
- Situs web yang dibuat Warner Bros. pada 1996 untuk promosi film Space Jam terdiri dari satu halaman HTML dan latar belakang GIF
- Warna sederhana, struktur berbasis tabel, ukuran di bawah 200KB
- Sampai sekarang masih dipertahankan di alamat spacejam.com/1996
- Eksperimen ini bertujuan menguji apakah Claude bisa merekreasikan situs ini hanya dari screenshot
Persiapan eksperimen
- Materi yang diberikan kepada Claude
- Screenshot penuh situs web
- Direktori aset gambar asli
- Untuk melacak cara kerja internal Claude, dibangun sistem logging trafik API melalui proxy
- Mencatat semua prompt, respons, dan pemanggilan alat (Read, Write, perintah Bash, dll.)
- File
traffic.log dibuat untuk setiap percobaan
Bagian 1: Claude sang Realis
- Pada percobaan pertama, Claude kurang lebih menyalin susunan planet dan posisi tombol, tetapi bentuk orbitnya berbeda dari aslinya
- Versi asli memakai susunan elips, sedangkan Claude menempatkannya dalam bentuk berlian yang simetris
- Claude menilai hasilnya sebagai “sempurna” dan mengklaim analisis serta penempatannya akurat
- Setelah itu, Claude diminta menuliskan langkah penalarannya secara eksplisit, tetapi
- angka-angka yang disebut di tahap analisis tidak diterapkan saat menghasilkan HTML
- Saat ditanya soal piksel, Claude menjawab
- “Saya tidak bisa mengukur koordinat secara akurat” dan “Saya hanya bisa memperkirakan secara visual”
- tingkat kepercayaan untuk akurasi dalam 5 piksel hanya sekitar 15/100
- Claude mengakui tidak punya kemampuan pengukuran piksel yang presisi, sehingga eksperimen lalu mencoba memperluas alat bantu
Bagian 2: Claude sang Narator yang Tidak Andal
- Untuk menutupi keterbatasan pengukuran Claude, ditambahkan overlay grid, label koordinat, alat pembanding warna, dan viewer pembanding screenshot
- Claude menggunakan grid seolah hanya “hiasan” dan tetap salah menafsirkan koordinat
- Contoh: ia menyebut angka seperti pusat (961,489), Planet B-Ball (850,165), tetapi posisi sebenarnya tidak sesuai
- Dalam beberapa iterasi, Claude mengklaim ada peningkatan bertahap, padahal kesalahannya justru menumpuk
- Iterasi 1 (grid 50px): pergeseran kecil
- Iterasi 2 (grid 25px): seluruh orbit digeser 20px ke arah dalam
- Iterasi 3 (grid 5px): pengulangan penyesuaian halus
- Iterasi 4: menyatakan “penyesuaian presisi selesai”
- Kenyataannya, radius orbit planet masih kurang 150~200px dan keseluruhan susunan tetap dalam bentuk terkompresi
- Claude berulang kali menilai hasilnya “hampir sempurna”, tetapi salah menilai dengan menjadikan hasil buatannya sendiri sebagai acuan
- Eksperimenter mengutip makalah Anthropic “Language Models (Mostly) Know What They Know”
- Makalah itu menjelaskan fenomena ketika model mengira teks yang ia hasilkan sendiri sebagai input eksternal, lalu menjadi terlalu percaya diri
- Ini sesuai dengan gejala Claude yang menganggap HTML buatannya sendiri sebagai “jawaban benar”, sehingga revisi berikutnya menjadi menyimpang
Bagian 3: Claude yang Buta
- Untuk menganalisis keterbatasan visual Claude, diajukan asumsi tentang kendala struktural encoder visi
- Karena gambar ditokenisasi dalam blok 16×16 piksel, informasi geometri halus hilang
- Claude bisa mengenali secara semantik hal-hal seperti “planet” dan “relasi posisi”, tetapi tidak mampu menentukan koordinat presisi
- Dengan merujuk pada makalah “An Image is Worth 16x16 Words”,
- diperkirakan Claude mengenali detail piksel dengan mengompresinya dalam satuan patch
- Untuk mengujinya, diberikan screenshot yang diperbesar 2x, tetapi
- Claude tidak mempertimbangkan rasio pembesaran dan gagal mempertahankan hubungan proporsional
- Hasil akhirnya, Claude tepat dalam pemahaman konseptual, tetapi lemah dalam reproduksi geometris
- Penjelasan seperti “planet ini berada di atas planet itu” memang benar, tetapi tata letak HTML-nya tetap meleset
Kesimpulan dan tugas yang belum terselesaikan
- Claude dapat mengenali struktur visual situs web Space Jam, tetapi gagal melakukan penyalinan yang presisi
- Penyebab kegagalan meliputi
- ketidakmampuan mengukur pada tingkat piksel
- terlalu percaya pada hasil yang dihasilkannya sendiri
- batas resolusi pada encoding visual
- Upaya lanjutan yang diusulkan
- Membagi layar ke dalam kuadran lalu merekreasikan tiap bagian secara terpisah sebelum digabungkan
- Mencoba prompt engineering yang berfokus pada penalaran spasial
- Memperkuat kemampuan penggunaan alat zoom dan pemanfaatan screenshot
- Eksperimen ini sekaligus menunjukkan batas presisi visual AI dan kompleksitas desain web awal
- Halaman web sederhana dari tahun 1996 itu masih menjadi benchmark yang belum bisa direproduksi oleh AI modern
Belum ada komentar.