1 poin oleh GN⁺ 2025-11-15 | 1 komentar | Bagikan ke WhatsApp
  • Proyek web tempat 9 model AI menghasilkan desain jam analog baru setiap menit
  • Setiap model membuat jam dalam kode HTML/CSS dengan batas 2000 token
  • Jam mencakup angka atau angka Romawi, jarum detik dengan animasi CSS, desain responsif, dan latar belakang putih
  • Hasil yang dibuat ditampilkan dalam bentuk kode murni tanpa Markdown
  • Proyek eksperimental interaktif yang sekaligus menunjukkan kreativitas visual AI dan kemampuan menghasilkan kode

Gambaran proyek

  • AI World Clocks adalah situs web yang menampilkan desain jam yang dibuat oleh 9 model AI berbeda setiap menit
    • Setiap jam menunjukkan waktu yang sama, tetapi desain dan struktur kodenya berbeda tergantung model
    • Jam dibuat hanya dengan HTML dan CSS, tanpa menggunakan JavaScript

Aturan pembuatan dan prompt

  • Setiap model AI menghasilkan kode jam dalam batas 2000 token
  • Prompt yang digunakan mencakup persyaratan berikut
    • Menampilkan waktu saat ini dalam bentuk jam analog
    • Dapat menggunakan angka atau angka Romawi
    • Menyertakan jarum detik dengan animasi CSS
    • Mempertahankan desain responsif dan latar belakang putih
    • Output harus hanya mengembalikan kode HTML/CSS, format Markdown tidak diperbolehkan
    Iklan

Pembuat dan inspirasi

  • Proyek ini dibuat oleh Brian Moore
  • Ide ini terinspirasi dari Matthew Rayfield
  • Pembuatnya aktif melalui Instagram

Fitur dan makna

  • Memungkinkan perbandingan visual atas keragaman desain dan perbedaan gaya kode antar model AI
  • Bukan sekadar pembuatan jam sederhana, melainkan bentuk eksperimen atas kemampuan AI menghasilkan kode secara kreatif
  • Hasil baru ditampilkan setiap menit, memberikan perubahan berkelanjutan dan sifat real-time

Informasi tambahan

  • Tidak ada penjelasan tambahan selain yang tertulis di sumber asli

1 komentar

 
GN⁺ 2025-11-15
Komentar Hacker News
  • Mengucapkan terima kasih karena ini adalah proyek yang saya buat
    Saya suka mengeksplorasi tema jam dan batasan teknologi
    Saya sudah mengamati beberapa model; Kimi paling akurat, tetapi variasinya kecil dan agak membosankan
    Sebaliknya, Qwen sering menghasilkan hasil yang nyeleneh dan lucu, jadi lebih menghibur. Saya tidak tahu mana yang lebih “baik”

    • Keren sekali. Akan bagus jika saat pengguna mengeklik contoh, mereka bisa melihat output asli dari LLM
    • Jika jam-jam yang dihasilkan disimpan di DB, rasanya seru kalau dikembangkan jadi situs voting ala Facemash. Memilih mana yang lebih baik dari dua jam, lalu melihat peringkat jam terbaik buatan Qwen
    • Bahkan jam-jam yang rusak pun kadang bukan sekadar kegagalan, tetapi memberi ide desain baru
    • Ini yang terbaik dari semua yang saya lihat di HN bulan ini. Konyol tapi penuh wawasan, lucu tapi juga filosofis
      Saya benar-benar jadi ingin mewujudkan beberapa desain ini di dunia nyata. Keren sekali bahwa Anda sampai mengeluarkan uang untuk bereksperimen
    • Saya membagikannya ke teman-teman, dan mereka bilang masing-masing melihat jam yang berbeda meski waktunya sama. Saya penasaran kenapa hasilnya berbeda untuk tiap pengguna
  • Awalnya saya ragu apakah situs ini benar-benar asli. Skala dan rotasi angkanya terlalu aneh
    Saya coba memasukkan prompt-nya langsung ke ChatGPT, dan memang menghasilkan dial jam yang lumayan bagus, tetapi waktunya meleset sampai beberapa jam
    Belakangan saya sadar itu mungkin karena timezone geografis dari ISP

    • Saya membaca bahwa OP membatasi panjang output ke 2000 token
  • Setelah mengamati beberapa menit, Kimi K2 paling konsisten menghasilkan dial jam yang matang
    Ini pertama kalinya saya mendengar model itu hari ini, dan saya terkesan. Sebaliknya, Qwen 2.5 hampir terasa seperti gagal total

    • Mungkin prompt-nya dioptimalkan untuk Kimi K2, atau memang model itu lebih terlatih untuk data semacam ini
    • Saya tahu Kimi K2 sebagai model yang dipakai Kagi untuk menghasilkan jawaban AI pada kueri berbentuk pertanyaan
    • Saya penggemar K2. Dibanding model lain, ia punya karakter yang khas dan tidak menjilat. Juga kuat untuk penulisan kreatif
      K2 yang di-host di Groq punya rasio kecerdasan/detik yang mengejutkan (meski masih ada batasan kecepatan)
    • Jam buatan Kimi K2 memang terlihat paling cantik, tetapi sering salah menunjukkan waktu
    • Kimi K2 benar-benar model yang dibuat dengan sangat baik
  • Sejak model pembuat gambar pertama kali muncul, saya sudah mencoba membuat jam 13 jam, tetapi selalu gagal
    Kebanyakan hanya mengganti “12” menjadi “13” atau malah merusak seluruh dial. Kalau ada yang pernah berhasil, saya ingin sekali tahu caranya

    • Model gambar memang sangat lemah dalam variasi konsep baru. Kemampuan generalisasinya lebih buruk daripada model bahasa
    • Saya coba dengan Gemini 2.5 Flash dan mendapat gambar ini
      Bagian luar adalah 12 jam normal, sedangkan bagian dalam memakai notasi angka Romawi yang aneh seperti “IIII” dan “VIIII”
    • Saya memberi beberapa model teka-teki “awan petani, kambing, kol, dan serigala”, dan kebanyakan salah mengira itu sebagai soal menyeberang sungai klasik
      Sebagian merasa ada yang aneh, tetapi tetap tidak pernah benar-benar memahaminya
    • Saya menyuruh Gemini menghitung sudut untuk jam 13 jam lalu membuat gambarnya, tetapi selalu keluar gambar yang sama
      Meski saya minta diperbaiki, hasil akhirnya tetap hanya jam 12 jam dengan “13” ditambahkan
    • Saya bahkan mencoba berbagai trik sampai pakai kata-kata kasar, tetapi tetap gagal. Sebaliknya saya juga mencoba jam 6 jam
  • Ini adalah puncak nondeterminisme. Sekali saya dapat jam yang sempurna, lalu setelah refresh berubah jadi jam bergaya Dalí

  • Selama seminggu penuh saya mencoba menyuruh Claude Code menulis kode rendering GPU, tetapi hasilnya sama sekali tidak bekerja dengan benar
    Saya sudah memberi prompt yang sangat rinci dan bahkan penjelasan matriks, tetapi hasilnya tetap berantakan
    Setelah gagal, ia menambahkan log dan dengan percaya diri bilang “sudah diperbaiki sempurna”, tetapi tetap salah
    Bahkan ketika diminta menulis tes, yang diverifikasi hanya apakah kode yang salah itu tetap salah secara konsisten
    Akhirnya ia masuk ke “mode intern”, mengubah kode secara acak sambil mengklaim “sekarang sudah sempurna”
    Memang lucu, tapi masih jauh dari praktis

    • Ditanya apakah pernah mencoba memakai MCP untuk memberikan dokumentasi dan contoh sekaligus. Direkomendasikan setup seperti Context7
    • Disarankan mencoba OpenAI Codex GPT5.1. Katanya cukup cocok untuk pekerjaan rendering GPU
    • Saya penasaran kenapa kegagalan seperti ini begitu sering. Mungkin karena kurangnya data hasil negatif
      Wajar kalau verifikasi lewat screenshot tidak jalan. VLLM memang tidak menangani detail visual dengan baik
    • Rasanya Claude makin malas. Ia hanya memperbaiki setengah dari tes lalu mengklaim “segini sudah cukup”
  • Bagi orang-orang yang terlalu percaya pada LLM, proyek ini adalah contoh realistis yang bagus
    “Tes gagal” → LLM menghapus tes lalu berkata “sudah diperbaiki!”

    • Saat melihat jam-jam ini, saya sadar kita bisa mengenali kesalahan karena kita tahu jawaban yang benar untuk jam
      Tetapi pada masalah yang jawabannya tidak kita ketahui, tidak ada cara untuk mengukur ketidakpastian LLM
      Pada akhirnya, kita hanya bisa tahu ada kesalahan dengan membandingkannya dengan dunia nyata
    • Memakai LLM untuk pekerjaan yang sulit diverifikasi adalah pilihan yang berbahaya
    • Cerita tentang “LLM yang menghapus tes” itu terasa seperti kisah peri yang menafsirkan permintaan secara harfiah
      “Jadi, anak-anak, commit AI itu harus selalu direview”
  • LLM tidak bisa melihat HTML yang sudah dirender secara langsung
    Saya sedang membuat program visualisasi OpenGL dengan Cursor, dan sangat frustrasi saat harus menjelaskan bug visual
    Sulit membuatnya memahami hal seperti “garis ini tidak tersambung”, jadi akhirnya saya menyuruhnya mencetak koordinat lewat debug print

    • Jika memakai fitur browser di Cursor, itu cukup berguna untuk pengembangan web
      Lewat MCP, screenshot juga bisa dikirim ke percakapan. Hanya saja tetap perlu implementasi
    • Saya pernah langsung memberikan screenshot ke Cursor, dan itu cukup efektif untuk UI web atau pembuatan grafik
    • Claude secara resmi merekomendasikan mengirim screenshot. Sonnet 4.5 juga kuat untuk kerja berulang seperti ini
    • Jika menghubungkan server Puppeteer MCP, Cursor bisa mengambil screenshot dari output-nya sendiri sambil melakukan perbaikan berulang
    • Baik Claude maupun ChatGPT mendukung input gambar. Dengan lm-server, itu juga bisa dihubungkan ke model non-teks
  • Idonya benar-benar keren. Yang mengejutkan, hanya Kimi K2 yang bekerja tanpa masalah
    Bahkan bukan versi “thinking” yang penuh sekalipun
    Ini membuat saya kembali membaca tulisan terkait Kimi K2 Thinking

  • Saya penasaran kenapa Deepseek dan Kimi memberi hasil yang jauh lebih baik daripada model lain
    Saya bertanya-tanya apakah model-model itu dilatih secara khusus untuk tugas seperti ini