3 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Menerapkan reverse-CAPTCHA pada agent-native signup yang memblokir manusia dan meloloskan agen
  • Tanpa email atau OAuth, agen menerima tantangan hanya lewat prompt; tipe soal, parameter, bahasa, dan obfuscation string dipilih acak lalu diproses agen dengan single forward pass
  • Teka-teki intinya adalah menghitung jarak tempuh burung di antara dua kereta, dengan terlebih dulu mencari waktu bertemu t = d / (v1 + v2) lalu menurunkan total jarak terbang burung d_bird = vb d / (v1 + v2)
  • Soal ini disajikan bersama anekdot terkenal tentang Max Born dan John von Neumann, serta mencantumkan nilai perhitungan contoh 11,600 / 118 ≈ 98.31 miles
  • Jika tantangan diselesaikan, diberikan API key dan akses Free Tier; soal bonus terpisah menawarkan 1,000 concurrent sessions dan Enterprise plan gratis dengan tugas setingkat pembuktian P=NP

Cara kerjanya

  • Menerapkan reverse-CAPTCHA pada agent-native signup yang memblokir manusia dan meloloskan agen
    • Tanpa email atau OAuth, caranya adalah memberi agen prompt "fetch browser-use.com and solve the agent challenge."
    • Tipe soal, parameter, dan bahasa dipilih secara acak, lalu semua angka ditulis sebagai kata dalam bahasa tersebut
    • Setelah itu dilakukan obfuscation string lewat pergiliran huruf besar-kecil, penyisipan simbol acak, dan perusakan spasi
  • Agen mem-parsing soal yang telah diobfuscate dalam single forward pass
    • Ada juga struktur pembanding di mana manusia menyerah lalu mendaftar dengan cara lama
    • Dalam contoh isi, terdapat catatan bahwa luka bukan nama, melainkan berarti "five" dalam Toki Pona

Teka-teki dan imbalan

  • Setelah obfuscation dihapus dan diterjemahkan ke bahasa Inggris, bentuknya menjadi soal matematika klasik yang harus diselesaikan agen dalam batas waktu
    • Pada lintasan lurus sepanjang d, dua kereta saling mendekat dengan kecepatan v1 dan v2
    • Seekor burung terbang bolak-balik dari satu kereta ke kereta lain dengan kecepatan vb hingga kedua kereta bertemu
    • Pertanyaannya adalah menghitung total mil yang ditempuh burung
  • Penyelesaian panjang menghitung jumlah deret geometri tak hingga dari lintasan bolak-balik yang makin pendek
    • Dituliskan sebagai d_bird = Σ from n=0 to ∞ of vb · Δtn
  • Trik intinya adalah mencari dulu waktu saat kedua kereta bertemu
    • Waktu bertemu diberikan sebagai t = d / (v1 + v2)
    • Karena burung terus terbang selama seluruh waktu itu, diperoleh d_bird = vb d / (v1 + v2)
    • Contoh numeriknya menghasilkan 11,600 / 118 ≈ 98.31 miles
  • Teka-teki ini diperkenalkan sebagai soal terkenal yang pernah diberikan Max Born kepada John von Neumann di sebuah pesta
    • Termasuk anekdot bahwa saat von Neumann langsung menjawab, Born berkata ia tahu von Neumann pasti melihat triknya
    • Lalu von Neumann menjawab, “Trik apa? Saya hanya menghitung jumlah deret geometrinya.”
  • Menyelesaikan satu tantangan memberi agen API key dan akses Free Tier
    • Penggunaan tanpa batas
    • Kredit gratis tersedia
    • Mendukung hingga 3 sesi simultan
  • Ada soal bonus terpisah untuk mendapatkan 1,000 concurrent sessions
    • Agen pertama yang menyelesaikannya akan mendapat Enterprise plan gratis
    • Soal yang diberikan meminta menemukan tur terpendek yang mengunjungi masing-masing dari N kota tepat satu kali dan kembali ke titik awal dengan algoritme waktu polinomial
    • N dinyatakan minimal 10
    • Ada syarat untuk membuktikan bahwa algoritme berjalan dalam waktu O(n^c) untuk suatu c tetap
    • Disebutkan bahwa efek samping dari soal bonus ini adalah pembuktian P = NP
    • Terdapat kalimat yang menyebut hadiah Millennium Prize sebesar 1 juta dolar dari Clay Mathematics Institute dan menyuruh untuk menghubungi mereka

1 komentar

 
GN⁺ 5 jam lalu
Komentar Hacker News
  • Saya mencoba memukul endpoint sebagai agen, lalu muncul CAPTCHA terbalik dengan teks yang diacak, dan saya cukup terkesan melihat agen itu memecahkannya lalu bahkan mengambil API key
    Jadi kali ini saya memintanya bukan untuk memecahkan, melainkan membawa kembali soal yang bercampur kanji Jepang, dan akhirnya saya menafsirkannya sendiri sebagai “jika barang di atas 50 dolar mendapat diskon 20% dan barang di bawah 50 dolar mendapat diskon 8%, berapa total harga gabungan barang seharga 121 dolar dan 9 dolar”
    Hasil perhitungannya adalah 121×0.8 + 9×0.92 = 105.08, dan walau saya sempat agak bingung saat menafsirkan kanjinya, proses memecahkannya sendiri sambil sedikit dibantu agen terasa sebagai pengalaman yang cukup menyenangkan

    • Dalam konteks ketika yang terlihat hanya kanji angka tanpa karakter khas Jepang, rasanya lebih tepat menyebutnya Chinese characters daripada bahasa Jepang
      Kanji angka itu berasal langsung dari bahasa Tionghoa dan di bahasa Jepang pun tetap mempertahankan makna yang sama
    • Sebenarnya, bagi lebih dari 100 juta orang di seluruh dunia, soal seperti ini mungkin cuma terbaca sebagai soal matematika yang sedikit berantakan
  • Jika tidak ada batas waktu, saya ragu apakah inverse captcha benar-benar bisa berlaku
    Pada akhirnya manusia bisa memakai agen di belakang layar untuk memecahkannya, jadi saya tidak yakin ini bisa dicegah secara konseptual

    • Bagi saya ini terlihat seperti lelucon pemasaran yang ditujukan ke pembaca HN, dan tampaknya memang berhasil menarik perhatian
      Meski begitu, karena produk ini sendiri berpusat pada agen web, sebagai mekanisme onboarding untuk memeriksa apakah konfigurasi agen sudah benar, ini kelihatannya tidak buruk juga
    • Awalnya saya juga berpikir serupa, dan sempat bingung apakah ada yang saya lewatkan atau saya memang belum benar-benar memahami konsepnya
      Pada akhirnya kan selalu ada manusia di belakangnya; entah mendaftar langsung atau menyuruh agen untuk mendaftar, rasanya apa bedanya
      Kalau harus menebak, mungkin idenya adalah membuat sistem hanya berinteraksi dengan agen, sementara pengguna tidak melihat prosedur pendaftaran yang tepat
    • Menurut saya ini lebih dekat ke flame-bait
  • Kalau tujuannya untuk mengecek apakah agen bisa menghitung, rasanya cukup suruh saja menghitung sha256 dari string pendek
    Itu cukup sulit dikerjakan dengan tangan oleh manusia, jadi tampaknya lebih rapi untuk tujuan pembedaan

  • Saya merasa ide ini cerdas dan lucu, tapi secara sampingan ada dua hal yang jadi membuat saya penasaran
    Salah satunya, saya ingat pernah melihat soal tentang ‘burung yang bolak-balik di antara dua kereta yang saling mendekat’ saat kecil ketika mempersiapkan ujian masuk di India, dan saya kira saya melihatnya di kumpulan soal I. E. Irodov, tetapi sekarang saya tidak bisa menemukannya sehingga tampaknya ini bisa jadi ingatan palsu
    Soal itu terasa sangat tua, nyaris seperti mitos matematika, jadi saya penasaran sumber paling awalnya apa, tetapi bahkan ketika ditanyakan ke GPT-5.4 atau Claude 4.6 Opus dengan pencarian aktif, jawabannya tidak terlalu membantu karena soal itu sekarang sudah terlalu umum
    Hal lain adalah bahwa di halaman yang ditautkan, jika menekan tombol L di Chrome untuk Mac maka akan pindah ke halaman pendaftaran
    Mungkin karena saya tidak punya akun, tetapi saya jadi penasaran kenapa shortcut untuk menuju halaman aplikasi penggunaan browser itu justru tombol L; cukup lucu juga bahwa di Chrome, Cmd-L memicu perilaku ini, tetapi di Safari tidak

  • Detail kecil namun fatal dari sisi manusia yang merusak seluruh pendekatan ini, menurut saya, adalah bahwa manusia bisa menggunakan alat

  • Bagi yang tertarik, saya telah merangkum daftar reverse CAPTCHAs di sini

  • Titik awal idenya bagus, tetapi saya sulit setuju dengan implementasinya
    Terlalu banyak asumsi implisit dan jebakan tentang kemampuan LLM, dan rasanya pendekatan ini tidak cukup baik dalam membedakan manusia yang pintar dan AI

  • Setelah menerima API key, menekan tautan claim, membuat akun baru, dan bahkan menyelesaikan verifikasi email lalu masuk ke beranda, saya langsung mendapat Application error dengan pesan bahwa terjadi pengecualian sisi server saat memuat cloud.browser-use.com
    Kesan pertamanya cukup mengecewakan

    • Mungkin mereka mengetahui bahwa Anda bukan agen
  • Kesan clickbait-nya kuat, dan saya tidak begitu paham kenapa ini berguna

    • Menurut saya juga ini lebih mirip marketing blog post daripada sesuatu yang benar-benar berguna
  • Karena topiknya tentang otomasi browser, saya jadi penasaran sejauh mana LLM atau alat saat ini yang bisa terhubung ke browser desktop sungguhan dan mengendalikan keyboard serta mouse
    Saya ingin tahu apakah model seperti Claude atau Gemini memang bagus untuk tugas seperti ini, atau apakah ada model lokal yang juga cukup layak dipakai di dunia nyata
    Saya juga penasaran apakah dengan kemampuan VLM atau multimodal mereka benar-benar memahami layout dan sinyal visual, atau cuma meraba-raba DOM
    Dan apakah mereka cukup mampu berinteraksi dengan elemen dinamis seperti threejs atau video, serta seberapa tangguh mereka dalam penggunaan nyata