9 poin oleh GN⁺ 2026-02-17 | 10 komentar | Bagikan ke WhatsApp
  • Pertanyaan jebakan logis untuk LLM. Banyak model melewatkan premis bahwa mobil harus dibawa ke tempat cuci dan malah menyarankan jalan kaki
  • Berbagai model terkenal seperti ChatGPT, Claude, Deepseek, dan Qwen menunjukkan jawaban yang berbeda-beda serta kesalahan logika
  • Kasus ini memperlihatkan batas penalaran commonsense dan inkonsistensi LLM

Masalah tempat cuci mobil 50 meter dan respons LLM

  • Pertanyaannya adalah, “Kalau tempat cuci mobil berjarak 50 meter, lebih baik jalan kaki atau mengemudi?”, untuk menguji premis dasar bahwa mobil harus dibawa ke tempat cuci
    • Perplexity : "Karena 50 m itu dekat, saya akan jalan kaki. Menggerakkan mobil untuk jarak sependek itu tidak efisien"
    • ChatGPT 5.2 : "Untuk jarak 50 m, jalan kaki lebih praktis. Bisa ditempuh dalam 30–40 detik. Kalau cuaca buruk atau membawa barang berat, saya akan mengemudi; selain itu, jalan kaki lebih sederhana dan rasional"
    • Claude : "Kalau 50 m saya akan jalan kaki. Mengemudi itu tidak masuk akal. Bahkan sebelum sempat memasukkan gigi, Anda sudah harus menginjak rem. Hanya 30–45 detik dan juga tidak perlu parkir"
    • DeepSeek : "Kalau jalan kaki, Anda harus kembali lagi untuk mengemudikan mobil. Kalau mau praktis, mengemudi; kalau demi lingkungan, jalan kaki (lalu tetap mengemudi lagi)"
    • Qwen3-Max : "Harus jalan kaki. Mengemudi untuk jarak pendek tidak baik bagi lingkungan. Jalan kaki juga jadi olahraga"

Reaksi dan komentar pengguna

  • “Kalau mau jalan kaki, berarti mobilnya harus diangkat sambil dibawa”
    • “Setidaknya DeepSeek menyadari bahwa mobil tetap harus dibawa ke tempat cuci”
  • Gemini dan ChatGPT kadang mengenali jebakan pertanyaan dan memberikan jawaban yang benar
  • Saat ditanya “apakah perlu selang 50 m”, GPT-OSS menjawab “25 m saja sudah cukup”
  • “Ini sama seperti ‘masalah belanja ala developer’”

10 komentar

 
kimjj81 2026-02-23

Gemini 3.1 bilang naik mobil
chatgpt 5.2 bilang jalan kaki lebih masuk akal.

 
lunamoth 2026-02-17

Sudah saya uji, hasilnya seperti ini

Gemini 3.0 Pro (Google AI Studio)

Tentu saja harus dikendarai ke sana! 😄
Untuk mencuci mobil, mobilnya harus ada di tempat cuci mobil. Kalau Anda berjalan kaki, yang sampai ke tempat cuci hanya Anda, sementara mobil yang harus dicuci tetap tertinggal di titik keberangkatan.
Memang 50 meter itu sangat dekat, tetapi kalau ingin mobilnya bersih, bawalah mobilnya ke sana!


Claude 4.5 Extended

50 meter benar-benar jarak yang sangat dekat!

Kalau tujuannya pergi mencuci mobil, maka yang benar adalah pergi dengan mengemudi. Bagaimanapun juga, mobilnya harus dibawa ke tempat cuci mobil.

Kalau sekitar 50 meter:

  • dengan berjalan kaki bahkan tidak sampai 1 menit
  • tetapi karena tujuannya membawa mobil ke tempat cuci, cukup kendarai saja ke sana

Kalau tujuannya hanya untuk mengecek apakah tempat cuci mobil sedang buka, Anda bisa berjalan kaki dulu untuk memeriksa lalu membawa mobilnya, tetapi pada umumnya Anda tinggal menyetir mobil ke sana.


ChatGPT 5.2 Thinking mode Heavy

Untuk mencuci mobil, mobilnya harus ada di tempat cuci mobil, jadi biasanya yang tepat adalah mengemudi sejauh 50 m. (Kalau berjalan kaki, yang pergi hanya Anda, jadi mobilnya tidak bisa dicuci.)

Namun, sebagai pengecualian, bisa dibagi seperti ini agar rapi.

  • Situasi di mana mobil harus masuk ke tempat cuci (self-service/otomatis/cuci tangan semuanya): 👉 mengemudi (pelan-pelan saja, hati-hati pejalan kaki)
  • Situasi di mana Anda hanya ingin mengecek antrean/tingkat keramaian lebih dulu atau hanya untuk pembayaran·reservasi: 👉 jalan kaki dulu, lalu lihat situasinya dan bawa mobilnya
  • Mobil sudah berada tepat di depan tempat cuci (atau di antrean tunggu di dalam): 👉 dalam kasus itu Anda boleh berjalan kaki

Kesimpulan: kalau sesuai pertanyaannya, mengemudilah. Kalau hanya 50 m, perbedaan bahan bakar/waktu juga nyaris tidak ada, dan Anda juga tidak perlu repot memindahkan perlengkapan atau barang bawaan (peralatan cuci mobil).

 
m00nlygreat 2026-02-17

Kalimat itu sendiri punya nuansa bahwa berjalan kaki adalah pilihan yang lebih masuk akal. Mirip seperti soal ujian teori SIM.

 
savvykang 2026-02-17

Kalau seseorang berpendapat bahwa chain of thought sama dengan inference atau penalaran logis, bukankah itu berlebihan?

 
tenshi 2026-02-17

> Jika jaraknya 50 meter, berjalan kaki bahkan tidak sampai 1 menit, tetapi tetap harus naik mobil. Karena kamu pergi untuk mencuci mobil, jadi mobilnya memang harus dibawa, kan! 😄

Opus 4.6!

 
mammal 2026-02-17

GPT 5.2 (Instant) makin dipakai makin terasa jelas bahwa ini model kecil. Rasanya benar-benar tidak bisa dipercaya, sampai-sampai untuk kueri umum pun jadi terpaksa selalu memakai model Thinking...

Respons GPT-5.2:

Kalau cuma 50 meter, **berjalan kaki jelas jauh lebih masuk akal.**  
  
Kalau dibandingkan secara realistis:  
  
**Berjalan kaki**  
  
* Waktu tempuh: sekitar 30–40 detik  
* Konsumsi bahan bakar: 0  
* Keausan mesin: 0  
* Persiapan: bisa langsung berangkat  
  
**Mengemudi**  
  
* Waktu tempuh: menyalakan mesin + bergerak + berhenti, minimal 1–2 menit  
* Konsumsi bahan bakar: besar saat cold start  
* Keausan mesin: cold start adalah salah satu penyebab terbesar keausan mesin  
* Tambahan: repot lagi saat harus memosisikan mobil untuk cuci  
  
Satu poin yang sangat penting:  
  
**Mengemudikan mobil sebentar hanya untuk langsung dicuci justru kurang baik untuk mesin.**  
Perjalanan singkat yang mematikan dan menyalakan mesin sebelum mesin cukup panas akan berakhir sebelum sirkulasi oli mesin berjalan sepenuhnya.  
  
---  
  
Pengecualian ketika mengemudi masih masuk akal hanya dalam kasus berikut:  
  
* Jika jalan ke tempat cuci menanjak cukup curam  
* Jika Anda memang sudah berada di dalam mobil  
* Jika setelah cuci mobil Anda langsung berencana menempuh perjalanan jauh  
  
Selain itu, untuk 50 meter, berjalan kaki lebih baik dari sisi waktu, bahan bakar, dan perawatan kendaraan.  
  
Kalau mau, saya juga bisa memberi tahu “urutan cuci mobil sendiri (cara yang benar tanpa merusak mobil)”.  
 
alex00728 2026-02-17

Bahkan kalau ditanya dengan Thinking, tetap disuruh jalan kaki.

Jalan kaki.
50 meter adalah jarak yang sangat dekat; berkendara justru akan memakan waktu lebih lama jika memperhitungkan menyalakan mobil, bermanuver, dan parkir, serta menambah keausan mesin dan emisi yang tidak perlu. Berkendara hanya jika ada alasan khusus (membawa barang berat, masalah mobilitas, cuaca buruk, atau kekhawatiran keselamatan seperti tidak ada trotoar/lalu lintas).

 
GN⁺ 2026-02-17
Komentar Hacker News
  • Seseorang sedang menguji berbagai LLM untuk memahami “batas kecerdasan” mereka
    Sonnet, Opus 4.5, dan Gemini 3 Pro semuanya menjawab “harus menyetir”, tetapi OpenAI 5.2 reasoning menjawab “jalan kaki”
    Lalu setelah diperjelas bahwa “mobil ada di rumah dan tempat cuci mobil berjarak 50 m”, GPT 5.2 menjawab “menyetir, tetapi karena jaraknya pendek, pergilah pelan-pelan dan hati-hati”
    Kesimpulannya, memberikan konteks secara eksplisit itu penting

    • Ini sebenarnya hampir seperti pertanyaan jebakan
      Sulit menguji tanpa merusak tes jika posisi mobil tidak diisyaratkan, tetapi Claude Opus 4.6 menjawab dengan tepat: “harus menyetir”
      “Jika Alice pulang kerja dengan mengemudi ke rumah, mengambil dokumen, lalu harus pergi ke bengkel yang berjarak 100 m?” → jawabannya “menyetir”
    • Pada akhirnya, intinya adalah spesifikasi harus dibuat jelas
      Informasi yang bisa dihilangkan bagi manusia bisa jadi justru wajib bagi model
      Bahkan dalam contoh sesederhana ini pun, menjadi sulit menelusuri mengapa model gagal pada situasi yang lebih kompleks
    • Tafsir bahwa “mobil diasumsikan sudah ada di tempat cuci” terasa kurang meyakinkan
      Justru tampaknya frasa “walk or drive for <short distance>” dalam data latih punya asosiasi kuat dengan ‘walk’
      Itu juga menjelaskan mengapa saat prompt dibuat lebih panjang dan bobot konteks berubah, jawaban yang benar muncul
    • Karena “jika mobil sudah ada di tempat cuci maka tidak mungkin disetir”, ini bukan berarti pertanyaannya kurang lengkap, melainkan model melakukan penalaran yang tidak masuk akal
    • Versi ChatGPT gratis (https://chatgpt.com/) menjawab “jalan kaki”, dan alasan terakhirnya yang lucu adalah “ironis rasanya mengemudikan mobil kotor sejauh 50 m untuk dicuci”
  • Diskusi ini sudah dibahas di posting blog Matt Shumer
    Di sana dirangkum beberapa poin seperti perbedaan model gratis/berbayar, pemilihan model, dan lainnya

  • Banyak yang merespons dengan “pertanyaan begini tidak akan diajukan ke manusia”, tetapi kenyataannya manusia juga sering mengajukan pertanyaan ambigu
    LLM seharusnya bisa menafsirkan pertanyaan seperti itu dengan tepat
    Ungkapan “prompt-nya harus ditulis dengan baik” terdengar seperti pengalihan tanggung jawab, mirip komentar saat AntennaGate bahwa “cara memegang ponselnya salah”

    • Pertanyaan seperti ini mirip kasus jebakan bahasa seperti “lelucon pesawat jatuh”
    • Inti dari tes Turing bukan sekadar menipu, tetapi percakapan pada level yang tidak bisa dibedakan
    • Ada juga pengalaman ketika mengajukan pertanyaan kimia; detail tertentu sebenarnya tidak penting, tetapi model justru terpaku pada hal yang salah
    • Masalahnya, OP sengaja mengumpulkan hanya jawaban yang salah, sehingga tampak seolah semua model gagal; ini adalah bentuk cherry-picking
    • Pertanyaan seperti ini sebenarnya nyaris seperti teka-teki (“Dari 17 domba, semua kecuali 9 mati; berapa yang tersisa?”)
  • Gemini fast mendekatinya sebagai dilema “efisiensi vs logika”
    Ia menjawab dengan jelas bahwa “kalau ingin mencuci mobil, pada akhirnya mobil itu harus dibawa ke sana”
    Namun, ia juga memberi pengecualian bersyarat, misalnya “jika pergi membeli parfum atau mengecek antrean, bisa jalan kaki”

    • Saat prompt ditambah “saya obesitas dan kurang olahraga”, Gemini 3 menjawab “jalan kaki”
    • Dalam tes lain, ia mengatakan “kalau itu bukan mobil mainan, maka harus disetir”, sambil menambahkan bagian asumsi yang dinyatakan secara eksplisit
    • Untuk pertanyaan “bagaimana kalau mencuci mobil di Mars?”, ia menjawab “Mars berbahaya, jadi kemudikan rover
    • Belakangan pertanyaan ini tampaknya sudah ditambal, sehingga sekarang kebanyakan model menjawab “menyetir”. Sepertinya diperbaiki setelah video TikTok-nya mencapai 3,5 juta tayangan
    • Ada juga jawaban bercanda: “kalau tidak berniat memanggul mobil di punggung, ya setir saja”
  • Trik ini sempat viral di TikTok, dan sekarang sudah ditambal
    Kalau ingin hasil serupa, jaraknya bisa diubah menjadi “45 m”
    Tren baru sekarang adalah soal “gelas kaca terbalik” (https://www.tiktok.com/t/ZP89Khv9t/)

    • Di ChatGPT gratis, 4 dari 5 kali jawabannya “jalan kaki”, tetapi setelah ditambahkan “pikirkan dengan hati-hati”, jawabannya menjadi benar (https://news.ycombinator.com/item?id=47040530)
    • Ungkapan “sudah ditambal” bisa juga cuma berarti jawabannya sekarang muncul di hasil pencarian
    • Ada yang mempertanyakan, “masa benar mereka menambahkan pertanyaan ini saja ke internal prompt?”
    • Masih ada juga kasus ChatGPT 5.2 yang tetap menjawab “jalan kaki”
    • Seseorang menanggapi secara satir dengan mengutip puisi Shel Silverstein, ‘Stupid Pencil Maker’
  • Setelah mencoba berbagai variasi prompt, tampaknya model cenderung memilih “walk” terlebih dahulu lalu merasionalisasi alasannya belakangan
    Namun jika diminta “jelaskan syarat yang diperlukan sebelum menjawab”,
    model sampai pada kesimpulan bahwa “untuk mencuci mobil, mobil harus dibawa ke tempat cuci, jadi harus menyetir”
    Artinya, ‘memaksa proses berpikir’ bisa menghasilkan jawaban yang lebih logis

    • Bahkan hanya dengan menambahkan frasa “periksa asumsi-asumsinya” akurasinya meningkat jauh (https://imgur.com/a/WQBxXND)
      Ini mirip dengan pola pikir manusia System-1 vs System-2
      Ada kemungkinan penyedia model tidak memasukkan frasa seperti ini ke prompt default demi menghemat biaya token
  • Model-model terbaru umumnya sudah lolos tes ini
    Hanya saja mereka cenderung memakai ungkapan hati-hati seperti “kebanyakan tempat cuci mobil mengharuskan mobil dibawa ke lokasi”

    • Untuk menyampaikan keyakinan yang kuat, seseorang harus bersedia mengambil risiko salah, tetapi AI dinilai sangat buruk saat “salah”, sehingga cenderung menghindari jawaban tegas
    • Pilihan kata seperti “most” hanyalah hasil keluaran probabilistik
      Ambiguitas seperti ini justru menunjukkan bahaya AI
    • Kalau dicoba berkali-kali, unsur keberuntungan ikut berperan. Model dengan fitur pencarian bisa menjawab benar, tetapi itu pada dasarnya memanfaatkan hasil pencarian Google
    • Pada akhirnya, alasannya adalah pertanyaan ini sudah viral lalu ditambal
    • Ada juga yang bercanda bahwa mungkin saja ada waterjet superkuat, jadi model tidak mau terlalu yakin
  • Di bidang medis juga muncul kegagalan penalaran common sense yang serupa
    Contoh: kasus model yang salah menilai bahwa tekanan darah anak tanpa lengan harus diukur dari dahi (https://www.nature.com/articles/s41598-025-22940-0)
    Padahal jawaban yang benar adalah “mulai pemberian cairan infus”

    • Yang mengejutkan, justru perlu kasus serumit ini untuk benar-benar melihat batas model
      Fakta bahwa hanya dengan ‘belajar dari buku’ model sudah sampai sejauh ini cukup mengesankan
      Langkah berikutnya tampaknya adalah pelatihan berbasis simulator medis
    • Grok menjawab masalah ini dengan cepat dan benar
      Pendekatan yang realistis mungkin adalah beberapa AI memberi jawaban, lalu manusia melakukan validasi silang
  • Jika menyukai pertanyaan semacam ini, SimpleBench menarik untuk dilihat
    Sekilas terlihat seperti soal buku pelajaran, tetapi sebenarnya banyak yang membutuhkan penilaian common sense
    Ini adalah benchmark yang menguji kemampuan untuk tidak tertipu pola bahasa sederhana dan benar-benar memunculkan intuisi ala manusia

 
penza1 2026-02-17

Beberapa memberi jawaban yang sama
Jika tempat cuci mobil berjarak 50 meter, apakah akan berjalan kaki atau berkendara?
Awalnya mereka juga mengatakan untuk berjalan kaki, tetapi
jika mode berpikir diaktifkan,
mereka mengatakan tergantung pada kondisi, atau kalau ingin mencuci mobil maka mobilnya harus dibawa.
Satu hal lain yang lebih masuk akal adalah
bahkan saya sendiri mengajukan pertanyaan itu tanpa memikirkan untuk apa pergi ke tempat cuci mobil,
dan sebagian jawaban justru bertanya balik,
apakah tujuan pergi ke tempat cuci mobil adalah untuk membeli barang di sana?
Saya hanya menyalin pertanyaan di teks apa adanya,
tetapi tidak ada objeknya..
dan pada kenyataannya,
manusia juga sering menghilangkan objek atau subjek di kepala mereka sendiri
lalu menyampaikannya kepada lawan bicara
dan berharap bisa dipahami dengan baik,
sementara lawan bicara, tergantung pada pusat pemikirannya,
memahaminya berbeda dari maksud semula
dan akhirnya bertindak berbeda....

Jika masalahnya memang persis kalimat itu apa adanya,
manusia pun akan menilainya berbeda-beda tergantung subjektivitas..
jadi daripada kecewa pada jawaban AI,
bagi saya ini justru menunjukkan bahwa memberi instruksi dengan jelas serta memperjelas subjek dan objek adalah hal yang sama pentingnya seperti saat berkomunikasi dengan manusia.
Melihat orang-orang yang, karena prompt yang ambigu,
gagal memperoleh hasil yang paling diharapkan
lalu berkata bahwa AI masih terlalu dini atau sering memberi jawaban yang salah,
mengingatkan saya pada hal itu.

 
roxie 2026-02-27

👍👍👍