- Pertanyaan jebakan logis untuk LLM. Banyak model melewatkan premis bahwa mobil harus dibawa ke tempat cuci dan malah menyarankan jalan kaki
- Berbagai model terkenal seperti ChatGPT, Claude, Deepseek, dan Qwen menunjukkan jawaban yang berbeda-beda serta kesalahan logika
- Kasus ini memperlihatkan batas penalaran commonsense dan inkonsistensi LLM
Masalah tempat cuci mobil 50 meter dan respons LLM
- Pertanyaannya adalah, “Kalau tempat cuci mobil berjarak 50 meter, lebih baik jalan kaki atau mengemudi?”, untuk menguji premis dasar bahwa mobil harus dibawa ke tempat cuci
- Perplexity : "Karena 50 m itu dekat, saya akan jalan kaki. Menggerakkan mobil untuk jarak sependek itu tidak efisien"
- ChatGPT 5.2 : "Untuk jarak 50 m, jalan kaki lebih praktis. Bisa ditempuh dalam 30–40 detik. Kalau cuaca buruk atau membawa barang berat, saya akan mengemudi; selain itu, jalan kaki lebih sederhana dan rasional"
- Claude : "Kalau 50 m saya akan jalan kaki. Mengemudi itu tidak masuk akal. Bahkan sebelum sempat memasukkan gigi, Anda sudah harus menginjak rem. Hanya 30–45 detik dan juga tidak perlu parkir"
- DeepSeek : "Kalau jalan kaki, Anda harus kembali lagi untuk mengemudikan mobil. Kalau mau praktis, mengemudi; kalau demi lingkungan, jalan kaki (lalu tetap mengemudi lagi)"
- Qwen3-Max : "Harus jalan kaki. Mengemudi untuk jarak pendek tidak baik bagi lingkungan. Jalan kaki juga jadi olahraga"
Reaksi dan komentar pengguna
- “Kalau mau jalan kaki, berarti mobilnya harus diangkat sambil dibawa”
- “Setidaknya DeepSeek menyadari bahwa mobil tetap harus dibawa ke tempat cuci”
- Gemini dan ChatGPT kadang mengenali jebakan pertanyaan dan memberikan jawaban yang benar
- Saat ditanya “apakah perlu selang 50 m”, GPT-OSS menjawab “25 m saja sudah cukup”
- “Ini sama seperti ‘masalah belanja ala developer’”
10 komentar
Gemini 3.1 bilang naik mobil
chatgpt 5.2 bilang jalan kaki lebih masuk akal.
Sudah saya uji, hasilnya seperti ini
Gemini 3.0 Pro (Google AI Studio)
Tentu saja harus dikendarai ke sana! 😄
Untuk mencuci mobil, mobilnya harus ada di tempat cuci mobil. Kalau Anda berjalan kaki, yang sampai ke tempat cuci hanya Anda, sementara mobil yang harus dicuci tetap tertinggal di titik keberangkatan.
Memang 50 meter itu sangat dekat, tetapi kalau ingin mobilnya bersih, bawalah mobilnya ke sana!
Claude 4.5 Extended
50 meter benar-benar jarak yang sangat dekat!
Kalau tujuannya pergi mencuci mobil, maka yang benar adalah pergi dengan mengemudi. Bagaimanapun juga, mobilnya harus dibawa ke tempat cuci mobil.
Kalau sekitar 50 meter:
Kalau tujuannya hanya untuk mengecek apakah tempat cuci mobil sedang buka, Anda bisa berjalan kaki dulu untuk memeriksa lalu membawa mobilnya, tetapi pada umumnya Anda tinggal menyetir mobil ke sana.
ChatGPT 5.2 Thinking mode Heavy
Untuk mencuci mobil, mobilnya harus ada di tempat cuci mobil, jadi biasanya yang tepat adalah mengemudi sejauh 50 m. (Kalau berjalan kaki, yang pergi hanya Anda, jadi mobilnya tidak bisa dicuci.)
Namun, sebagai pengecualian, bisa dibagi seperti ini agar rapi.
Kesimpulan: kalau sesuai pertanyaannya, mengemudilah. Kalau hanya 50 m, perbedaan bahan bakar/waktu juga nyaris tidak ada, dan Anda juga tidak perlu repot memindahkan perlengkapan atau barang bawaan (peralatan cuci mobil).
Kalimat itu sendiri punya nuansa bahwa berjalan kaki adalah pilihan yang lebih masuk akal. Mirip seperti soal ujian teori SIM.
Kalau seseorang berpendapat bahwa chain of thought sama dengan inference atau penalaran logis, bukankah itu berlebihan?
> Jika jaraknya 50 meter, berjalan kaki bahkan tidak sampai 1 menit, tetapi tetap harus naik mobil. Karena kamu pergi untuk mencuci mobil, jadi mobilnya memang harus dibawa, kan! 😄
Opus 4.6!
GPT 5.2 (Instant) makin dipakai makin terasa jelas bahwa ini model kecil. Rasanya benar-benar tidak bisa dipercaya, sampai-sampai untuk kueri umum pun jadi terpaksa selalu memakai model Thinking...
Respons GPT-5.2:
Bahkan kalau ditanya dengan Thinking, tetap disuruh jalan kaki.
Jalan kaki.
50 meter adalah jarak yang sangat dekat; berkendara justru akan memakan waktu lebih lama jika memperhitungkan menyalakan mobil, bermanuver, dan parkir, serta menambah keausan mesin dan emisi yang tidak perlu. Berkendara hanya jika ada alasan khusus (membawa barang berat, masalah mobilitas, cuaca buruk, atau kekhawatiran keselamatan seperti tidak ada trotoar/lalu lintas).
Komentar Hacker News
Seseorang sedang menguji berbagai LLM untuk memahami “batas kecerdasan” mereka
Sonnet, Opus 4.5, dan Gemini 3 Pro semuanya menjawab “harus menyetir”, tetapi OpenAI 5.2 reasoning menjawab “jalan kaki”
Lalu setelah diperjelas bahwa “mobil ada di rumah dan tempat cuci mobil berjarak 50 m”, GPT 5.2 menjawab “menyetir, tetapi karena jaraknya pendek, pergilah pelan-pelan dan hati-hati”
Kesimpulannya, memberikan konteks secara eksplisit itu penting
Sulit menguji tanpa merusak tes jika posisi mobil tidak diisyaratkan, tetapi Claude Opus 4.6 menjawab dengan tepat: “harus menyetir”
“Jika Alice pulang kerja dengan mengemudi ke rumah, mengambil dokumen, lalu harus pergi ke bengkel yang berjarak 100 m?” → jawabannya “menyetir”
Informasi yang bisa dihilangkan bagi manusia bisa jadi justru wajib bagi model
Bahkan dalam contoh sesederhana ini pun, menjadi sulit menelusuri mengapa model gagal pada situasi yang lebih kompleks
Justru tampaknya frasa “walk or drive for <short distance>” dalam data latih punya asosiasi kuat dengan ‘walk’
Itu juga menjelaskan mengapa saat prompt dibuat lebih panjang dan bobot konteks berubah, jawaban yang benar muncul
Diskusi ini sudah dibahas di posting blog Matt Shumer
Di sana dirangkum beberapa poin seperti perbedaan model gratis/berbayar, pemilihan model, dan lainnya
Banyak yang merespons dengan “pertanyaan begini tidak akan diajukan ke manusia”, tetapi kenyataannya manusia juga sering mengajukan pertanyaan ambigu
LLM seharusnya bisa menafsirkan pertanyaan seperti itu dengan tepat
Ungkapan “prompt-nya harus ditulis dengan baik” terdengar seperti pengalihan tanggung jawab, mirip komentar saat AntennaGate bahwa “cara memegang ponselnya salah”
Gemini fast mendekatinya sebagai dilema “efisiensi vs logika”
Ia menjawab dengan jelas bahwa “kalau ingin mencuci mobil, pada akhirnya mobil itu harus dibawa ke sana”
Namun, ia juga memberi pengecualian bersyarat, misalnya “jika pergi membeli parfum atau mengecek antrean, bisa jalan kaki”
Trik ini sempat viral di TikTok, dan sekarang sudah ditambal
Kalau ingin hasil serupa, jaraknya bisa diubah menjadi “45 m”
Tren baru sekarang adalah soal “gelas kaca terbalik” (https://www.tiktok.com/t/ZP89Khv9t/)
Setelah mencoba berbagai variasi prompt, tampaknya model cenderung memilih “walk” terlebih dahulu lalu merasionalisasi alasannya belakangan
Namun jika diminta “jelaskan syarat yang diperlukan sebelum menjawab”,
model sampai pada kesimpulan bahwa “untuk mencuci mobil, mobil harus dibawa ke tempat cuci, jadi harus menyetir”
Artinya, ‘memaksa proses berpikir’ bisa menghasilkan jawaban yang lebih logis
Ini mirip dengan pola pikir manusia System-1 vs System-2
Ada kemungkinan penyedia model tidak memasukkan frasa seperti ini ke prompt default demi menghemat biaya token
Model-model terbaru umumnya sudah lolos tes ini
Hanya saja mereka cenderung memakai ungkapan hati-hati seperti “kebanyakan tempat cuci mobil mengharuskan mobil dibawa ke lokasi”
Ambiguitas seperti ini justru menunjukkan bahaya AI
Di bidang medis juga muncul kegagalan penalaran common sense yang serupa
Contoh: kasus model yang salah menilai bahwa tekanan darah anak tanpa lengan harus diukur dari dahi (https://www.nature.com/articles/s41598-025-22940-0)
Padahal jawaban yang benar adalah “mulai pemberian cairan infus”
Fakta bahwa hanya dengan ‘belajar dari buku’ model sudah sampai sejauh ini cukup mengesankan
Langkah berikutnya tampaknya adalah pelatihan berbasis simulator medis
Pendekatan yang realistis mungkin adalah beberapa AI memberi jawaban, lalu manusia melakukan validasi silang
Jika menyukai pertanyaan semacam ini, SimpleBench menarik untuk dilihat
Sekilas terlihat seperti soal buku pelajaran, tetapi sebenarnya banyak yang membutuhkan penilaian common sense
Ini adalah benchmark yang menguji kemampuan untuk tidak tertipu pola bahasa sederhana dan benar-benar memunculkan intuisi ala manusia
Beberapa memberi jawaban yang sama
Jika tempat cuci mobil berjarak 50 meter, apakah akan berjalan kaki atau berkendara?
Awalnya mereka juga mengatakan untuk berjalan kaki, tetapi
jika mode berpikir diaktifkan,
mereka mengatakan tergantung pada kondisi, atau kalau ingin mencuci mobil maka mobilnya harus dibawa.
Satu hal lain yang lebih masuk akal adalah
bahkan saya sendiri mengajukan pertanyaan itu tanpa memikirkan untuk apa pergi ke tempat cuci mobil,
dan sebagian jawaban justru bertanya balik,
apakah tujuan pergi ke tempat cuci mobil adalah untuk membeli barang di sana?
Saya hanya menyalin pertanyaan di teks apa adanya,
tetapi tidak ada objeknya..
dan pada kenyataannya,
manusia juga sering menghilangkan objek atau subjek di kepala mereka sendiri
lalu menyampaikannya kepada lawan bicara
dan berharap bisa dipahami dengan baik,
sementara lawan bicara, tergantung pada pusat pemikirannya,
memahaminya berbeda dari maksud semula
dan akhirnya bertindak berbeda....
Jika masalahnya memang persis kalimat itu apa adanya,
manusia pun akan menilainya berbeda-beda tergantung subjektivitas..
jadi daripada kecewa pada jawaban AI,
bagi saya ini justru menunjukkan bahwa memberi instruksi dengan jelas serta memperjelas subjek dan objek adalah hal yang sama pentingnya seperti saat berkomunikasi dengan manusia.
Melihat orang-orang yang, karena prompt yang ambigu,
gagal memperoleh hasil yang paling diharapkan
lalu berkata bahwa AI masih terlalu dini atau sering memberi jawaban yang salah,
mengingatkan saya pada hal itu.
👍👍👍