- Hasil pengujian terhadap 53 model AI utama menunjukkan bahwa sebagian besar gagal dalam penalaran dasar
- Jawaban yang benar adalah ‘mengemudi’, tetapi 42 dari 53 model memilih ‘berjalan kaki’
- Hanya 5 model, termasuk Claude Opus 4.6, seri Gemini 3, dan Grok-4, yang menghasilkan jawaban benar 100% konsisten bahkan dalam 10 kali pengujian berulang
- GPT-5 hanya menjawab benar 7 dari 10 kali, sehingga dinilai berada di tingkat yang mirip dengan tingkat jawaban benar manusia rata-rata (71,5%)
- Eksperimen ini menyoroti kurangnya kemampuan penalaran yang konsisten pada AI dan batas penilaian berbasis konteks, serta menekankan pentingnya ‘context engineering’ untuk menutupi kekurangan tersebut
Gambaran umum tes cuci mobil
- Tes ini terdiri dari pertanyaan: “Jika tempat cuci mobil berjarak 50 meter, apakah akan berjalan kaki atau mengemudi?”
- Jawaban yang benar adalah ‘mengemudi’, karena untuk mencuci mobil, mobilnya harus berada di tempat cuci
- Sebanyak 53 model dievaluasi dalam kondisi yang sama melalui LLM Gateway milik Opper
- Tanpa system prompt, dan diatur agar wajib memilih salah satu dari ‘walk’ atau ‘drive’
- Setelah 1 kali pengujian per model, dilakukan pengujian berulang 10 kali untuk memverifikasi konsistensi
Hasil eksekusi tunggal putaran pertama
- Dari 53 model, hanya 11 model yang benar (mengemudi), sementara 42 model salah (berjalan kaki)
- Model yang menjawab benar: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Terlihat perbedaan performa antar keluarga model utama seperti Anthropic, OpenAI, Google, xAI, Perplexity, Meta, dan Mistral
- Anthropic: 1/9 (hanya Opus 4.6 yang benar)
- OpenAI: 1/12 (hanya GPT-5 yang benar)
- Meta (Llama), Mistral, DeepSeek, dan lainnya semuanya gagal
- Sebagian besar jawaban salah disebabkan oleh kesalahan heuristik yang berpusat pada jarak, yaitu “50 meter adalah jarak pendek, jadi berjalan kaki lebih efisien”
- Beberapa model menjawab benar tetapi memberikan alasan yang tidak logis
- Contoh: Perplexity Sonar berargumen bahwa “berjalan kaki justru menimbulkan polusi lebih besar karena menghabiskan lebih banyak energi untuk produksi makanan”
Tes berulang 10 kali putaran kedua
- Dari total 530 pemanggilan, tingkat jawaban benar yang konsisten menjadi lebih rendah
- Model dengan 10/10 benar (5 model): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- Model dengan 8/10 benar (2 model): GLM-5, Grok-4-1 Reasoning
- GPT-5 benar 7/10 kali, dan 3 kali sisanya salah dengan logika efisiensi bahan bakar dan lingkungan
- 33 model salah di semua 10 percobaan, termasuk GPT-4.1, GPT-5.1, Llama, Mistral, dan lainnya
- Beberapa model benar pada percobaan pertama, tetapi hasilnya tidak stabil saat diulang
- Sonar: benar 1 kali → salah semua dalam 10 kali
- Kimi K2.5: 5 kali benar, 5 kali salah
- GLM-4.7: salah 1 kali → membaik menjadi 6 kali benar dari 10
Eksperimen perbandingan dengan manusia
- Melalui platform Rapidata, pertanyaan yang sama diberikan kepada 10.000 orang
- 71,5% memilih ‘mengemudi’, dan ini ditetapkan sebagai tingkat jawaban benar rata-rata manusia
- Tingkat jawaban benar GPT-5 sebesar 70% mirip dengan rata-rata manusia
- Dari 53 model, hanya 7 model yang melampaui rata-rata manusia, sedangkan 46 model lainnya berkinerja lebih rendah daripada manusia
Contoh penalaran utama
- GLM-4.7 Flash: menyajikan logika yang jelas, “jika berjalan kaki, maka mobil harus didorong atau diangkat, sehingga tidak mungkin”
- Claude Sonnet 4.5: memahami bahwa “jika ini cuci mobil otomatis maka perlu mengemudi”, tetapi pada jawaban akhir tetap memilih ‘berjalan kaki’
- Gemini 2.5 Pro: saat benar, menjelaskan dengan tepat bahwa “untuk mencuci mobil, mobil harus berada di tempat cuci”; saat salah, menggunakan logika “50 meter adalah jarak pendek”
Masalah reliabilitas AI
- Meski ini adalah masalah sederhana yang hanya membutuhkan satu langkah logis, hanya 5 dari 53 model yang sepenuhnya benar
- Pola kegagalan dibagi menjadi tiga jenis
- Selalu salah (33 model): terpaku pada heuristik berbasis jarak
- Kadang benar (15 model): punya kemampuan menalar, tetapi kurang konsisten
- Selalu benar (5 model): penalaran kontekstual secara stabil mengatasi heuristik
- Fakta bahwa 90% model gagal bahkan pada masalah sederhana menunjukkan risiko dalam business logic nyata maupun penalaran multi-langkah
Peran context engineering
- Tes ini dilakukan dalam lingkungan ‘zero context’, sehingga menilai kemampuan penalaran murni model
- Penyebab kegagalan banyak model adalah karena heuristik mengalahkan penalaran kontekstual
- Context engineering membantu meredakan kesalahan semacam ini dengan memberikan contoh, pola domain, dan informasi terkait
- Dalam eksperimen terpisah Opper, ketika konteks ditambahkan ke model open kecil, kualitas setara model besar tercapai dengan penghematan biaya 98,6%
- Masalah cuci mobil ini memang sederhana, tetapi pekerjaan nyata membutuhkan ambiguitas dan pengetahuan domain, sehingga desain konteks menjadi sangat penting
Metodologi eksperimen
- Semua model diuji dengan prompt yang sama melalui Opper LLM Gateway
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- Tanpa system prompt, wajib memilih ‘drive’ atau ‘walk’
- Dilakukan eksekusi tunggal (1 kali) dan pengulangan 10 kali (total 530 kali), dengan seluruh log pemanggilan dicatat dan teks penalaran disimpan
- Kelompok pembanding manusia disurvei melalui Rapidata dengan format yang sama terhadap 10.000 orang
- Seluruh data dipublikasikan dalam format JSON
- Hasil eksekusi tunggal, hasil pengulangan 10 kali, dan hasil manusia masing-masing dapat diunduh
3 komentar
Gemini Pro,
menjawab bahwa kalau kamu bisa membawa mobilmu ke sana, kamu boleh berjalan kaki, jadi itu benar-benar bikin tertawa.
Jawaban yang jenaka, haha
Komentar Hacker News
Menarik bahwa hasil jawaban manusia persis sama dengan ChatGPT
Secara praktis, ini terlihat berarti “layanan jawaban manusia” pada dasarnya sudah mati. Pada akhirnya orang akan menemukan cara untuk melemparkan pekerjaan ke AI terlepas dari kualitasnya
Rapidata mengintegrasikan mikro-survei ke tempat seperti Duolingo atau aplikasi game agar pengguna berpartisipasi alih-alih melihat iklan. Penggunanya adalah orang yang terverifikasi, dan tidak ada insentif untuk menjawab benar
Menarik melihat orang, seperti pada komentar di atas, menarik kesimpulan dengan keyakinan tanpa dasar
Saya memelihara sekumpulan evaluasi pribadi yang terdiri dari pertanyaan tipe misguided attention
Inti masalah seperti ini bukan kegagalan logika, melainkan ambiguitas dan kurangnya konteks. Manusia mengisi asumsi implisit, sedangkan model tidak
Kebanyakan contoh “AI salah menjawab pertanyaan sederhana” sebenarnya adalah kalimat yang dirancang untuk memicu bias statistik. Sedikit mengubah konteks saja bisa membalik hasilnya
Jadi, kegagalan model terjadi karena sensitivitas terhadap framing, bukan karena tidak punya kemampuan bernalar
Angka 71,5% untuk baseline manusia menunjukkan adanya ambiguitas dalam soal
Pertanyaan “berjalan kaki atau mengemudi ke tempat cuci mobil” bisa ditafsirkan sebagai “apa perlu repot-repot mengemudi untuk jarak sependek ini?” Jadi ini bukan sekadar masalah logika, tetapi masalah interpretasi pragmatik
Manusia mengasumsikan pertanyaan itu muncul dari situasi nyata, lalu menafsirkannya menurut prinsip percakapan kooperatif (prinsip kerja sama Grice, Cooperative principle).
Jadi sampai sadar “oh, ini pertanyaan jebakan”, orang akan berpikir “pasti ada alasan untuk berjalan kaki”
Jika model Sonnet 4.6 diberi tahu lebih dulu bahwa ini adalah tes kecerdasan, ia menjawab benar 100%
Model tampaknya cenderung menganggap pertanyaan manusia sebagai situasi nyata, jadi jika ditegaskan bahwa ini tes, kesalahannya berkurang
Fenomena serupa juga ada pada agen coding. Awalnya pertanyaannya tampak tidak masuk akal, tetapi menjadi bisa dipahami setelah memuat file kode
Fenomena ini juga berulang dalam pemecahan masalah nyata, misalnya desain perangkat lunak.
LLM masih bergantung pada pattern matching dan tidak menganalisis makna hasilnya
Model biasanya mengasumsikan pertanyaan berasal dari situasi nyata, jadi jika sinyal implisit seperti ini diajarkan, akurasi bisa naik tetapi keramahan bisa menurun
Jika menambahkan frasa “periksa asumsi-asumsinya” di akhir pertanyaan, kebanyakan model menjawab benar
Jika hanya satu frasa sederhana bisa menghilangkan kesalahan, dugaan saya alasan penyedia AI tidak memasukkannya ke system prompt adalah demi optimasi biaya
Diskusi terkait dirangkum di komentar sebelumnya
Percakapan “Car Wash Test” yang saya lihat di Google Search cukup lucu
Sebagian besar AI menjawab “jalan kaki saja untuk 50 m”, tetapi jawaban yang benar adalah “mobilnya harus dibawa ke tempat cuci, jadi harus mengemudi”
Tes ini menunjukkan perbedaan antara pattern matching dan penalaran yang sebenarnya
Baseline manusia yang didapat lewat Rapidata adalah 71,5% memilih ‘mengemudi’
Jawaban yang benar seharusnya adalah pertanyaan klarifikasi, yaitu “mobilnya ada di mana?”
Tetapi bahkan jika diberi tahu ke ChatGPT bahwa “mobil saya berjarak 50 m dari tempat cuci mobil”, ia tetap salah
Pertanyaan ini tidak sesederhana itu. Orang yang cerdas akan bertanya-tanya mengapa orang mengajukan pertanyaan seperti ini, dan apakah ada konteks yang hilang
Jadi jawaban yang benar mungkin bukan “mengemudi” atau “jalan kaki”, melainkan “tolong perjelas pertanyaannya”
Contoh terkait: gambar cairan pencuci mobil Rain‑x
Model Sonnet 4.6 punya skor common sense tinggi, tetapi lebih kecil daripada Opus
Dalam mode Opus 4.6 Extended Reasoning, model menjawab “jalan kaki”, tetapi penulis mengatakan ia mendapat 10/10 jawaban benar.
Kemungkinan fitur memori aplikasi otomatis disisipkan ke prompt dan mengganggu penalaran. Jika memori dan bio dimatikan, hasilnya berubah menjadi “mengemudi”
Jadi preprompt tersembunyi dapat mendistorsi penalaran model