10 poin oleh GN⁺ 2026-02-25 | 3 komentar | Bagikan ke WhatsApp
  • Hasil pengujian terhadap 53 model AI utama menunjukkan bahwa sebagian besar gagal dalam penalaran dasar
  • Jawaban yang benar adalah ‘mengemudi’, tetapi 42 dari 53 model memilih ‘berjalan kaki’
  • Hanya 5 model, termasuk Claude Opus 4.6, seri Gemini 3, dan Grok-4, yang menghasilkan jawaban benar 100% konsisten bahkan dalam 10 kali pengujian berulang
  • GPT-5 hanya menjawab benar 7 dari 10 kali, sehingga dinilai berada di tingkat yang mirip dengan tingkat jawaban benar manusia rata-rata (71,5%)
  • Eksperimen ini menyoroti kurangnya kemampuan penalaran yang konsisten pada AI dan batas penilaian berbasis konteks, serta menekankan pentingnya ‘context engineering’ untuk menutupi kekurangan tersebut

Gambaran umum tes cuci mobil

  • Tes ini terdiri dari pertanyaan: “Jika tempat cuci mobil berjarak 50 meter, apakah akan berjalan kaki atau mengemudi?”
    • Jawaban yang benar adalah ‘mengemudi’, karena untuk mencuci mobil, mobilnya harus berada di tempat cuci
  • Sebanyak 53 model dievaluasi dalam kondisi yang sama melalui LLM Gateway milik Opper
    • Tanpa system prompt, dan diatur agar wajib memilih salah satu dari ‘walk’ atau ‘drive’
    • Setelah 1 kali pengujian per model, dilakukan pengujian berulang 10 kali untuk memverifikasi konsistensi

Hasil eksekusi tunggal putaran pertama

  • Dari 53 model, hanya 11 model yang benar (mengemudi), sementara 42 model salah (berjalan kaki)
  • Model yang menjawab benar: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • Terlihat perbedaan performa antar keluarga model utama seperti Anthropic, OpenAI, Google, xAI, Perplexity, Meta, dan Mistral
    • Anthropic: 1/9 (hanya Opus 4.6 yang benar)
    • OpenAI: 1/12 (hanya GPT-5 yang benar)
    • Meta (Llama), Mistral, DeepSeek, dan lainnya semuanya gagal
  • Sebagian besar jawaban salah disebabkan oleh kesalahan heuristik yang berpusat pada jarak, yaitu “50 meter adalah jarak pendek, jadi berjalan kaki lebih efisien”
  • Beberapa model menjawab benar tetapi memberikan alasan yang tidak logis
    • Contoh: Perplexity Sonar berargumen bahwa “berjalan kaki justru menimbulkan polusi lebih besar karena menghabiskan lebih banyak energi untuk produksi makanan”

Tes berulang 10 kali putaran kedua

  • Dari total 530 pemanggilan, tingkat jawaban benar yang konsisten menjadi lebih rendah
  • Model dengan 10/10 benar (5 model): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • Model dengan 8/10 benar (2 model): GLM-5, Grok-4-1 Reasoning
  • GPT-5 benar 7/10 kali, dan 3 kali sisanya salah dengan logika efisiensi bahan bakar dan lingkungan
  • 33 model salah di semua 10 percobaan, termasuk GPT-4.1, GPT-5.1, Llama, Mistral, dan lainnya
  • Beberapa model benar pada percobaan pertama, tetapi hasilnya tidak stabil saat diulang
    • Sonar: benar 1 kali → salah semua dalam 10 kali
    • Kimi K2.5: 5 kali benar, 5 kali salah
    • GLM-4.7: salah 1 kali → membaik menjadi 6 kali benar dari 10

Eksperimen perbandingan dengan manusia

  • Melalui platform Rapidata, pertanyaan yang sama diberikan kepada 10.000 orang
    • 71,5% memilih ‘mengemudi’, dan ini ditetapkan sebagai tingkat jawaban benar rata-rata manusia
  • Tingkat jawaban benar GPT-5 sebesar 70% mirip dengan rata-rata manusia
  • Dari 53 model, hanya 7 model yang melampaui rata-rata manusia, sedangkan 46 model lainnya berkinerja lebih rendah daripada manusia

Contoh penalaran utama

  • GLM-4.7 Flash: menyajikan logika yang jelas, “jika berjalan kaki, maka mobil harus didorong atau diangkat, sehingga tidak mungkin”
  • Claude Sonnet 4.5: memahami bahwa “jika ini cuci mobil otomatis maka perlu mengemudi”, tetapi pada jawaban akhir tetap memilih ‘berjalan kaki’
  • Gemini 2.5 Pro: saat benar, menjelaskan dengan tepat bahwa “untuk mencuci mobil, mobil harus berada di tempat cuci”; saat salah, menggunakan logika “50 meter adalah jarak pendek”

Masalah reliabilitas AI

  • Meski ini adalah masalah sederhana yang hanya membutuhkan satu langkah logis, hanya 5 dari 53 model yang sepenuhnya benar
  • Pola kegagalan dibagi menjadi tiga jenis
    • Selalu salah (33 model): terpaku pada heuristik berbasis jarak
    • Kadang benar (15 model): punya kemampuan menalar, tetapi kurang konsisten
    • Selalu benar (5 model): penalaran kontekstual secara stabil mengatasi heuristik
  • Fakta bahwa 90% model gagal bahkan pada masalah sederhana menunjukkan risiko dalam business logic nyata maupun penalaran multi-langkah

Peran context engineering

  • Tes ini dilakukan dalam lingkungan ‘zero context’, sehingga menilai kemampuan penalaran murni model
  • Penyebab kegagalan banyak model adalah karena heuristik mengalahkan penalaran kontekstual
  • Context engineering membantu meredakan kesalahan semacam ini dengan memberikan contoh, pola domain, dan informasi terkait
    • Dalam eksperimen terpisah Opper, ketika konteks ditambahkan ke model open kecil, kualitas setara model besar tercapai dengan penghematan biaya 98,6%
  • Masalah cuci mobil ini memang sederhana, tetapi pekerjaan nyata membutuhkan ambiguitas dan pengetahuan domain, sehingga desain konteks menjadi sangat penting

Metodologi eksperimen

  • Semua model diuji dengan prompt yang sama melalui Opper LLM Gateway
    • “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
    • Tanpa system prompt, wajib memilih ‘drive’ atau ‘walk’
    • Dilakukan eksekusi tunggal (1 kali) dan pengulangan 10 kali (total 530 kali), dengan seluruh log pemanggilan dicatat dan teks penalaran disimpan
  • Kelompok pembanding manusia disurvei melalui Rapidata dengan format yang sama terhadap 10.000 orang
  • Seluruh data dipublikasikan dalam format JSON
    • Hasil eksekusi tunggal, hasil pengulangan 10 kali, dan hasil manusia masing-masing dapat diunduh

3 komentar

 
armila 2026-02-26

Gemini Pro,
menjawab bahwa kalau kamu bisa membawa mobilmu ke sana, kamu boleh berjalan kaki, jadi itu benar-benar bikin tertawa.

 
grenade 2026-02-27

Jawaban yang jenaka, haha

 
GN⁺ 2026-02-25
Komentar Hacker News
  • Menarik bahwa hasil jawaban manusia persis sama dengan ChatGPT
    Secara praktis, ini terlihat berarti “layanan jawaban manusia” pada dasarnya sudah mati. Pada akhirnya orang akan menemukan cara untuk melemparkan pekerjaan ke AI terlepas dari kualitasnya

    • Ini tampak seperti kebetulan, tetapi sebenarnya jawaban manusia tidak dikumpulkan seperti itu
      Rapidata mengintegrasikan mikro-survei ke tempat seperti Duolingo atau aplikasi game agar pengguna berpartisipasi alih-alih melihat iklan. Penggunanya adalah orang yang terverifikasi, dan tidak ada insentif untuk menjawab benar
    • Model default ChatGPT adalah GPT‑5.2 Instant. Yang cocok dengan hasil manusia adalah model GPT‑5
      Menarik melihat orang, seperti pada komentar di atas, menarik kesimpulan dengan keyakinan tanpa dasar
    • Hal seperti ini sudah lama sering terjadi di layanan kerja manusia pihak ketiga
  • Saya memelihara sekumpulan evaluasi pribadi yang terdiri dari pertanyaan tipe misguided attention
    Inti masalah seperti ini bukan kegagalan logika, melainkan ambiguitas dan kurangnya konteks. Manusia mengisi asumsi implisit, sedangkan model tidak
    Kebanyakan contoh “AI salah menjawab pertanyaan sederhana” sebenarnya adalah kalimat yang dirancang untuk memicu bias statistik. Sedikit mengubah konteks saja bisa membalik hasilnya
    Jadi, kegagalan model terjadi karena sensitivitas terhadap framing, bukan karena tidak punya kemampuan bernalar

    • Itu pada akhirnya berarti AI memang berantakan. Jika dilatih agar cocok pada pertanyaan tertentu, bagian lain justru rusak. Ini akan terus berulang
    • Ada yang berargumen bahwa ungkapan “sensitif terhadap framing dan bias distribusional” pada dasarnya hanyalah cara lain untuk mengatakan tidak punya kemampuan bernalar
    • Kelihatannya set yang menarik. Kalau memungkinkan, penasaran apakah pertanyaannya bisa dibagikan
    • Akan bagus kalau set evaluasi itu dipublikasikan, terutama saya penasaran pertanyaan mana yang paling menarik
  • Angka 71,5% untuk baseline manusia menunjukkan adanya ambiguitas dalam soal
    Pertanyaan “berjalan kaki atau mengemudi ke tempat cuci mobil” bisa ditafsirkan sebagai “apa perlu repot-repot mengemudi untuk jarak sependek ini?” Jadi ini bukan sekadar masalah logika, tetapi masalah interpretasi pragmatik

    • Bukan berarti pertanyaannya sejak awal ambigu, melainkan situasi percakapan itu sendiri adalah informasi
      Manusia mengasumsikan pertanyaan itu muncul dari situasi nyata, lalu menafsirkannya menurut prinsip percakapan kooperatif (prinsip kerja sama Grice, Cooperative principle).
      Jadi sampai sadar “oh, ini pertanyaan jebakan”, orang akan berpikir “pasti ada alasan untuk berjalan kaki”
    • Rasio 70:30 seperti ini juga sering terlihat dalam statistik sosial lain. Bisa jadi 30% memang kurang punya kemampuan bernalar
    • Tapi pertanyaannya mencakup “Saya ingin mencuci mobil saya. Tempat cuci mobilnya berjarak 50 m.” Jadi informasinya sudah dinyatakan dengan cukup jelas
    • Jika layanan seperti Rapidata mirip Mechanical Turk, mungkin para responden memang tidak membaca pertanyaannya dengan benar
    • Masalahnya adalah mereka melewatkan kalimat bagian awal, “Saya ingin mencuci mobil saya”
  • Jika model Sonnet 4.6 diberi tahu lebih dulu bahwa ini adalah tes kecerdasan, ia menjawab benar 100%
    Model tampaknya cenderung menganggap pertanyaan manusia sebagai situasi nyata, jadi jika ditegaskan bahwa ini tes, kesalahannya berkurang
    Fenomena serupa juga ada pada agen coding. Awalnya pertanyaannya tampak tidak masuk akal, tetapi menjadi bisa dipahami setelah memuat file kode

    • Inti masalah ini adalah kegagalan penalaran/perencanaan. Model cenderung mengeluarkan jawaban tanpa meninjau hasilnya
      Fenomena ini juga berulang dalam pemecahan masalah nyata, misalnya desain perangkat lunak.
      LLM masih bergantung pada pattern matching dan tidak menganalisis makna hasilnya
    • Saya sempat melakukan eksperimen menarik: jika petunjuk ditaruh di depan hasilnya 3/3 benar, jika di belakang 1,5/3, dan tanpa petunjuk 0/3
    • Ini adalah masalah relevansi. Frasa “sedang diuji” berfungsi sebagai sinyal “jangan percaya konteks begitu saja”
      Model biasanya mengasumsikan pertanyaan berasal dari situasi nyata, jadi jika sinyal implisit seperti ini diajarkan, akurasi bisa naik tetapi keramahan bisa menurun
    • Bahkan hanya dengan menambahkan “Exam Question: {prompt}”, ChatGPT menjawab benar. Tetapi Llama3.3 dan gpt‑oss‑120b masih gagal
  • Jika menambahkan frasa “periksa asumsi-asumsinya” di akhir pertanyaan, kebanyakan model menjawab benar
    Jika hanya satu frasa sederhana bisa menghilangkan kesalahan, dugaan saya alasan penyedia AI tidak memasukkannya ke system prompt adalah demi optimasi biaya
    Diskusi terkait dirangkum di komentar sebelumnya

    • Saya juga sering melihat Claude atau Codex menghasilkan perbaikan tambahan jika setelah tugas saya bertanya, “apa yang kita lewatkan?”
  • Percakapan “Car Wash Test” yang saya lihat di Google Search cukup lucu
    Sebagian besar AI menjawab “jalan kaki saja untuk 50 m”, tetapi jawaban yang benar adalah “mobilnya harus dibawa ke tempat cuci, jadi harus mengemudi”
    Tes ini menunjukkan perbedaan antara pattern matching dan penalaran yang sebenarnya

    • LLM terasa bertele-tele tanpa perlu, seperti esai siswa SMA yang hanya mengisi jumlah kata
    • Saya penasaran apakah LLM Google Search memang jadi lebih pintar, atau hanya lebih sensitif terhadap tren terbaru
    • Jawaban Gemini juga lucu. Ia menyebut ini “dilema efisiensi vs logika”, lalu menjelaskan bahwa “kalau jalan kaki, pada akhirnya tetap harus kembali mengambil mobil, jadi mengemudi adalah pilihan yang benar”
    • Dulu saat ditanya tanggal, LLM akan menyebut tanggal pada saat data latihannya berakhir, tetapi sekarang ia memberi tanggal aktual. Artinya ia memanfaatkan pencarian web
  • Baseline manusia yang didapat lewat Rapidata adalah 71,5% memilih ‘mengemudi’
    Jawaban yang benar seharusnya adalah pertanyaan klarifikasi, yaitu “mobilnya ada di mana?”
    Tetapi bahkan jika diberi tahu ke ChatGPT bahwa “mobil saya berjarak 50 m dari tempat cuci mobil”, ia tetap salah

    • “Mobilnya ada di mana?” bukan pertanyaan klarifikasi, melainkan asumsi yang sudah termasuk dalam pilihan jawaban yang mungkin
    • 30% responden Rapidata mungkin saja bot
    • Rapidata terintegrasi ke lebih dari 3.000 aplikasi, dan diikuti oleh lebih dari 10 juta pengguna. Mereka menerima respons real-time dari 160 negara di seluruh dunia
    • Ada juga alternatif kreatif: “jangan bergerak, panggil tempat cuci mobilnya”. Setidaknya itu lebih masuk akal daripada berjalan kaki meninggalkan mobil
    • Claude juga menjawab “jalan kaki” untuk pertanyaan “haruskah saya pergi ke bengkel yang berjarak 200 m untuk mengganti busi?”. Jadi ini masalah runtuhnya konteks
  • Pertanyaan ini tidak sesederhana itu. Orang yang cerdas akan bertanya-tanya mengapa orang mengajukan pertanyaan seperti ini, dan apakah ada konteks yang hilang
    Jadi jawaban yang benar mungkin bukan “mengemudi” atau “jalan kaki”, melainkan “tolong perjelas pertanyaannya

    • Hanya dengan sedikit tambahan konteks, performa model meningkat besar. Misalnya dengan memperjelas seperti “tempat cuci mobil adalah bangunan yang harus dilalui mobil”
      Contoh terkait: gambar cairan pencuci mobil Rain‑x
    • Pertanyaan seperti ini justru terlalu jelas sehingga manusia curiga ini jebakan
    • LLM mencoba langsung menjawab, sedangkan manusia lebih dulu mengajukan pertanyaan klarifikasi
    • Sebenarnya ini terasa seperti masalah konvensi ekspresi bahasa Inggris. Reaksi seperti “saya perlu tahu Anda mau ke mana agar bisa membantu” terasa alami
    • Kebanyakan orang akan menganggap “mengemudi?” itu sekadar bercanda lalu melewatinya
  • Model Sonnet 4.6 punya skor common sense tinggi, tetapi lebih kecil daripada Opus
    Dalam mode Opus 4.6 Extended Reasoning, model menjawab “jalan kaki”, tetapi penulis mengatakan ia mendapat 10/10 jawaban benar.
    Kemungkinan fitur memori aplikasi otomatis disisipkan ke prompt dan mengganggu penalaran. Jika memori dan bio dimatikan, hasilnya berubah menjadi “mengemudi”
    Jadi preprompt tersembunyi dapat mendistorsi penalaran model

    • Saya juga mengujinya pada hari rilis Opus 4.6 dan model itu masih gagal. Bahkan bagi pelanggan berbayar, perbedaan kualitas model tetap ada
    • Menurut model card Opus 4.6, ada fenomena di mana upaya bernalar yang berlebihan justru merasionalisasi jawaban yang salah. Tampaknya pelatihan RL terlalu panas
    • Mereka menguji 9 model Claude, termasuk Sonnet 4.6, dan hasilnya bisa dilihat di galeri tautan