Mendeteksi kecurangan AI dengan biaya 42 sen per mahasiswa: eksperimen ujian lisan AI oleh profesor NYU

(aisparkup.com)

11 poin oleh davespark 2026-01-08 | Belum ada komentar. | Bagikan ke WhatsApp

Eksperimen ujian lisan AI oleh profesor NYU

Latar belakang

Keterbatasan penilaian tugas tradisional di era AI: mahasiswa dapat menyelesaikan tugas dengan sempurna menggunakan AI, tetapi pemahaman sebenarnya kurang terlihat
Profesor Panos Ipeirotis (NYU Stern School of Business): eksperimen pendekatan terbalik untuk melawan kecurangan AI dengan AI

Ringkasan eksperimen

Mata kuliah: manajemen produk AI/ML
Peserta: 36 mahasiswa
Metode: ujian lisan menggunakan agen AI suara dari ElevenLabs
Isi: pertanyaan tentang proyek mahasiswa + pertanyaan studi kasus dari kelas
Periode: 9 hari, rata-rata 25 menit per mahasiswa
Total biaya: 15 dolar (42 sen per mahasiswa)
- Claude: 8 dolar, Gemini: 2 dolar, OpenAI: 30 sen, ElevenLabs: 5 dolar

Perbandingan biaya

Ujian AI: 15 dolar
Penilaian manusia: 750 dolar (36 orang × 25 menit × 2 penilai × 25 dolar/jam)
Kelebihan: ujian lisan menjadi layak untuk kelas berskala besar

Masalah awal

Nada agen: terasa tegas dan arogan (keluhan mahasiswa: "berteriak")
Masalah perilaku: mengajukan beberapa pertanyaan sekaligus, mengubah ulang saat pengulangan, terlalu cepat menyela
Bias keacakan: meski diberi instruksi "pilih secara acak", tetap bias ke kasus tertentu (Zillow 88%)
- Alasan: data pelatihan LLM mencerminkan bias manusia

Metode penilaian

Metode: menerapkan "Council of LLMs" dari Andrej Karpathy
- Claude, Gemini, ChatGPT menilai secara independen → saling meninjau → merevisi
Hasil: perbedaan nilai awal besar (Gemini 17 poin vs Claude 13,4 poin), tetapi setelah peninjauan 60% menyatu dalam selisih 1 poin
Kualitas umpan balik: AI lebih unggul daripada manusia (ringkasan terstruktur + kutipan langsung)

Temuan

Kesenjangan per topik: topik "eksperimen" lemah (rata-rata 1,94/4 poin) → profesor mengakui masalah dalam metode pengajaran (mengabaikan A/B testing)
Durasi ujian dan nilai: tidak berkorelasi (tercepat 9 menit mendapat nilai tertinggi, terlama 64 menit biasa saja)

Evaluasi mahasiswa

Preferensi pada format AI: 13% (preferensi pada manusia dua kali lebih tinggi)
Stres: 83% lebih tinggi
Keadilan: 70% setuju bahwa ini menilai pemahaman nyata (item dengan penilaian tertinggi)

Kesimpulan

Ujian lisan AI: dapat diskalakan, murah, dan adil
Kelebihan: pertanyaan dibuat baru setiap kali (tidak ada masalah kebocoran), bisa digunakan untuk latihan
Ironi: solusi AI untuk kecurangan AI
Menunjukkan kemungkinan perubahan dalam evaluasi pendidikan, sekaligus memperlihatkan keterbatasannya

Belum ada komentar.

Belum ada komentar.