Mendeteksi kecurangan AI dengan biaya 42 sen per mahasiswa: eksperimen ujian lisan AI oleh profesor NYU
(aisparkup.com)Eksperimen ujian lisan AI oleh profesor NYU
Latar belakang
- Keterbatasan penilaian tugas tradisional di era AI: mahasiswa dapat menyelesaikan tugas dengan sempurna menggunakan AI, tetapi pemahaman sebenarnya kurang terlihat
- Profesor Panos Ipeirotis (NYU Stern School of Business): eksperimen pendekatan terbalik untuk melawan kecurangan AI dengan AI
Ringkasan eksperimen
- Mata kuliah: manajemen produk AI/ML
- Peserta: 36 mahasiswa
- Metode: ujian lisan menggunakan agen AI suara dari ElevenLabs
- Isi: pertanyaan tentang proyek mahasiswa + pertanyaan studi kasus dari kelas
- Periode: 9 hari, rata-rata 25 menit per mahasiswa
- Total biaya: 15 dolar (42 sen per mahasiswa)
- Claude: 8 dolar, Gemini: 2 dolar, OpenAI: 30 sen, ElevenLabs: 5 dolar
Perbandingan biaya
- Ujian AI: 15 dolar
- Penilaian manusia: 750 dolar (36 orang × 25 menit × 2 penilai × 25 dolar/jam)
- Kelebihan: ujian lisan menjadi layak untuk kelas berskala besar
Masalah awal
- Nada agen: terasa tegas dan arogan (keluhan mahasiswa: "berteriak")
- Masalah perilaku: mengajukan beberapa pertanyaan sekaligus, mengubah ulang saat pengulangan, terlalu cepat menyela
- Bias keacakan: meski diberi instruksi "pilih secara acak", tetap bias ke kasus tertentu (Zillow 88%)
- Alasan: data pelatihan LLM mencerminkan bias manusia
Metode penilaian
- Metode: menerapkan "Council of LLMs" dari Andrej Karpathy
- Claude, Gemini, ChatGPT menilai secara independen → saling meninjau → merevisi
- Hasil: perbedaan nilai awal besar (Gemini 17 poin vs Claude 13,4 poin), tetapi setelah peninjauan 60% menyatu dalam selisih 1 poin
- Kualitas umpan balik: AI lebih unggul daripada manusia (ringkasan terstruktur + kutipan langsung)
Temuan
- Kesenjangan per topik: topik "eksperimen" lemah (rata-rata 1,94/4 poin) → profesor mengakui masalah dalam metode pengajaran (mengabaikan A/B testing)
- Durasi ujian dan nilai: tidak berkorelasi (tercepat 9 menit mendapat nilai tertinggi, terlama 64 menit biasa saja)
Evaluasi mahasiswa
- Preferensi pada format AI: 13% (preferensi pada manusia dua kali lebih tinggi)
- Stres: 83% lebih tinggi
- Keadilan: 70% setuju bahwa ini menilai pemahaman nyata (item dengan penilaian tertinggi)
Kesimpulan
- Ujian lisan AI: dapat diskalakan, murah, dan adil
- Kelebihan: pertanyaan dibuat baru setiap kali (tidak ada masalah kebocoran), bisa digunakan untuk latihan
- Ironi: solusi AI untuk kecurangan AI
- Menunjukkan kemungkinan perubahan dalam evaluasi pendidikan, sekaligus memperlihatkan keterbatasannya
Belum ada komentar.