11 poin oleh davespark 2026-01-08 | Belum ada komentar. | Bagikan ke WhatsApp

Eksperimen ujian lisan AI oleh profesor NYU

Latar belakang

  • Keterbatasan penilaian tugas tradisional di era AI: mahasiswa dapat menyelesaikan tugas dengan sempurna menggunakan AI, tetapi pemahaman sebenarnya kurang terlihat
  • Profesor Panos Ipeirotis (NYU Stern School of Business): eksperimen pendekatan terbalik untuk melawan kecurangan AI dengan AI

Ringkasan eksperimen

  • Mata kuliah: manajemen produk AI/ML
  • Peserta: 36 mahasiswa
  • Metode: ujian lisan menggunakan agen AI suara dari ElevenLabs
  • Isi: pertanyaan tentang proyek mahasiswa + pertanyaan studi kasus dari kelas
  • Periode: 9 hari, rata-rata 25 menit per mahasiswa
  • Total biaya: 15 dolar (42 sen per mahasiswa)
    • Claude: 8 dolar, Gemini: 2 dolar, OpenAI: 30 sen, ElevenLabs: 5 dolar

Perbandingan biaya

  • Ujian AI: 15 dolar
  • Penilaian manusia: 750 dolar (36 orang × 25 menit × 2 penilai × 25 dolar/jam)
  • Kelebihan: ujian lisan menjadi layak untuk kelas berskala besar

Masalah awal

  • Nada agen: terasa tegas dan arogan (keluhan mahasiswa: "berteriak")
  • Masalah perilaku: mengajukan beberapa pertanyaan sekaligus, mengubah ulang saat pengulangan, terlalu cepat menyela
  • Bias keacakan: meski diberi instruksi "pilih secara acak", tetap bias ke kasus tertentu (Zillow 88%)
    • Alasan: data pelatihan LLM mencerminkan bias manusia

Metode penilaian

  • Metode: menerapkan "Council of LLMs" dari Andrej Karpathy
    • Claude, Gemini, ChatGPT menilai secara independen → saling meninjau → merevisi
  • Hasil: perbedaan nilai awal besar (Gemini 17 poin vs Claude 13,4 poin), tetapi setelah peninjauan 60% menyatu dalam selisih 1 poin
  • Kualitas umpan balik: AI lebih unggul daripada manusia (ringkasan terstruktur + kutipan langsung)

Temuan

  • Kesenjangan per topik: topik "eksperimen" lemah (rata-rata 1,94/4 poin) → profesor mengakui masalah dalam metode pengajaran (mengabaikan A/B testing)
  • Durasi ujian dan nilai: tidak berkorelasi (tercepat 9 menit mendapat nilai tertinggi, terlama 64 menit biasa saja)

Evaluasi mahasiswa

  • Preferensi pada format AI: 13% (preferensi pada manusia dua kali lebih tinggi)
  • Stres: 83% lebih tinggi
  • Keadilan: 70% setuju bahwa ini menilai pemahaman nyata (item dengan penilaian tertinggi)

Kesimpulan

  • Ujian lisan AI: dapat diskalakan, murah, dan adil
  • Kelebihan: pertanyaan dibuat baru setiap kali (tidak ada masalah kebocoran), bisa digunakan untuk latihan
  • Ironi: solusi AI untuk kecurangan AI
  • Menunjukkan kemungkinan perubahan dalam evaluasi pendidikan, sekaligus memperlihatkan keterbatasannya

Belum ada komentar.

Belum ada komentar.