- Seiring meluasnya penggunaan large language model (LLM), tugas dan ujian konvensional tidak lagi mampu mengukur pemahaman belajar secara akurat, sehingga pengajar bereksperimen memperkenalkan ujian lisan real-time dengan AI suara ElevenLabs
- Ujian terdiri dari dua bagian, yaitu penjelasan proyek dan tanya jawab berbasis kasus, sehingga mahasiswa harus menjelaskan langsung kepada AI dasar pengambilan keputusan dan proses berpikir mereka
- Tiga model, Claude·Gemini·ChatGPT, melakukan penilaian secara musyawarah untuk meningkatkan konsistensi dan kualitas umpan balik, sekaligus mengungkap topik lemah dalam perkuliahan yang sebenarnya (desain eksperimen)
- 36 mahasiswa selama 9 hari dievaluasi dengan rata-rata 25 menit per orang, dan biaya per mahasiswa hanya 0,42 dolar AS, sangat murah
- Ujian lisan AI berpotensi menjadi model ujian baru yang dapat diskalakan untuk penilaian berbasis pemahaman
Latar belakang pengenalan masalah dan penerapan ujian lisan
- Kualitas tugas mahasiswa tampak tidak wajar tinggi sehingga memunculkan kecurigaan penulisan oleh AI, dan saat diberi pertanyaan acak banyak yang tidak mampu menjelaskan sendiri
- Karena aksesibilitas LLM, keandalan tugas dan ujian konvensional runtuh, sehingga ujian lisan yang dapat menilai kemampuan berpikir secara real-time muncul sebagai alternatif
- Namun, ujian lisan memiliki keterbatasan karena tidak dapat dioperasikan dalam skala besar, sehingga agen suara AI digunakan untuk mengatasinya
Konfigurasi agen suara berbasis ElevenLabs
- Menggunakan ElevenLabs Conversational AI untuk mengintegrasikan elemen kompleks seperti pengenalan suara, sintesis suara, dan manajemen giliran percakapan
- Dengan variabel dinamis, nama mahasiswa dan informasi proyek dikirimkan, lalu dengan struktur workflow agen autentikasi, agen proyek, dan agen kasus dipisahkan
- Agen autentikasi: memverifikasi ID mahasiswa
- Agen proyek: mengajukan pertanyaan berdasarkan materi yang dikumpulkan
- Agen kasus: memilih kasus secara acak lalu mengajukan pertanyaan
- Dengan memecahnya menjadi beberapa agen kecil, diperoleh pencegahan percakapan menyimpang dan kemudahan debugging
Pelaksanaan ujian dan hasil numerik
- Total 36 orang, selama 9 hari, berlangsung rata-rata 25 menit (terpendek 9 menit hingga terpanjang 64 menit)
- Rata-rata 65 kali pertukaran pesan, total biaya 15 dolar AS (0,42 dolar AS per mahasiswa)
- 89% hasil penilaian LLM selaras dalam selisih 1 poin, dan ujian tersingkat (9 menit) mencatat skor tertinggi (19/20)
- Dibanding penilaian manusia, tercapai pengurangan biaya lebih dari 50 kali, sekaligus otomatisasi penilaian, pencatatan, dan umpan balik secara real-time
Trial and error serta langkah perbaikan
- Umpan balik mahasiswa menyebut nada suara terasa mengintimidasi → direncanakan A/B test untuk berbagai suara
- Masalah pertanyaan menumpuk (stack) → ditambahkan aturan “satu pertanyaan dalam satu waktu”
- Perubahan makna saat pertanyaan diulang → diperjelas dengan instruksi “ulangi kalimat persis apa adanya”
- Kurangnya waktu untuk berpikir → waktu tunggu diperpanjang menjadi 10 detik
- Kegagalan pemilihan kasus acak → diselesaikan lewat pemetaan bilangan acak pada level kode
Penilaian musyawarah LLM (council grading)
- Claude·Gemini·ChatGPT menilai secara independen lalu saling meninjau dan merevisi
- Tingkat ketidaksesuaian pada penilaian putaran pertama tinggi, tetapi setelah musyawarah putaran kedua, tingkat kesesuaian dalam selisih 1 poin meningkat dari 62% → 85%
- Gemini menyesuaikan nilai rata-rata menjadi 2 poin lebih rendah, dan konsistensi antara Claude dan OpenAI tinggi
- Ketidaksesuaian penilaian terbesar terjadi pada komponen desain eksperimen, yang dianalisis disebabkan oleh ambiguitas jawaban mahasiswa
- Penilaian AI lebih ketat tetapi adil dibanding manusia, dan umpan baliknya unggul karena spesifik dan berorientasi tindakan
Wawasan pendidikan dan diagnosis
- Dalam analisis capaian per topik, rata-rata desain eksperimen 1,94/4 adalah yang terendah
- Skor 0: 8%, skor 1: 19%, skor 2: 42%, skor 4: 0%
- Terungkap bahwa penyebabnya adalah kurangnya penjelasan tentang A/B test dalam kuliah, yang menegaskan perlunya perbaikan pengajaran oleh dosen
- Tidak ada korelasi antara durasi ujian dan skor (r=-0.03), dan jawaban yang singkat serta jelas berkaitan dengan skor yang lebih tinggi
Pencegahan kecurangan dan transparansi
- Mahasiswa diwajibkan menyalakan webcam dan perekaman audio untuk memblokir bantuan dari luar
- Struktur ujian dan jenis pertanyaan dijalankan berdasarkan panduan yang dipublikasikan, sehingga menghilangkan risiko kebocoran soal
- Mahasiswa dapat berlatih berulang kali dengan struktur yang sama, sehingga memperkuat efek belajar yang nyata
Respons mahasiswa
- Hanya 13% yang lebih memilih ujian lisan AI, 57% memilih ujian tulis tradisional, dan 83% menjawab bahwa mereka merasa lebih stres
- Namun, 70% mengakui bahwa ujian ini menilai pemahaman nyata dengan baik, sehingga kepercayaan terhadap evaluasinya tinggi
- Fleksibilitas untuk mengikuti ujian secara mandiri dalam waktu dan tempat pilihan dinilai positif
- Permintaan perbaikan: kecepatan lebih lambat, suara lebih tenang, dan format satu pertanyaan per giliran
Rencana perbaikan ke depan
- Pengaturan kecepatan dan variasi suara, RAG query berbasis hasil pengumpulan mahasiswa, serta distribusi kasus dengan random seed eksplisit
- Akan diperkenalkan trigger tinjauan manusia saat terjadi ketidaksesuaian penilaian antar-LLM
- Peningkatan aksesibilitas: mode latihan, waktu tambahan, dan penyediaan metode alternatif
Kesimpulan: evaluasi berbasis pemahaman yang dapat diskalakan dengan AI
- Tugas dan ujian tulis menjadi tidak efektif di era LLM, sehingga perlu beralih ke evaluasi kemampuan berpikir secara real-time
- Ujian lisan AI mengukur pemahaman, penilaian, dan pemikiran spontan, serta menjadi metode evaluasi baru yang dapat dioperasikan dalam skala besar
- Tanpa risiko kebocoran soal, pembelajaran dapat diperkuat melalui latihan berulang
- “Fight fire with fire” — inovasi evaluasi yang menyelesaikan masalah yang ditimbulkan AI dengan AI
1 komentar
Komentar Hacker News
Saya rasa data dan kesimpulan yang diajukan dalam artikel itu tidak selaras
Para mahasiswa tetap lebih memilih ujian tertulis bahkan setelah berbicara dengan AI
Universitas sudah ratusan tahun menjalankan ujian tertulis sambil mencegah kecurangan, dan setelah COVID mereka memperkenalkan "roda persegi" berupa penilaian online, padahal rasanya lebih baik kembali ke roda yang bulat
Akurasi penilaian LLM bahkan tidak divalidasi. Rasanya seperti kesimpulan sudah ditentukan lebih dulu lalu datanya dipaksa menyesuaikan
‘Ujian take-home sudah berakhir’ adalah sesuatu yang sudah jelas, bukan hasil eksperimen
Sekarang kecurangan sudah terlalu mudah dilakukan sendirian
Selain itu, setiap bidang akademik seharusnya punya cara evaluasi yang berbeda, dan bidang baru seperti ilmu komputer masih kurang matang dalam kematangan evaluasi
Terakhir, preferensi mahasiswa bukan tolok ukur kualitas ujian
Dalam kenyataannya, sering ada situasi di mana orang harus menjelaskan alasan di balik pengambilan keputusan mereka di depan orang lain
Bisa dipahami jika generasi yang kehilangan banyak pengalaman tatap muka selama COVID takut berbicara, tetapi latihan untuk mengatasi kecemasan seperti ini justru bisa membantu
Karena potensi kecurangan pada ujian take-home meningkat, ujian lisan mungkin tidak sempurna tetapi bisa menjadi alternatif yang lebih baik
Dulu semua ujian nyaris tidak memberi celah sama sekali bagi AI untuk ikut campur
Semuanya ditulis tangan dengan pena, dan ujian dilakukan di gedung olahraga dengan pengawas
Menyontek berarti dikeluarkan, dan hanya 1% dari ribuan orang yang lulus
Saat sekarang saya mendengar usulan agar ujian diubah mengikuti AI, rasanya seperti gila. Solusinya sebenarnya sudah ada
Pada akhirnya itu hanya struktur yang menyalahkan mahasiswa, sementara masalah sebenarnya adalah kemalasan dosen dan daur ulang soal ujian
Solusi yang benar adalah membuat soal baru setiap kali dan menyusunnya secara bervariasi
Menurut saya lebih baik ujian dilakukan di komputer yang disediakan sekolah dengan lingkungan pengembangan yang tersedia
Jika itu benar, maka mencari cara ujian lisan yang bisa diskalakan memang ada gunanya
Tidak perlu terobsesi pada skalabilitas
Universitas punya banyak uang, jadi profesor saja yang langsung melakukan ujian lisan
Di program pascasarjana Jerman pun ujian lisan sering dipakai, dan itu berjalan baik
Mengandalkan AI terasa seperti simbol kemalasan
AI bagus untuk pekerjaan berulang, tetapi sulit dipercaya dalam situasi yang bersifat adversarial
Saya juga pernah menjalani ujian lisan saat kuliah S1, dan perubahan sikap profesor begitu besar sampai tegangnya luar biasa
Saya ragu AI bisa memberikan tekanan emosional seperti itu
Justru saya cenderung kesal pada kesalahan kecil dari AI
Tetapi dalam situasi seperti itu pikiran saya blank dan saya tidak bisa berkata apa-apa. Sangat menyiksa
Dulu kami pernah memberi tugas take-home dalam proses rekrutmen, tetapi sebagian pelamar tidak bisa menjelaskan kode yang mereka kirim sendiri
Sekarang setelah LLM muncul, godaan untuk membiarkan AI menulis sebagai pengganti jauh lebih besar
Namun kita perlu menilai kemampuan pemecahan masalah dan komunikasi pelamar
Wawancara yang membolehkan LLM pada akhirnya berubah menjadi “tes kemahiran memakai AI”
Saya tidak setuju dengan metode dalam artikel itu, tetapi kesadaran akan masalahnya sendiri sangat realistis
Langkah berikutnya mungkin adalah situasi di mana AI dipakai untuk menggantikan AI yang menjawab dengan suara
Pada akhirnya manusia harus kembali menjadi pusatnya
Ke depan akan jadi makin licik dengan kacamata pintar, mikrofon bone-conduction, dan sebagainya
Pada akhirnya hanya mahasiswa yang jujur tetapi punya kecemasan sosial yang akan dirugikan
Mungkin bagus jika selama semester dijalankan ujian lisan percobaan sukarela
Mahasiswa bisa membiasakan diri dengan formatnya dan menyesuaikan diri dengan nada suara juga
Agak mengejutkan mendengar bahwa dengan sekitar 36 mahasiswa ujian lisan dianggap mustahil
Pembelajaran berulang seperti inilah justru bentuk belajar yang sesungguhnya
Menerima refund $25 lalu membiarkan LLM yang mengikuti ujian benar-benar tidak saya inginkan
Jika hanya sebagian mahasiswa yang diambil sebagai sampel untuk diuji, itu bisa memunculkan motivasi sekaligus rasa frustrasi
Bahkan kalau hanya mahasiswa papan atas yang diajak bicara 10 menit, ujian lisan tetap cukup memungkinkan
Dibombardir pertanyaan oleh aplikasi suara AI saja sudah terdengar mengerikan
Jika cara seperti ini dipertahankan, mungkin kita justru butuh model pendidikan tanpa penilaian
Hal-hal yang tidak akan pernah saya katakan kepada manusia jadi mudah saja diucapkan
Saya adalah penulis posting blog itu
Kami hanya mencoba pendekatan baru di kelas AI kami
Bukan untuk menghapus ujian tertulis, melainkan menambahkan ujian lisan sebagai satu alat lagi
Tujuannya adalah memastikan apakah dalam proyek tim mahasiswa benar-benar memahami pekerjaan mereka sendiri
Mahasiswa yang mendapat nilai rendah pada ujian lisan, sesuai dugaan, memang kurang memahami proyeknya
Pada skala 36 orang, wawancara langsung masih mungkin, tetapi di atas 100 orang menjadi sulit
Yang terpenting, ada penelitian yang menunjukkan bahwa AI tidak lelah sehingga memberi penilaian yang konsisten. Karena itu saya mempercayainya
Itu tidak beda dengan memakai forklift di gym
Mungkin masih bisa untuk mata kuliah sederhana setingkat MBA, tetapi pada mata kuliah yang menuntut penilaian bernuansa, AI tidak adil
Untuk ujian pengecekan sederhana seperti ini, menurut saya lebih baik sekalian pilihan ganda di kios
Pada masa kami, semua ujian bersifat lisan
Ujian besar berlangsung sampai dua hari, tetapi profesor dan asisten pengajar menjalankan 6 sesi per tahun
Salah satu alasannya adalah perbedaan penafsiran budaya tentang keadilan
Dalam lingkungan yang sangat beragam, ujian lisan bisa memicu kontroversi soal bias
Jika mereka bisa menilai dengan AI seharga $5 lalu menghabiskan 20 jam menggulir ponsel, mereka akan memilih itu