Melawan api dengan api: memperluas ujian lisan dengan memanfaatkan agen suara AI

(behind-the-enemy-lines.com)

2 poin oleh GN⁺ 2026-01-05 | 1 komentar | Bagikan ke WhatsApp

Seiring meluasnya penggunaan large language model (LLM), tugas dan ujian konvensional tidak lagi mampu mengukur pemahaman belajar secara akurat, sehingga pengajar bereksperimen memperkenalkan ujian lisan real-time dengan AI suara ElevenLabs
Ujian terdiri dari dua bagian, yaitu penjelasan proyek dan tanya jawab berbasis kasus, sehingga mahasiswa harus menjelaskan langsung kepada AI dasar pengambilan keputusan dan proses berpikir mereka
Tiga model, Claude·Gemini·ChatGPT, melakukan penilaian secara musyawarah untuk meningkatkan konsistensi dan kualitas umpan balik, sekaligus mengungkap topik lemah dalam perkuliahan yang sebenarnya (desain eksperimen)
36 mahasiswa selama 9 hari dievaluasi dengan rata-rata 25 menit per orang, dan biaya per mahasiswa hanya 0,42 dolar AS, sangat murah
Ujian lisan AI berpotensi menjadi model ujian baru yang dapat diskalakan untuk penilaian berbasis pemahaman

Latar belakang pengenalan masalah dan penerapan ujian lisan

Kualitas tugas mahasiswa tampak tidak wajar tinggi sehingga memunculkan kecurigaan penulisan oleh AI, dan saat diberi pertanyaan acak banyak yang tidak mampu menjelaskan sendiri
Karena aksesibilitas LLM, keandalan tugas dan ujian konvensional runtuh, sehingga ujian lisan yang dapat menilai kemampuan berpikir secara real-time muncul sebagai alternatif
Namun, ujian lisan memiliki keterbatasan karena tidak dapat dioperasikan dalam skala besar, sehingga agen suara AI digunakan untuk mengatasinya

Konfigurasi agen suara berbasis ElevenLabs

Menggunakan ElevenLabs Conversational AI untuk mengintegrasikan elemen kompleks seperti pengenalan suara, sintesis suara, dan manajemen giliran percakapan
Dengan variabel dinamis, nama mahasiswa dan informasi proyek dikirimkan, lalu dengan struktur workflow agen autentikasi, agen proyek, dan agen kasus dipisahkan
- Agen autentikasi: memverifikasi ID mahasiswa
- Agen proyek: mengajukan pertanyaan berdasarkan materi yang dikumpulkan
- Agen kasus: memilih kasus secara acak lalu mengajukan pertanyaan
Dengan memecahnya menjadi beberapa agen kecil, diperoleh pencegahan percakapan menyimpang dan kemudahan debugging

Pelaksanaan ujian dan hasil numerik

Total 36 orang, selama 9 hari, berlangsung rata-rata 25 menit (terpendek 9 menit hingga terpanjang 64 menit)
Rata-rata 65 kali pertukaran pesan, total biaya 15 dolar AS (0,42 dolar AS per mahasiswa)
89% hasil penilaian LLM selaras dalam selisih 1 poin, dan ujian tersingkat (9 menit) mencatat skor tertinggi (19/20)
Dibanding penilaian manusia, tercapai pengurangan biaya lebih dari 50 kali, sekaligus otomatisasi penilaian, pencatatan, dan umpan balik secara real-time

Trial and error serta langkah perbaikan

Umpan balik mahasiswa menyebut nada suara terasa mengintimidasi → direncanakan A/B test untuk berbagai suara
Masalah pertanyaan menumpuk (stack) → ditambahkan aturan “satu pertanyaan dalam satu waktu”
Perubahan makna saat pertanyaan diulang → diperjelas dengan instruksi “ulangi kalimat persis apa adanya”
Kurangnya waktu untuk berpikir → waktu tunggu diperpanjang menjadi 10 detik
Kegagalan pemilihan kasus acak → diselesaikan lewat pemetaan bilangan acak pada level kode

Penilaian musyawarah LLM (council grading)

Claude·Gemini·ChatGPT menilai secara independen lalu saling meninjau dan merevisi
Tingkat ketidaksesuaian pada penilaian putaran pertama tinggi, tetapi setelah musyawarah putaran kedua, tingkat kesesuaian dalam selisih 1 poin meningkat dari 62% → 85%
Gemini menyesuaikan nilai rata-rata menjadi 2 poin lebih rendah, dan konsistensi antara Claude dan OpenAI tinggi
Ketidaksesuaian penilaian terbesar terjadi pada komponen desain eksperimen, yang dianalisis disebabkan oleh ambiguitas jawaban mahasiswa
Penilaian AI lebih ketat tetapi adil dibanding manusia, dan umpan baliknya unggul karena spesifik dan berorientasi tindakan

Wawasan pendidikan dan diagnosis

Dalam analisis capaian per topik, rata-rata desain eksperimen 1,94/4 adalah yang terendah
- Skor 0: 8%, skor 1: 19%, skor 2: 42%, skor 4: 0%
Terungkap bahwa penyebabnya adalah kurangnya penjelasan tentang A/B test dalam kuliah, yang menegaskan perlunya perbaikan pengajaran oleh dosen
Tidak ada korelasi antara durasi ujian dan skor (r=-0.03), dan jawaban yang singkat serta jelas berkaitan dengan skor yang lebih tinggi

Pencegahan kecurangan dan transparansi

Mahasiswa diwajibkan menyalakan webcam dan perekaman audio untuk memblokir bantuan dari luar
Struktur ujian dan jenis pertanyaan dijalankan berdasarkan panduan yang dipublikasikan, sehingga menghilangkan risiko kebocoran soal
Mahasiswa dapat berlatih berulang kali dengan struktur yang sama, sehingga memperkuat efek belajar yang nyata

Respons mahasiswa

Hanya 13% yang lebih memilih ujian lisan AI, 57% memilih ujian tulis tradisional, dan 83% menjawab bahwa mereka merasa lebih stres
Namun, 70% mengakui bahwa ujian ini menilai pemahaman nyata dengan baik, sehingga kepercayaan terhadap evaluasinya tinggi
Fleksibilitas untuk mengikuti ujian secara mandiri dalam waktu dan tempat pilihan dinilai positif
Permintaan perbaikan: kecepatan lebih lambat, suara lebih tenang, dan format satu pertanyaan per giliran

Rencana perbaikan ke depan

Pengaturan kecepatan dan variasi suara, RAG query berbasis hasil pengumpulan mahasiswa, serta distribusi kasus dengan random seed eksplisit
Akan diperkenalkan trigger tinjauan manusia saat terjadi ketidaksesuaian penilaian antar-LLM
Peningkatan aksesibilitas: mode latihan, waktu tambahan, dan penyediaan metode alternatif

Kesimpulan: evaluasi berbasis pemahaman yang dapat diskalakan dengan AI

Tugas dan ujian tulis menjadi tidak efektif di era LLM, sehingga perlu beralih ke evaluasi kemampuan berpikir secara real-time
Ujian lisan AI mengukur pemahaman, penilaian, dan pemikiran spontan, serta menjadi metode evaluasi baru yang dapat dioperasikan dalam skala besar
Tanpa risiko kebocoran soal, pembelajaran dapat diperkuat melalui latihan berulang
“Fight fire with fire” — inovasi evaluasi yang menyelesaikan masalah yang ditimbulkan AI dengan AI

1 komentar

GN⁺ 2026-01-05

Komentar Hacker News

Saya rasa data dan kesimpulan yang diajukan dalam artikel itu tidak selaras
Para mahasiswa tetap lebih memilih ujian tertulis bahkan setelah berbicara dengan AI
Universitas sudah ratusan tahun menjalankan ujian tertulis sambil mencegah kecurangan, dan setelah COVID mereka memperkenalkan "roda persegi" berupa penilaian online, padahal rasanya lebih baik kembali ke roda yang bulat
- Hasil eksperimennya jelas tidak bagus, tetapi penulis menyebutnya sebagai “sukses besar”, itu yang mengejutkan
  Akurasi penilaian LLM bahkan tidak divalidasi. Rasanya seperti kesimpulan sudah ditentukan lebih dulu lalu datanya dipaksa menyesuaikan
- Kutipan yang dipakai itu bukan kesimpulan, hanya klaim semata
  ‘Ujian take-home sudah berakhir’ adalah sesuatu yang sudah jelas, bukan hasil eksperimen
  Sekarang kecurangan sudah terlalu mudah dilakukan sendirian
  Selain itu, setiap bidang akademik seharusnya punya cara evaluasi yang berbeda, dan bidang baru seperti ilmu komputer masih kurang matang dalam kematangan evaluasi
  Terakhir, preferensi mahasiswa bukan tolok ukur kualitas ujian
- Hanya karena mahasiswa lebih menyukai ujian tertulis bukan berarti itu yang terbaik
  Dalam kenyataannya, sering ada situasi di mana orang harus menjelaskan alasan di balik pengambilan keputusan mereka di depan orang lain
  Bisa dipahami jika generasi yang kehilangan banyak pengalaman tatap muka selama COVID takut berbicara, tetapi latihan untuk mengatasi kecemasan seperti ini justru bisa membantu
- Dalam kelas online, ujian tertulis sulit dilakukan
  Karena potensi kecurangan pada ujian take-home meningkat, ujian lisan mungkin tidak sempurna tetapi bisa menjadi alternatif yang lebih baik
- Perlombaan antara kecurangan dan pengawasan antara mahasiswa dan pengajar sudah berlangsung selama ratusan tahun
Dulu semua ujian nyaris tidak memberi celah sama sekali bagi AI untuk ikut campur
Semuanya ditulis tangan dengan pena, dan ujian dilakukan di gedung olahraga dengan pengawas
Menyontek berarti dikeluarkan, dan hanya 1% dari ribuan orang yang lulus
Saat sekarang saya mendengar usulan agar ujian diubah mengikuti AI, rasanya seperti gila. Solusinya sebenarnya sudah ada
- Tidak ada yang bisa dibanggakan dari sistem di mana 99% mahasiswa gagal
  Pada akhirnya itu hanya struktur yang menyalahkan mahasiswa, sementara masalah sebenarnya adalah kemalasan dosen dan daur ulang soal ujian
  Solusi yang benar adalah membuat soal baru setiap kali dan menyusunnya secara bervariasi
- Saya ragu apakah menyuruh orang menulis kode C++ dengan tangan benar-benar cara evaluasi terbaik
  Menurut saya lebih baik ujian dilakukan di komputer yang disediakan sekolah dengan lingkungan pengembangan yang tersedia
- Ada juga yang berpendapat bahwa ujian lisan lebih baik untuk mendiagnosis pemahaman
  Jika itu benar, maka mencari cara ujian lisan yang bisa diskalakan memang ada gunanya
- Tingkat kegagalan 99% sulit dipercaya. Universitas seperti itu seharusnya ditutup
Tidak perlu terobsesi pada skalabilitas
Universitas punya banyak uang, jadi profesor saja yang langsung melakukan ujian lisan
Di program pascasarjana Jerman pun ujian lisan sering dipakai, dan itu berjalan baik
- Di Eropa, ujian lisan umum dijumpai, seperti Matura atau sidang pembelaan disertasi doktoral
  Mengandalkan AI terasa seperti simbol kemalasan
  AI bagus untuk pekerjaan berulang, tetapi sulit dipercaya dalam situasi yang bersifat adversarial
Saya juga pernah menjalani ujian lisan saat kuliah S1, dan perubahan sikap profesor begitu besar sampai tegangnya luar biasa
Saya ragu AI bisa memberikan tekanan emosional seperti itu
Justru saya cenderung kesal pada kesalahan kecil dari AI
- Di Italia, semua ujian dari sekolah dasar sampai universitas mencakup bagian lisan
  Tetapi dalam situasi seperti itu pikiran saya blank dan saya tidak bisa berkata apa-apa. Sangat menyiksa
Dulu kami pernah memberi tugas take-home dalam proses rekrutmen, tetapi sebagian pelamar tidak bisa menjelaskan kode yang mereka kirim sendiri
Sekarang setelah LLM muncul, godaan untuk membiarkan AI menulis sebagai pengganti jauh lebih besar
Namun kita perlu menilai kemampuan pemecahan masalah dan komunikasi pelamar
Wawancara yang membolehkan LLM pada akhirnya berubah menjadi “tes kemahiran memakai AI”
Saya tidak setuju dengan metode dalam artikel itu, tetapi kesadaran akan masalahnya sendiri sangat realistis
- Ungkapan “synthetic pronouns” terasa menarik
Langkah berikutnya mungkin adalah situasi di mana AI dipakai untuk menggantikan AI yang menjawab dengan suara
Pada akhirnya manusia harus kembali menjadi pusatnya
- Bahkan sekarang teleprompter saja sudah cukup untuk menipu
  Ke depan akan jadi makin licik dengan kacamata pintar, mikrofon bone-conduction, dan sebagainya
  Pada akhirnya hanya mahasiswa yang jujur tetapi punya kecemasan sosial yang akan dirugikan
- Jika ruang ujian dipenuhi puluhan bilik telepon, rasanya itu akan lebih mengerikan daripada sekat kantor
Mungkin bagus jika selama semester dijalankan ujian lisan percobaan sukarela
Mahasiswa bisa membiasakan diri dengan formatnya dan menyesuaikan diri dengan nada suara juga
Agak mengejutkan mendengar bahwa dengan sekitar 36 mahasiswa ujian lisan dianggap mustahil
- Seperti disebutkan di bagian akhir artikel, AI menghasilkan pertanyaan baru setiap kali, sehingga bisa dipakai berlatih tanpa khawatir bocor
  Pembelajaran berulang seperti inilah justru bentuk belajar yang sesungguhnya
- Jika satu asisten pengajar dibayar $25 per jam, ujian lisan sepenuhnya layak dilakukan
  Menerima refund $25 lalu membiarkan LLM yang mengikuti ujian benar-benar tidak saya inginkan
- Di Charles University, Praha, bahkan lebih dari 200 mahasiswa pernah menjalani ujian lisan
- Itu tergantung pada kedalaman dan frekuensi ujian lisan
  Jika hanya sebagian mahasiswa yang diambil sebagai sampel untuk diuji, itu bisa memunculkan motivasi sekaligus rasa frustrasi
- Pada akhirnya ini cuma gagasan untuk menghemat uang dengan mengganti ujian memakai chatbot
  Bahkan kalau hanya mahasiswa papan atas yang diajak bicara 10 menit, ujian lisan tetap cukup memungkinkan
Dibombardir pertanyaan oleh aplikasi suara AI saja sudah terdengar mengerikan
Jika cara seperti ini dipertahankan, mungkin kita justru butuh model pendidikan tanpa penilaian
- Pada akhirnya kembali ke ujian tulisan tangan mungkin justru solusi yang paling realistis
- Saya juga baru-baru ini menjalani wawancara AI, dan saya tidak merasa bersalah saat berbohong kepada AI
  Hal-hal yang tidak akan pernah saya katakan kepada manusia jadi mudah saja diucapkan
- Jika ujian benar-benar dihapus, motivasi belajar tidak akan terjaga
Saya adalah penulis posting blog itu
Kami hanya mencoba pendekatan baru di kelas AI kami
Bukan untuk menghapus ujian tertulis, melainkan menambahkan ujian lisan sebagai satu alat lagi
Tujuannya adalah memastikan apakah dalam proyek tim mahasiswa benar-benar memahami pekerjaan mereka sendiri
Mahasiswa yang mendapat nilai rendah pada ujian lisan, sesuai dugaan, memang kurang memahami proyeknya
Pada skala 36 orang, wawancara langsung masih mungkin, tetapi di atas 100 orang menjadi sulit
Yang terpenting, ada penelitian yang menunjukkan bahwa AI tidak lelah sehingga memberi penilaian yang konsisten. Karena itu saya mempercayainya
- Ada yang bilang wajar membolehkan penggunaan LLM, tetapi saya tidak setuju
  Itu tidak beda dengan memakai forklift di gym
  Mungkin masih bisa untuk mata kuliah sederhana setingkat MBA, tetapi pada mata kuliah yang menuntut penilaian bernuansa, AI tidak adil
  Untuk ujian pengecekan sederhana seperti ini, menurut saya lebih baik sekalian pilihan ganda di kios
Pada masa kami, semua ujian bersifat lisan
Ujian besar berlangsung sampai dua hari, tetapi profesor dan asisten pengajar menjalankan 6 sesi per tahun
- Saat saya mengambil sarjana dan magister fisika, ujian lisan juga merupakan standar, tetapi di program doktor itu menghilang
  Salah satu alasannya adalah perbedaan penafsiran budaya tentang keadilan
  Dalam lingkungan yang sangat beragam, ujian lisan bisa memicu kontroversi soal bias
- Profesor juga tetap manusia
  Jika mereka bisa menilai dengan AI seharga $5 lalu menghabiskan 20 jam menggulir ponsel, mereka akan memilih itu

Melawan api dengan api: memperluas ujian lisan dengan memanfaatkan agen suara AI

Latar belakang pengenalan masalah dan penerapan ujian lisan

Konfigurasi agen suara berbasis ElevenLabs

Pelaksanaan ujian dan hasil numerik

Trial and error serta langkah perbaikan

Penilaian musyawarah LLM (council grading)

Wawasan pendidikan dan diagnosis

Pencegahan kecurangan dan transparansi

Respons mahasiswa

Rencana perbaikan ke depan

Kesimpulan: evaluasi berbasis pemahaman yang dapat diskalakan dengan AI

Bacaan terkait

1 komentar

Komentar Hacker News