2 poin oleh GN⁺ 2026-01-05 | 1 komentar | Bagikan ke WhatsApp
  • Seiring meluasnya penggunaan large language model (LLM), tugas dan ujian konvensional tidak lagi mampu mengukur pemahaman belajar secara akurat, sehingga pengajar bereksperimen memperkenalkan ujian lisan real-time dengan AI suara ElevenLabs
  • Ujian terdiri dari dua bagian, yaitu penjelasan proyek dan tanya jawab berbasis kasus, sehingga mahasiswa harus menjelaskan langsung kepada AI dasar pengambilan keputusan dan proses berpikir mereka
  • Tiga model, Claude·Gemini·ChatGPT, melakukan penilaian secara musyawarah untuk meningkatkan konsistensi dan kualitas umpan balik, sekaligus mengungkap topik lemah dalam perkuliahan yang sebenarnya (desain eksperimen)
  • 36 mahasiswa selama 9 hari dievaluasi dengan rata-rata 25 menit per orang, dan biaya per mahasiswa hanya 0,42 dolar AS, sangat murah
  • Ujian lisan AI berpotensi menjadi model ujian baru yang dapat diskalakan untuk penilaian berbasis pemahaman

Latar belakang pengenalan masalah dan penerapan ujian lisan

  • Kualitas tugas mahasiswa tampak tidak wajar tinggi sehingga memunculkan kecurigaan penulisan oleh AI, dan saat diberi pertanyaan acak banyak yang tidak mampu menjelaskan sendiri
  • Karena aksesibilitas LLM, keandalan tugas dan ujian konvensional runtuh, sehingga ujian lisan yang dapat menilai kemampuan berpikir secara real-time muncul sebagai alternatif
  • Namun, ujian lisan memiliki keterbatasan karena tidak dapat dioperasikan dalam skala besar, sehingga agen suara AI digunakan untuk mengatasinya

Konfigurasi agen suara berbasis ElevenLabs

  • Menggunakan ElevenLabs Conversational AI untuk mengintegrasikan elemen kompleks seperti pengenalan suara, sintesis suara, dan manajemen giliran percakapan
  • Dengan variabel dinamis, nama mahasiswa dan informasi proyek dikirimkan, lalu dengan struktur workflow agen autentikasi, agen proyek, dan agen kasus dipisahkan
    • Agen autentikasi: memverifikasi ID mahasiswa
    • Agen proyek: mengajukan pertanyaan berdasarkan materi yang dikumpulkan
    • Agen kasus: memilih kasus secara acak lalu mengajukan pertanyaan
  • Dengan memecahnya menjadi beberapa agen kecil, diperoleh pencegahan percakapan menyimpang dan kemudahan debugging

Pelaksanaan ujian dan hasil numerik

  • Total 36 orang, selama 9 hari, berlangsung rata-rata 25 menit (terpendek 9 menit hingga terpanjang 64 menit)
  • Rata-rata 65 kali pertukaran pesan, total biaya 15 dolar AS (0,42 dolar AS per mahasiswa)
  • 89% hasil penilaian LLM selaras dalam selisih 1 poin, dan ujian tersingkat (9 menit) mencatat skor tertinggi (19/20)
  • Dibanding penilaian manusia, tercapai pengurangan biaya lebih dari 50 kali, sekaligus otomatisasi penilaian, pencatatan, dan umpan balik secara real-time

Trial and error serta langkah perbaikan

  • Umpan balik mahasiswa menyebut nada suara terasa mengintimidasi → direncanakan A/B test untuk berbagai suara
  • Masalah pertanyaan menumpuk (stack) → ditambahkan aturan “satu pertanyaan dalam satu waktu”
  • Perubahan makna saat pertanyaan diulang → diperjelas dengan instruksi “ulangi kalimat persis apa adanya”
  • Kurangnya waktu untuk berpikir → waktu tunggu diperpanjang menjadi 10 detik
  • Kegagalan pemilihan kasus acak → diselesaikan lewat pemetaan bilangan acak pada level kode

Penilaian musyawarah LLM (council grading)

  • Claude·Gemini·ChatGPT menilai secara independen lalu saling meninjau dan merevisi
  • Tingkat ketidaksesuaian pada penilaian putaran pertama tinggi, tetapi setelah musyawarah putaran kedua, tingkat kesesuaian dalam selisih 1 poin meningkat dari 62% → 85%
  • Gemini menyesuaikan nilai rata-rata menjadi 2 poin lebih rendah, dan konsistensi antara Claude dan OpenAI tinggi
  • Ketidaksesuaian penilaian terbesar terjadi pada komponen desain eksperimen, yang dianalisis disebabkan oleh ambiguitas jawaban mahasiswa
  • Penilaian AI lebih ketat tetapi adil dibanding manusia, dan umpan baliknya unggul karena spesifik dan berorientasi tindakan

Wawasan pendidikan dan diagnosis

  • Dalam analisis capaian per topik, rata-rata desain eksperimen 1,94/4 adalah yang terendah
    • Skor 0: 8%, skor 1: 19%, skor 2: 42%, skor 4: 0%
  • Terungkap bahwa penyebabnya adalah kurangnya penjelasan tentang A/B test dalam kuliah, yang menegaskan perlunya perbaikan pengajaran oleh dosen
  • Tidak ada korelasi antara durasi ujian dan skor (r=-0.03), dan jawaban yang singkat serta jelas berkaitan dengan skor yang lebih tinggi

Pencegahan kecurangan dan transparansi

  • Mahasiswa diwajibkan menyalakan webcam dan perekaman audio untuk memblokir bantuan dari luar
  • Struktur ujian dan jenis pertanyaan dijalankan berdasarkan panduan yang dipublikasikan, sehingga menghilangkan risiko kebocoran soal
  • Mahasiswa dapat berlatih berulang kali dengan struktur yang sama, sehingga memperkuat efek belajar yang nyata

Respons mahasiswa

  • Hanya 13% yang lebih memilih ujian lisan AI, 57% memilih ujian tulis tradisional, dan 83% menjawab bahwa mereka merasa lebih stres
  • Namun, 70% mengakui bahwa ujian ini menilai pemahaman nyata dengan baik, sehingga kepercayaan terhadap evaluasinya tinggi
  • Fleksibilitas untuk mengikuti ujian secara mandiri dalam waktu dan tempat pilihan dinilai positif
  • Permintaan perbaikan: kecepatan lebih lambat, suara lebih tenang, dan format satu pertanyaan per giliran

Rencana perbaikan ke depan

  • Pengaturan kecepatan dan variasi suara, RAG query berbasis hasil pengumpulan mahasiswa, serta distribusi kasus dengan random seed eksplisit
  • Akan diperkenalkan trigger tinjauan manusia saat terjadi ketidaksesuaian penilaian antar-LLM
  • Peningkatan aksesibilitas: mode latihan, waktu tambahan, dan penyediaan metode alternatif

Kesimpulan: evaluasi berbasis pemahaman yang dapat diskalakan dengan AI

  • Tugas dan ujian tulis menjadi tidak efektif di era LLM, sehingga perlu beralih ke evaluasi kemampuan berpikir secara real-time
  • Ujian lisan AI mengukur pemahaman, penilaian, dan pemikiran spontan, serta menjadi metode evaluasi baru yang dapat dioperasikan dalam skala besar
  • Tanpa risiko kebocoran soal, pembelajaran dapat diperkuat melalui latihan berulang
  • “Fight fire with fire” — inovasi evaluasi yang menyelesaikan masalah yang ditimbulkan AI dengan AI

1 komentar

 
GN⁺ 2026-01-05
Komentar Hacker News
  • Saya rasa data dan kesimpulan yang diajukan dalam artikel itu tidak selaras
    Para mahasiswa tetap lebih memilih ujian tertulis bahkan setelah berbicara dengan AI
    Universitas sudah ratusan tahun menjalankan ujian tertulis sambil mencegah kecurangan, dan setelah COVID mereka memperkenalkan "roda persegi" berupa penilaian online, padahal rasanya lebih baik kembali ke roda yang bulat

    • Hasil eksperimennya jelas tidak bagus, tetapi penulis menyebutnya sebagai “sukses besar”, itu yang mengejutkan
      Akurasi penilaian LLM bahkan tidak divalidasi. Rasanya seperti kesimpulan sudah ditentukan lebih dulu lalu datanya dipaksa menyesuaikan
    • Kutipan yang dipakai itu bukan kesimpulan, hanya klaim semata
      ‘Ujian take-home sudah berakhir’ adalah sesuatu yang sudah jelas, bukan hasil eksperimen
      Sekarang kecurangan sudah terlalu mudah dilakukan sendirian
      Selain itu, setiap bidang akademik seharusnya punya cara evaluasi yang berbeda, dan bidang baru seperti ilmu komputer masih kurang matang dalam kematangan evaluasi
      Terakhir, preferensi mahasiswa bukan tolok ukur kualitas ujian
    • Hanya karena mahasiswa lebih menyukai ujian tertulis bukan berarti itu yang terbaik
      Dalam kenyataannya, sering ada situasi di mana orang harus menjelaskan alasan di balik pengambilan keputusan mereka di depan orang lain
      Bisa dipahami jika generasi yang kehilangan banyak pengalaman tatap muka selama COVID takut berbicara, tetapi latihan untuk mengatasi kecemasan seperti ini justru bisa membantu
    • Dalam kelas online, ujian tertulis sulit dilakukan
      Karena potensi kecurangan pada ujian take-home meningkat, ujian lisan mungkin tidak sempurna tetapi bisa menjadi alternatif yang lebih baik
    • Perlombaan antara kecurangan dan pengawasan antara mahasiswa dan pengajar sudah berlangsung selama ratusan tahun
  • Dulu semua ujian nyaris tidak memberi celah sama sekali bagi AI untuk ikut campur
    Semuanya ditulis tangan dengan pena, dan ujian dilakukan di gedung olahraga dengan pengawas
    Menyontek berarti dikeluarkan, dan hanya 1% dari ribuan orang yang lulus
    Saat sekarang saya mendengar usulan agar ujian diubah mengikuti AI, rasanya seperti gila. Solusinya sebenarnya sudah ada

    • Tidak ada yang bisa dibanggakan dari sistem di mana 99% mahasiswa gagal
      Pada akhirnya itu hanya struktur yang menyalahkan mahasiswa, sementara masalah sebenarnya adalah kemalasan dosen dan daur ulang soal ujian
      Solusi yang benar adalah membuat soal baru setiap kali dan menyusunnya secara bervariasi
    • Saya ragu apakah menyuruh orang menulis kode C++ dengan tangan benar-benar cara evaluasi terbaik
      Menurut saya lebih baik ujian dilakukan di komputer yang disediakan sekolah dengan lingkungan pengembangan yang tersedia
    • Ada juga yang berpendapat bahwa ujian lisan lebih baik untuk mendiagnosis pemahaman
      Jika itu benar, maka mencari cara ujian lisan yang bisa diskalakan memang ada gunanya
    • Tingkat kegagalan 99% sulit dipercaya. Universitas seperti itu seharusnya ditutup
  • Tidak perlu terobsesi pada skalabilitas
    Universitas punya banyak uang, jadi profesor saja yang langsung melakukan ujian lisan
    Di program pascasarjana Jerman pun ujian lisan sering dipakai, dan itu berjalan baik

    • Di Eropa, ujian lisan umum dijumpai, seperti Matura atau sidang pembelaan disertasi doktoral
      Mengandalkan AI terasa seperti simbol kemalasan
      AI bagus untuk pekerjaan berulang, tetapi sulit dipercaya dalam situasi yang bersifat adversarial
  • Saya juga pernah menjalani ujian lisan saat kuliah S1, dan perubahan sikap profesor begitu besar sampai tegangnya luar biasa
    Saya ragu AI bisa memberikan tekanan emosional seperti itu
    Justru saya cenderung kesal pada kesalahan kecil dari AI

    • Di Italia, semua ujian dari sekolah dasar sampai universitas mencakup bagian lisan
      Tetapi dalam situasi seperti itu pikiran saya blank dan saya tidak bisa berkata apa-apa. Sangat menyiksa
  • Dulu kami pernah memberi tugas take-home dalam proses rekrutmen, tetapi sebagian pelamar tidak bisa menjelaskan kode yang mereka kirim sendiri
    Sekarang setelah LLM muncul, godaan untuk membiarkan AI menulis sebagai pengganti jauh lebih besar
    Namun kita perlu menilai kemampuan pemecahan masalah dan komunikasi pelamar
    Wawancara yang membolehkan LLM pada akhirnya berubah menjadi “tes kemahiran memakai AI”
    Saya tidak setuju dengan metode dalam artikel itu, tetapi kesadaran akan masalahnya sendiri sangat realistis

    • Ungkapan “synthetic pronouns” terasa menarik
  • Langkah berikutnya mungkin adalah situasi di mana AI dipakai untuk menggantikan AI yang menjawab dengan suara
    Pada akhirnya manusia harus kembali menjadi pusatnya

    • Bahkan sekarang teleprompter saja sudah cukup untuk menipu
      Ke depan akan jadi makin licik dengan kacamata pintar, mikrofon bone-conduction, dan sebagainya
      Pada akhirnya hanya mahasiswa yang jujur tetapi punya kecemasan sosial yang akan dirugikan
    • Jika ruang ujian dipenuhi puluhan bilik telepon, rasanya itu akan lebih mengerikan daripada sekat kantor
  • Mungkin bagus jika selama semester dijalankan ujian lisan percobaan sukarela
    Mahasiswa bisa membiasakan diri dengan formatnya dan menyesuaikan diri dengan nada suara juga
    Agak mengejutkan mendengar bahwa dengan sekitar 36 mahasiswa ujian lisan dianggap mustahil

    • Seperti disebutkan di bagian akhir artikel, AI menghasilkan pertanyaan baru setiap kali, sehingga bisa dipakai berlatih tanpa khawatir bocor
      Pembelajaran berulang seperti inilah justru bentuk belajar yang sesungguhnya
    • Jika satu asisten pengajar dibayar $25 per jam, ujian lisan sepenuhnya layak dilakukan
      Menerima refund $25 lalu membiarkan LLM yang mengikuti ujian benar-benar tidak saya inginkan
    • Di Charles University, Praha, bahkan lebih dari 200 mahasiswa pernah menjalani ujian lisan
    • Itu tergantung pada kedalaman dan frekuensi ujian lisan
      Jika hanya sebagian mahasiswa yang diambil sebagai sampel untuk diuji, itu bisa memunculkan motivasi sekaligus rasa frustrasi
    • Pada akhirnya ini cuma gagasan untuk menghemat uang dengan mengganti ujian memakai chatbot
      Bahkan kalau hanya mahasiswa papan atas yang diajak bicara 10 menit, ujian lisan tetap cukup memungkinkan
  • Dibombardir pertanyaan oleh aplikasi suara AI saja sudah terdengar mengerikan
    Jika cara seperti ini dipertahankan, mungkin kita justru butuh model pendidikan tanpa penilaian

    • Pada akhirnya kembali ke ujian tulisan tangan mungkin justru solusi yang paling realistis
    • Saya juga baru-baru ini menjalani wawancara AI, dan saya tidak merasa bersalah saat berbohong kepada AI
      Hal-hal yang tidak akan pernah saya katakan kepada manusia jadi mudah saja diucapkan
    • Jika ujian benar-benar dihapus, motivasi belajar tidak akan terjaga
  • Saya adalah penulis posting blog itu
    Kami hanya mencoba pendekatan baru di kelas AI kami
    Bukan untuk menghapus ujian tertulis, melainkan menambahkan ujian lisan sebagai satu alat lagi
    Tujuannya adalah memastikan apakah dalam proyek tim mahasiswa benar-benar memahami pekerjaan mereka sendiri
    Mahasiswa yang mendapat nilai rendah pada ujian lisan, sesuai dugaan, memang kurang memahami proyeknya
    Pada skala 36 orang, wawancara langsung masih mungkin, tetapi di atas 100 orang menjadi sulit
    Yang terpenting, ada penelitian yang menunjukkan bahwa AI tidak lelah sehingga memberi penilaian yang konsisten. Karena itu saya mempercayainya

    • Ada yang bilang wajar membolehkan penggunaan LLM, tetapi saya tidak setuju
      Itu tidak beda dengan memakai forklift di gym
      Mungkin masih bisa untuk mata kuliah sederhana setingkat MBA, tetapi pada mata kuliah yang menuntut penilaian bernuansa, AI tidak adil
      Untuk ujian pengecekan sederhana seperti ini, menurut saya lebih baik sekalian pilihan ganda di kios
  • Pada masa kami, semua ujian bersifat lisan
    Ujian besar berlangsung sampai dua hari, tetapi profesor dan asisten pengajar menjalankan 6 sesi per tahun

    • Saat saya mengambil sarjana dan magister fisika, ujian lisan juga merupakan standar, tetapi di program doktor itu menghilang
      Salah satu alasannya adalah perbedaan penafsiran budaya tentang keadilan
      Dalam lingkungan yang sangat beragam, ujian lisan bisa memicu kontroversi soal bias
    • Profesor juga tetap manusia
      Jika mereka bisa menilai dengan AI seharga $5 lalu menghabiskan 20 jam menggulir ponsel, mereka akan memilih itu