Penggunaan AI dan menurunnya kemampuan matematika picu lonjakan nilai gagal di kelas CS Berkeley
(dailycal.org)- Tingkat kegagalan di kelas CS Berkeley pada musim semi 2026 melonjak jauh dibanding semester-semeter sebelumnya: CS 10 mencapai 35,3% dan CS 61A 10,6%, menyimpang dari pedoman EECS yang menetapkan rasio D·F 7% dan rata-rata IPK 2,8~3,3 untuk mata kuliah tingkat bawah
- Dan Garcia menilai peningkatan besar kecurangan akademik akibat penggunaan LLM seperti Claude, ChatGPT, dan Google Gemini sebagai “primary driver” dari tingkat kegagalan yang tidak normal ini; di CS 10, hampir 30 mahasiswa tertangkap curang dalam take-home exam
- Kedua kelas dinilai dengan ambang skor yang dipublikasikan tanpa kurva nilai, sehingga nilai mahasiswa tidak ditentukan oleh performa teman sekelas; Garcia menilai kurva hanya menyembunyikan masalah
- EECS 127 milik Gireeja Ranade juga mencatat rasio F sebesar 16,8% di tengah kurangnya kesiapan matematika dan kekurangan tenaga pengajar; proyek akhir yang sebelumnya ada dihapus karena kekurangan asisten pengajar, dan partisipasi office hour juga menurun
- Di era AI, kelas CS·EECS Berkeley sedang ditinjau ulang ke arah pengajaran yang lebih banyak serta pencarian dukungan tambahan agar mahasiswa belajar menahan kesulitan dan kebingungan sambil membangun kemampuan berpikir kritis dan analitis
Lonjakan nilai gagal dan penyimpangan dari pedoman nilai
- Menurut Berkeleytime, pada musim semi 2026 sebanyak 35,3% mahasiswa CS 10 dan 10,6% mahasiswa CS 61A menerima nilai F
- Pada musim semi 2025 dan musim semi 2024, rasio F di kedua kelas tidak pernah melebihi 10%
- Pedoman penilaian departemen EECS menyebutkan bahwa rasio mahasiswa yang menerima D dan F di mata kuliah tingkat bawah seperti CS 10 dan CS 61A adalah 7%
- Dalam pedoman tersebut, rentang IPK yang umum untuk mata kuliah tingkat bawah adalah 2,8~3,3, tetapi rata-rata nilai kedua kelas pada musim semi 2026 adalah C+, setara dengan IPK 2,3
Ketergantungan pada LLM dan masalah kecurangan
- Dan Garcia mengajar CS 10 “The Beauty and Joy of Computing” dan CS 61A “The Structure and Interpretation of Computer Programs” pada musim semi 2026
- Garcia menilai kenaikan kecurangan akademik akibat penggunaan model bahasa besar seperti Claude, ChatGPT, dan Google Gemini sebagai “primary driver” dari tingkat kegagalan yang sangat tinggi
- Sebagian nilai gagal berasal dari mahasiswa yang tertangkap curang lalu dirujuk ke proses disipliner, sementara dalam kasus lain mahasiswa dianggap terlalu bergantung pada LLM dan akhirnya tidak siap saat ujian
- Pada musim semi 2026, hampir 30 mahasiswa di CS 10 tertangkap curang dalam take-home exam
Sistem penilaian tanpa kurva
- Kedua kelas Garcia dinilai berdasarkan ambang skor untuk masing-masing letter grade, bukan dengan kurva
- Dalam sistem ini, nilai mahasiswa tidak bergantung pada performa mahasiswa lain
- Garcia lebih menyukai cara yang mempublikasikan kriteria tiap letter grade dan memberi mahasiswa banyak kesempatan untuk mencapai ambang tersebut
- Garcia sangat menentang sistem seperti di Harvard yang membuat hanya sebagian mahasiswa bisa mendapat A, dan menilai kurva hanya menyembunyikan masalah yang sebenarnya
Kesiapan matematika dan kesulitan di EECS 127
- Selain ketergantungan berlebihan pada AI, Garcia juga menilai banyak mahasiswa tidak cukup siap secara matematika, dan Gireeja Ranade membagikan kekhawatiran yang sama
- EECS 127 “Optimization Models in Engineering” milik Ranade pada musim semi 2026 mencatat rasio F sebesar 16,8%, jauh di atas 5% yang disebut departemen EECS sebagai rasio D·F “typical” untuk mata kuliah tingkat atas
- Mahasiswa EECS 127 diharapkan masuk setelah menempuh aljabar linear, kalkulus vektor, dan pembuktian matematis, tetapi Ranade melihat banyak mahasiswa kesulitan dengan aljabar linear saat office hour
- Seorang mahasiswa memberi tahu Ranade bahwa tugas dan ujian di kelas aljabar linear yang diambilnya di UC Berkeley memiliki “open-internet, open-AI policy”
- Garcia dan Ranade termasuk di antara lebih dari 1.300 dosen UC yang menandatangani petisi yang menuntut pengembalian nilai ujian standar ACT dan SAT dalam penerimaan STEM di sistem UC
Kekurangan tenaga pengajar dan menurunnya partisipasi mahasiswa
- EECS 127 sebelumnya memiliki proyek akhir dengan bimbingan profesor dan tim asisten pengajar, dan Ranade menilai sebagian besar mahasiswa biasanya mendapat nilai tinggi di bagian ini
- Pada 2026, Ranade menghapus proyek akhir itu dari kelas karena kekurangan tenaga pengajar
- Menurut unggahan X dari ketua departemen EECS Jelani Nelson, kampus harus mengurangi jumlah pendaftaran sarjana CS dan jumlah asisten pengajar sarjana karena tingginya upah per jam untuk asisten pengajar EECS
- Office hour Ranade sebelumnya selalu penuh, tetapi semester ini partisipasi sangat rendah meski mahasiswa sering didorong untuk datang
- Garcia juga mengalami kekurangan kehadiran office hour dalam dua semester terakhir, dan untuk pertama kalinya merasakan office hour tanpa satu pun mahasiswa datang
Redesain kelas dan sikap belajar
- Garcia berencana mulai memberi tahu mahasiswa pada hari pertama kuliah tentang apa yang terjadi pada musim semi 2026, dan mencari cara untuk mengidentifikasi mahasiswa yang membutuhkan dukungan tambahan
- Ranade menilai bahwa di era AI, dosen harus mengajar mahasiswa “lebih banyak, bukan lebih sedikit”
- Ranade ingin mahasiswa memiliki kemampuan berpikir kritis dan analitis yang dibutuhkan untuk menjadi pemimpin di dunia yang kompetitif
- Kedua profesor sama-sama menilai mahasiswa perlu menjadi lebih nyaman menghadapi persoalan yang sulit
- Garcia mengutip ungkapan rekannya, “Confusion is the sweat of learning,” dan menilai banyak mahasiswa tidak cukup mengeluarkan “keringat” itu
1 komentar
Komentar Hacker News
Kalau LLM sudah ada saat aku masih jadi mahasiswa, sepertinya aku akan memakainya untuk “menyelesaikan” PR dengan cepat lalu hancur total di semua ujian, jadi aku cukup bisa berempati dengan mahasiswa sekarang
Sekarang aku kebanyakan bekerja dengan para PhD, dan bahkan orang-orang yang dulu selalu ada di kelompok teratas pun terlihat kemampuan bernalar mereka menurun dengan cepat. Jika LLM tidak mengerjakan 90% pekerjaan, kini banyak orang tidak bisa brainstorming, coding, berpikir mendalam, atau menulis, dan bahkan duduk diam sendirian berpikir selama 30 menit yang dibutuhkan untuk pemikiran orisinal pun jadi sulit
Orang dewasa tidak punya ujian, dan karena output tetap terjaga berkat LLM, penurunan kognitif mungkin sulit diukur, tetapi menurutku itu sudah terjadi di mana-mana di sekitar kita. Aku ingin menyangkalnya, tapi sekarang sudah terlalu jelas untuk diabaikan
Aritmetika sederhana dan persentase yang dulu bisa kulakukan cepat di kepala kini bergantung pada kalkulator dan spreadsheet, dan pengetahuan trivia kutitipkan pada RAM internet di saku. Rasa “oh, dulu aku tahu ini, sekarang harus cari lagi” sudah terasa akrab. Mungkin sebelum LLM pun aku sudah mencapai dasar kebodohan pribadiku
Namun, kondisi komunikasi belakangan ini terasa seperti beban mental yang luar biasa. Email, voicemail, chat, online, SMS, pribadi, kantor, rumah, anak-anak, keluarga, teman, Messages, Messenger, WhatsApp, dan seterusnya—harus menjalankan begitu banyak percakapan dan thread sekaligus. Dan meski begitu, aku masih jauh kurang terhubung dibanding orang-orang di sekitarku. Aku tidak punya kapasitas untuk menanganinya, jadi aku memutus hampir semua berita dan semua olahraga
Otakku terbentuk sebelum internet, dan rasanya proses konversi dari analog ke digital sudah mencapai batasnya. Setidaknya, rasanya seperti konversi yang penuh kehilangan
Aku sedang mempelajari codebase baru yang besar di pekerjaan baru, dan AI benar-benar pedang bermata dua. Di satu sisi, sangat berguna saat mengajukan pertanyaan tentang codebase, tetapi kalau tidak hati-hati dan membiarkannya menerapkan perubahan sebelum sempat menyelidiki, kita jadi tidak benar-benar mempelajari codebase itu sama sekali. Untuk mempertahankan pemahaman, kita harus benar-benar menulis kode baru sendiri dan memakai otot mental yang dibutuhkan
Pada saat yang sama, codebase besar ini juga menunjukkan batas AI. Jika mendorong fitur hanya berdasarkan firasat tanpa pemahaman, pasti akan menimbulkan banyak masalah. Bahkan perbaikan bug yang terarah pun punya banyak konsekuensi tak diinginkan yang tidak dilihat LLM. Ini bukan codebase yang buruk, tetapi skalanya memang berat bahkan untuk model terdepan. Jadi menurutku klaim bahwa “masalah AI bisa diselesaikan dengan lebih banyak AI, jadi tidak perlu memahami codebase” belum berlaku saat ini
Rasanya perlu ada langkah yang cukup berani. Di kelas matematika SMA dulu masih banyak pembatasan “dilarang pakai kalkulator”, dan aku membencinya karena merasa hitungan aritmetika yang panjang justru mengganggu pembelajaran. Jadi aku paham kenapa siswa bisa menolak model pengajaran yang hanya memakai kertas, tetapi dengan adanya mesin PR berkualitas tinggi tepat di samping mereka, aku juga tidak benar-benar tahu apa yang bisa mereka pelajari
Biarkan siswa memakai alat AI yang mereka inginkan, tetapi arahkan cara memakainya secara profesional, sementara keterampilan dan pengetahuan yang memang harus dikuasai diuji secara offline dan tatap muka sejak dini dan sesering mungkin. Dan menurutku, alih-alih memberi F untuk kecurangan, lebih tepat jika langsung diskors
Beberapa tahun lalu aku membaca tentang guru SMA yang mengunggah kuliah ke YouTube agar murid menontonnya sendiri, lalu waktu kelas dipakai untuk interaksi, tanya jawab, dan ujian
Edit: Claude lebih cepat daripada pencarian. Itu contoh dari 2 guru kimia SMA pada 2007, yaitu flipped classroom https://fltmag.com/the-flipped-classroom/
Aku tidak akan menyebutnya sebagai “penurunan kognitif”, tetapi jelas terlihat bahwa aku jadi jauh lebih malas. Hal-hal yang dulu terasa biasa saat pertama mulai coding sekarang terasa berat
Berbeda dari yang disiratkan judul artikel, kemungkinan alasan sebenarnya tersembunyi dalam satu paragraf artikel. Bagian itu berbunyi: “Garcia dan Ranade, bersama lebih dari 1.300 dosen UC, menandatangani petisi yang meminta pemulihan nilai tes standar ACT dan SAT dalam penerimaan STEM di sistem UC. Petisi dan surat terbuka itu merinci kekhawatiran serupa tentang kesiapan matematika mahasiswa.”
Sebelum dan sesudah COVID, banyak universitas papan atas bereksperimen menghapus persyaratan tes masuk atas nama kesetaraan, tetapi hampir semuanya gagal, dan banyak kampus sudah mulai membatalkannya. Yale pernah menyatakan bahwa “dalam studi sebelum dan sesudah pandemi, dari semua komponen aplikasi, nilai tes adalah satu-satunya indikator terkuat untuk memprediksi performa akademik masa depan di Yale, dan hal ini tetap benar bahkan setelah mengontrol variabel pendapatan keluarga dan demografi; ini juga berlaku bukan hanya untuk ACT/SAT tetapi juga untuk ujian berbasis mata pelajaran seperti AP dan IB” https://archive.is/8zxfo
Tautan itu adalah arsip karena halaman aslinya sudah dihapus. Yale sempat mencoba strategi ‘test flexible’ yang membuat pengiriman skor menjadi opsional, tetapi segera membuangnya dan kembali mewajibkan nilai tes
Sulit untuk tidak melihat ini sebagai alternatif untuk mengurangi penerimaan mahasiswa Asia yang rata-rata SAT/ACT-nya paling tinggi. Tidak lama kemudian aku menerima email dari presiden yang sama yang memuji perubahan itu karena keragaman ras meningkat, dan angka sebelum-sesudah di email itu menunjukkan proporsi mahasiswa Asia menurun sementara yang lain meningkat
Sebagai profesor CS, baru kemarin saya mengadakan diskusi proyek mata kuliah komputasi paralel, dan satu dari tiga kelompok jelas mengambil pendekatan ala ChatGPT. Mereka bahkan tidak memahami pilihan yang dibuat LLM terkait arsitektur dan sebagainya
Cara menangani mahasiswa seperti ini mirip dengan kasus dulu saat mereka menyalin dari mahasiswa lain. Seperti “memberi mereka tali untuk menggantung diri sendiri”; jika terus diminta menjelaskan, mereka akan tanpa sadar mengikuti jalan buntu
Saat ada kecurigaan, menurut saya bagus untuk mengimbau kejujuran dengan mengatakan hal seperti, “ayo jujur saja, berapa banyak dari kode ini yang buatanmu dan berapa banyak yang dari ChatGPT?”, sekaligus menunjukkan empati, misalnya dengan mengakui bahwa bisa saja ada beberapa tenggat di minggu yang sama. Tetap saja, kita tidak boleh melewatkan kesempatan untuk memberi pelajaran bahwa ini harus dilakukan dengan cara yang benar
Dua kelompok lain juga memakai LLM, tetapi sebagai bantuan untuk desain tingkat tinggi dan arsitektur. Walaupun mungkin mereka tidak menulis 100% kodenya dengan tangan, jelas merekalah yang bertanggung jawab dan mereka bisa menjelaskan penalaran serta strategi yang dipakai untuk menyelesaikan masalah
Saya meminta rekan-rekan untuk menghitung jumlah kasus seperti ini karena kami masih harus meninjau banyak proyek, tetapi sejauh ini angkanya 1 dari 3, yaitu 33%
Apakah menyalin-tempel kode library untuk membangun proyek juga akan diterima? Kalau tidak, saya penasaran kenapa memakai kode yang dihasilkan LLM dianggap berbeda
Manusia adalah makhluk aneh yang berjalan sambil tidur ke dalam setiap krisis, tidak bisa menyepakati apa pun, lalu ketika benar-benar sampai di sana, bahkan tidak bisa menyepakati penyebabnya
Ketika kita mencapai titik di mana kita tak lagi benar-benar bisa melakukan “rekayasa” atau “sains”, 10 tahun berikutnya akan dihabiskan untuk berdebat apakah masalahnya memang AI, dan kalau pun iya apakah itu tak terhindarkan, apakah tak ada yang bertanggung jawab atau justru semua orang bertanggung jawab. Ini berulang terus. Namun hari ini pun kita menatap masa depan yang suram itu sambil tetap melangkah maju
Apakah kita mengasumsikan masyarakat akan mengatur dirinya sendiri. Sampai batas tertentu saya rasa iya, tetapi biaya pengaturan diri itu sangat tinggi dan menyakitkan. Apakah kita menganggap biaya itu bisa diterima selama kemungkinan besar bukan kita yang pertama menderita
Ini adalah evolusi budaya, dan pasar juga bekerja seperti itu. Memangnya orang berharap pada perencanaan terpusat
Data nilai berasal dari https://berkeleytime.com/grades
Karena saya khawatir hanya mata kuliah yang mendukung narasi tertentu yang dipilih, saya membuat grafik untuk semua mata kuliah CS yang masih ditawarkan: rasio F digambar sebagai garis merah, dan jumlah nilai yang diberikan pada semester terbaru saat mata kuliah itu dibuka ditampilkan sebagai batang biru muda, lalu diurutkan menurun
Ternyata kekhawatiran itu tampaknya benar. Jika melihat beberapa grafik terdepan, tidak ada kenaikan besar rasio F dalam beberapa semester terakhir
https://x.com/rahimnathwani/status/2062431813143019525?s=61
Ada insentif bagi dosen untuk tidak memberi terlalu banyak nilai rendah. Nilai rendah biasanya menurunkan evaluasi pengajaran, yang dapat memengaruhi kenaikan gaji dan promosi, dan nilai rendah juga menarik perhatian tambahan dari pihak administrasi, sesuatu yang tidak diinginkan dosen mana pun
Pada bulan Januari putri saya kesulitan di kelas matematika, jadi saya membuat alat pembuat lembar latihan yang sangat terarah dengan Claude. Alat itu membuat soal agar dia bisa berlatih berulang pada konsep yang paling menyulitkannya
Hasilnya efektif, dan akan jauh lebih sulit dilakukan dengan cara tradisional
Alat ini menghasilkan PDF lengkap dengan kunci jawaban dan set penyelesaian, serta menyelesaikan soal dengan beberapa teknik sehingga saya bisa lebih mudah memeriksa pengerjaannya dan melakukan iterasi dengan cepat
Ini alat yang kuat. Pada akhirnya kembali ke bagaimana kita memakai alat itu. Apakah dipakai untuk menjadi lebih baik, atau untuk mengambil jalan pintas
Kalau semua orang melakukannya dengan cara yang “benar”, tentu tidak akan ada masalah, tetapi insentif sosial itu rumit dan saling bertentangan, sehingga bagi banyak orang jalan pintas yang langsung terasa justru lebih menarik
Ini bukan hanya masalah teknis, tetapi juga masalah sosial
Ini tampak seperti kabar terpisah, tetapi “lebih dari 600 dosen University of California yang dipimpin para matematikawan UC Berkeley menyerukan pemulihan persyaratan ujian standar bagi pelamar STEM. Alasannya, enam tahun penerimaan tanpa tes gagal menilai kesiapan secara andal, dan para dosen makin sering harus mengajarkan matematika tingkat SMP kepada mahasiswa baru”
https://archive.ph/18spS
Dan apa kemungkinan keuntungan dari keputusan itu
Saya benar-benar sangat khawatir dengan LLM
Saya punya anak laki-laki berusia 15 tahun, dan penggunaan ponselnya saya kelola dengan Google Family Link. Sebagian besar cukup longgar dan hanya sebatas menerima notifikasi pemasangan, tetapi Gemini saya larang keras
Kami sudah sering membicarakan panjang lebar soal bahayanya
Anak saya bilang teman-temannya sering memakai LLM, dan saya curiga itu alasan nilai ujian mereka. Sebagian temannya mendapat nilai ujian di kisaran 20~40%, sementara anak saya belajar soal-soal tahun sebelumnya dan menjawab pertanyaan saat review, lalu mendapat nilai di atas 80%
Saya khawatir akan masa depan karena jelas penyedia AI tidak akan peduli apakah siswa mengerjakan soal PR dengan LLM
AI tidak seharusnya hanya dilihat sebagai ancaman; Anda perlu melihat bagaimana itu bisa digunakan agar anak Anda mempercepat dan memperkuat pembelajaran. Justru lingkungan politik yang ingin menghapus ujian terstandarisasi untuk menyembunyikan data kelompok yang secara tradisional tertinggal itulah bahaya yang sebenarnya
“Pedoman mengatakan GPA umum untuk mata kuliah tingkat bawah seharusnya berada di rentang 2,8~3,3. Menurut Berkeleytime, pada musim semi 2026 nilai rata-rata dua kelas itu adalah C+, yang setara dengan GPA 2,3”
Sebagai alumnus Cal, saya benar-benar senang melihat ada batas terhadap inflasi nilai. Saya bekerja sangat keras untuk mendapatkan GPA yang saya peroleh, dan saya akan sangat tidak suka jika usaha saya didevaluasi karena Cal bergerak ke arah seperti Yale yang membagikan A dan A- sebesar 79%: https://yaledailynews.com/articles/professors-face-grading-dilemma-too-many-a-s-little-taste-for-limits
Meski begitu, nilai tinggi + lulus sudah lama masih tetap menjadi sinyal
Dengan sengaja menurunkan kualitas kelas dan mencoba menjebak mahasiswa dalam ujian tidak meningkatkan hasil pendidikan siapa pun. Orang-orang yang mengeluhkan inflasi nilai benar-benar sudah lupa kenapa pendidikan publik itu ada
Sayang sekali. Belakangan ini saya mulai melakukan aktivitas yang menyenangkan untuk mengasah kembali matematika, dan saat mengerjakan soal saya meminta Gemini Live mode untuk mengecek dan memberi saran, kadang sambil melangkah tahap demi tahap
Rasanya cukup menyenangkan, seperti ada profesor yang sangat sabar berdiri tepat di samping saya. Ini hampir menjadi pengalaman belajar matematika terbaik yang pernah saya coba, dan saya juga tidak perlu mengirim suap atau hadiah agar Gemini tetap menyukai saya
Sebaliknya, kalau seseorang sama sekali tidak berpikir sendiri dan membiarkan LLM menyelesaikan seluruh pekerjaan, itu terdengar seperti kecurangan terhadap diri sendiri