- Ketika LLM digunakan baik untuk membuat maupun menilai resume, muncul preferensi diri baru dalam penyaringan rekrutmen, yakni model penilai lebih sering memilih output yang dibuatnya sendiri
- Studi ini membandingkan resume kontrafaktual yang dibuat oleh berbagai LLM seperti GPT-4o, LLaMA 3.3-70B, dan DeepSeek-V3 berdasarkan 2.245 resume yang ditulis manusia dan dikumpulkan sebelum AI generatif digunakan secara luas
- Pada sebagian besar model, preferensi diri LLM-vs-Human muncul dengan kuat, dan bias preferensi diri terhadap resume buatan sendiri dibanding resume tulisan manusia berada di kisaran 67%~82% pada model komersial dan open source utama
- Dalam simulasi pipeline rekrutmen untuk 24 kelompok pekerjaan, pelamar yang menggunakan LLM yang sama dengan LLM evaluator memiliki kemungkinan sekitar 23%~60% lebih tinggi untuk masuk ke kandidat final dibanding pelamar dengan kualifikasi setara yang mengirim resume tulisan manusia
- System prompting yang mengarahkan model untuk mengabaikan sumber dan fokus pada isi, serta ensemble voting mayoritas, menurunkan preferensi diri LLM-vs-Human secara relatif sebesar 17%~63% pada semua LLM yang diuji
Bias baru yang diciptakan preferensi diri AI dalam evaluasi rekrutmen
- Ketika large language model (LLM) dipakai baik untuk menghasilkan maupun mengevaluasi konten, preferensi diri (self-preference) — yaitu kecenderungan memberi nilai lebih tinggi pada output yang dibuat oleh model yang sama — muncul sebagai bias baru dalam proses pengambilan keputusan seperti rekrutmen
- Dalam rekrutmen, semakin umum situasi di mana pelamar menulis atau memoles resume dengan LLM, sementara pemberi kerja menggunakan alat serupa untuk menyaring atau memberi peringkat pada resume, sehingga interaksi AI-AI dapat memengaruhi hasil evaluasi nyata
- Berbeda dari diskusi fairness yang selama ini terutama berfokus pada diskriminasi berdasarkan atribut demografis, preferensi diri adalah bias yang muncul secara endogen dari hubungan antara model evaluator dan model generator
- Bias ini dapat menguntungkan pelamar yang memakai model yang sama dengan LLM yang digunakan dalam evaluasi, meskipun kemampuannya setara, dan dapat merugikan pelamar yang memakai alat lain atau tidak memakai AI
- Penyaringan resume adalah tahap bottleneck awal yang mengurangi kumpulan pelamar besar menjadi tahap wawancara dan evaluasi yang terbatas, sehingga salah penilaian di tahap atas dapat terus memengaruhi komposisi kandidat dan distribusi peluang kerja di tahap berikutnya
Desain eksperimen dan metode pengukuran
- Eksperimen ini didasarkan pada 2.245 resume yang ditulis manusia yang dikumpulkan dari platform penulisan resume profesional, menggunakan data dari periode sebelum AI generatif dipakai secara luas
- Untuk tiap resume, dibuat versi kontrafaktual (counterfactual) dengan beberapa LLM terbaru, dengan rancangan agar kualifikasi, pengalaman, dan latar belakang kandidat tetap sama, hanya cara penyampaiannya yang berbeda
- Model yang digunakan adalah GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
- LLM evaluator melakukan perbandingan berpasangan dengan memilih resume yang lebih kuat di antara dua resume yang mewakili kandidat yang sama, di mana yang berbeda hanya sumber resume tersebut
- Preferensi diri dibagi menjadi dua bentuk
-
Preferensi diri LLM-vs-Human
- Mengacu pada kecenderungan LLM evaluator untuk lebih memilih resume yang dihasilkannya sendiri dibanding resume setara yang ditulis manusia
-
Preferensi diri LLM-vs-LLM
- Mengacu pada kecenderungan LLM evaluator untuk lebih memilih resume yang dihasilkannya sendiri dibanding resume yang dibuat oleh LLM lain
- Dalam konteks ini, LLM evaluator bekerja seperti pengklasifikasi biner, dan bias diukur menggunakan kriteria statistical parity dan equal opportunity dari literatur fairness
- Bias preferensi diri berbasis statistical parity didefinisikan sebagai selisih antara probabilitas dipilihnya resume yang dibuat oleh LLM evaluator dan probabilitas dipilihnya resume yang dibuat manusia atau LLM lain
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
- Di sini
S = 1 berarti resume yang dihasilkan oleh LLM evaluator f, dan S = 0 berarti resume yang dihasilkan manusia atau LLM lain
Y'_f = 1 berarti LLM evaluator f memilih resume tersebut sebagai resume yang lebih kuat
- Perlu kehati-hatian dalam langsung menafsirkan perbedaan statistical parity sebagai bias
- Perbedaan itu bisa disebabkan oleh preferensi diri, tetapi juga bisa berasal dari perbedaan kualitas konten yang mengekspresikan informasi kandidat yang sama dengan cara yang lebih jelas, konsisten, dan lancar
- Di sini kualitas konten berarti kejelasan, konsistensi, kelancaran, dan struktur dalam menyampaikan informasi yang sama, bukan perbedaan pada kualifikasi atau latar belakang kandidat
Temuan empiris utama
- Pada sebagian besar model, preferensi diri LLM-vs-Human muncul dengan kuat dan konsisten
- Model yang lebih besar seperti GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B, dan LLaMA 3.3-70B menunjukkan bias kuat di atas 65% bahkan setelah kualitas konten dikendalikan
- Dalam kasus GPT-4o, preferensi diri LLM-vs-Human melebihi 80%, dan pada model komersial maupun open source utama secara umum, bias preferensi diri terhadap resume tulisan manusia berada pada kisaran 67%~82%
- Preferensi diri LLM-vs-LLM menunjukkan perbedaan yang lebih besar antar model
- DeepSeek-V3 menunjukkan bias terkuat dalam pengaturan ini, dengan preferensi 69% terhadap outputnya sendiri saat dibandingkan dengan LLaMA 3.3-70B
- DeepSeek-V3 juga lebih memilih outputnya sendiri sebesar 28% saat dibandingkan dengan GPT-4o
- GPT-4o dan LLaMA 3.3-70B tidak menunjukkan preferensi diri yang konsisten saat mengevaluasi konten yang dihasilkan model lain
- Evaluasi dapat dipengaruhi bukan oleh kualifikasi substantif pelamar, melainkan oleh seberapa cocok gaya generasi resume itu dengan gaya generasi LLM evaluator
- Bias ini dapat memberi keuntungan yang tidak adil kepada pelamar yang memiliki akses ke teknik generasi tertentu atau dapat memakai model tertentu, dan merugikan pelamar yang tidak demikian
Dampak dalam pipeline rekrutmen
- Dengan mensimulasikan pipeline rekrutmen yang realistis untuk 24 kelompok pekerjaan, studi ini mengukur dampak operasional preferensi diri terhadap hasil seleksi kandidat
- Pelamar yang menggunakan LLM yang sama dengan yang dipakai untuk evaluasi memiliki kemungkinan sekitar 23%~60% lebih tinggi untuk masuk ke shortlist dibanding pelamar dengan kualifikasi yang sama yang mengirim resume tulisan manusia
- Kerugian paling besar muncul di bidang terkait bisnis seperti akuntansi, penjualan, dan keuangan
- Di bidang pertanian, seni, dan otomotif, kerugiannya relatif kurang menonjol
- Jika keuntungan yang sama terus berulang sepanjang siklus perekrutan, dapat muncul efek lock-in di mana gaya resume yang disukai LLM dominan makin mengakar dalam kumpulan pelamar
- Efek lock-in seperti ini dapat mengurangi keragaman dalam seleksi kandidat dan memperbesar ketimpangan dalam distribusi peluang evaluasi
- Karena kapasitas tahap lanjutan seperti wawancara dan penilaian terbatas, false negative pada tahap penyaringan resume awal dapat mengecualikan pelamar yang memenuhi syarat secara tidak dapat dipulihkan, sementara false positive menghabiskan sumber daya evaluasi yang terbatas
Strategi mitigasi dan implikasi fairness
- Pengenalan diri (self-recognition) diajukan sebagai mekanisme inti di balik preferensi diri
- Pengenalan diri berarti kemampuan model untuk secara implisit mengidentifikasi konten yang dihasilkannya sendiri
- Studi sebelumnya menunjukkan bahwa LLM seperti GPT-4 dan LLaMA 2 memiliki kemampuan pengenalan diri yang signifikan, dan terdapat korelasi positif yang kuat antara kemampuan pengenalan diri dan besarnya bias preferensi diri
- Dua strategi mitigasi sederhana diusulkan
-
System prompting
- Model secara eksplisit diinstruksikan untuk mengabaikan sumber resume dan hanya fokus pada isi substansialnya
-
Ensemble voting mayoritas
- Dengan menggabungkan model evaluator bersama model-model yang lebih kecil dan lebih lemah dalam pengenalan diri, bias dari satu LLM tunggal dapat diencerkan
- Pada semua LLM yang diuji, intervensi ini menurunkan preferensi diri LLM-vs-Human secara relatif sebesar 17%~63%
- Dalam banyak kasus, intervensi sederhana yang menargetkan kemampuan pengenalan diri saja dapat mengurangi bias lebih dari 50%
- Bias preferensi diri tersebar luas dan berdampak nyata pada hasil rekrutmen, tetapi bukan sifat yang tetap dan dapat dikurangi secara signifikan melalui intervensi desain
- Kerangka fairness untuk rekrutmen berbasis AI perlu menangani bukan hanya diskriminasi berdasarkan atribut terlindungi, tetapi juga bias interaksional yang muncul dari interaksi antar sistem AI yang dipakai untuk generasi dan evaluasi
- Tata kelola AI perusahaan dan desain operasional yang bertanggung jawab harus mencakup bukan hanya data input dan atribut terlindungi, tetapi juga model apa yang dipakai untuk membuat materi pelamar dan model apa yang dipakai untuk mengevaluasinya
1 komentar
Komentar Hacker News
Jika menyalin begitu saja apa yang saya tulis di LinkedIn, kalau saya memang membaca makalahnya dengan benar, ini bukan benar-benar menunjukkan bahwa LLM lebih menyukai resume yang dibuatnya sendiri
Metode nyatanya tampak seperti ini: ringkasan eksekutif dihapus dari resume yang ditulis manusia, lalu LLM menulis ulang ringkasan eksekutif berdasarkan sisa resume tersebut, kemudian LLM lain menilai hanya ringkasan itu tanpa melihat sisa resumennya
Bahkan jika kita percaya desain ini menangkap efek yang nyata, desain ini sangat mungkin melebih-lebihkan dampaknya. Para penulis memang memberi alasan untuk desain tersebut, tetapi itu tampaknya bukan pembenaran yang memadai: https://news.ycombinator.com/item?id=47987256#47987727
HR memakai LLM, jadi pencari kerja juga harus memakainya; lalu nanti karena kandidat bagus memakai LLM, HR juga harus memakainya — jadilah struktur yang berputar sendiri
Ini memang cuma pengalaman dengan sampel satu, tetapi saat mencari peran baru setelah terkena PHK, resume yang saya buat sendiri tidak mendapat banyak respons dibandingkan dengan pengalaman saya
Iseng, saya meminta ChatGPT menganalisis resume saya dan memberinya skor, lalu memperbaikinya agar skornya setinggi mungkin. Setelah itu saya cek faktanya dan revisi lagi sebelum mengirimkannya, dan tingkat respons naik jauh dibanding sebelumnya
Mungkin itu karena kondisi pasar atau faktor waktu, tetapi saya tetap harus lolos wawancara dan membuktikan kemampuan saya, jadi setidaknya itu tampaknya membantu melewati ambang awal
Setelah itu ia dibantu ChatGPT 5.x, dan meski kami skeptis karena perubahan yang disarankan terdengar seperti gaya AI yang seragam, beberapa hari kemudian mulai ada recruiter yang menghubungi dan proses lamaran yang berjalan
Karena LLM sudah masuk ke banyak titik dalam proses rekrutmen, rasanya sekarang tingkat kesulitannya naik kalau resume tidak ditulis dengan bantuan LLM. LLM yang meninjau resume tampaknya memberi nilai lebih rendah pada profil yang tidak memakai bahasa yang sama dan tidak memicu neuron yang tepat
Secara intuitif ini terasa masuk akal. Konten yang dibuat model dipengaruhi oleh data latihnya, jadi ketika dibaca kembali, itu bisa terasa lebih cocok dengan distribusi pelatihan yang sama dan dinilai lebih positif
Ibarat seseorang meminta, “tolong buat resume ini terdengar lebih profesional”, lalu beberapa hari kemudian LLM berkata dalam laporan HR, “resume ini sangat profesional”
Karena itu, kebijakan pribadi saya yang memakai keluarga LLM berbeda untuk pembuatan kode dan untuk peninjauan kode terasa masuk akal. Tujuannya untuk menghindari menilai PR buatan sendiri
Saya lupa tautannya, tetapi itu benar-benar menarik
Kita sedang menyisipkan satu pelaku lain di antara manusia tanpa persetujuan mereka. Ketika model menjadi perantara yang menentukan siapa yang mendapat pekerjaan dan siapa yang tidak, itu terasa bermasalah
Jika departemen HR menyaring resume dengan ChatGPT, pada akhirnya mereka akan merekrut orang-orang yang membuat resume dengan ChatGPT. Saya tidak mau memakai logika slippery slope, tetapi secara naluriah rasanya kualitas organisasi bisa cepat menurun
Sebaliknya, saya adalah tukang reparasi sekaligus subkontraktor, dan pekerjaan hampir selalu datang lewat telepon, pesan teks, email satu kali, dan rekomendasi tepercaya. Sudah lebih dari 8 tahun saya tidak berurusan dengan resume tradisional
Jika saya mulai berkomunikasi dengan seseorang dan rasanya seperti berbicara dengan komputer, itu langsung jadi sinyal untuk pindah ke klien lain. Kalau mereka bahkan tidak mau meluangkan waktu untuk berkomunikasi langsung dengan saya, bagaimana saya bisa bekerja ratusan jam kerja fisik untuk mereka?
Pada akhirnya orang miskin bisa saja memiliki resume yang lebih buruk daripada orang kaya, dan jika model di tengah itu memegang keputusan akhir, hampir tidak ada cara untuk menghindarinya
Di bidang teknologi, resume pada akhirnya — atau bahkan sekarang — tampaknya akan menjadi sesuatu yang ketinggalan zaman. Rasio signal-to-noise-nya terlalu rendah sehingga nilai penyaringannya sangat tipis
Bahkan sinyal yang relatif kuat seperti GPA, sertifikasi, atau jabatan sebelumnya pun tidak terlalu berkorelasi dengan performa pada wawancara penyaringan awal
Karena itu, menurut saya yang sangat dibutuhkan industri adalah konsorsium ujian. Daripada menebak kemampuan dari nama universitas, perusahaan teknologi besar sebaiknya membuat ujian standar per bidang, dan nilainya menjadi resume itu sendiri, sehingga developer bisa fokus meningkatkan skor alih-alih menghabiskan waktu untuk menulis resume dan mengulang penyaringan yang melelahkan
Lagi pula, bukankah sertifikasi “enterprise” pada dasarnya sudah memainkan peran seperti itu?
Itu pada dasarnya sama saja dengan mengklaim LeetCode adalah alat rekrutmen yang efektif, dan klaim itu layak mendapat banyak kritik
Ini bisa berkembang menjadi permainan tebak-tebakan yang cukup menarik. Jika Anda melamar ke sebuah perusahaan dan tahu perusahaan itu memakai applicant tracking system tertentu, dan sistem itu memakai filter dari penyedia model tertentu, maka masuk akal untuk menulis versi resume yang akan dikirim ke perusahaan itu dengan model yang sama
Sepertinya seluruh industri memakai evaluator otomatis. Caranya adalah memberi skor pada keluaran agen dengan instans agen lain
Niatnya mirip dengan pelatihan generasi gambar berbasis adversarial neural network tanpa pelabel manusia. Lalu tim-tim akan mengoptimalkan metrik berupa naiknya skor evaluator otomatis, sehingga pada akhirnya tidak mengejutkan jika agen memberi skor tertinggi pada konten yang dihasilkannya sendiri
Sebagai percobaan, saya menjalankan qwen/qwen3-v1-30b secara lokal dan memasukkan resume saya yang 100% ditulis manusia, lalu meminta, “buat resume ini terdengar lebih profesional”
Hasilnya keluar butir-butir yang luar biasa, dan kalimat “spesialis dalam enterprise data modeling dan mengerjakan optimisasi cost of revenue untuk seluruh basis pelanggan” diubah menjadi “spesialis dalam enterprise data modeling dan performance optimization, serta memimpin penghematan biaya berulang lebih dari $5 juta di seluruh basis pelanggan”
Angka lebih dari $5 juta memang terdengar keren, dan jelas korpus resume sangat berfokus pada metrik, tetapi itu tidak benar, dan saya juga tidak pernah memintanya mengarang angka
Bahkan meski resume saya hanya mencantumkan peran SDE pada 1996–1998, model itu juga tiba-tiba menambahkan “Sarjana Ilmu Komputer, University of California, Berkeley | 1996–1998” dari udara kosong
Akan ada orang yang memperbaiki halusinasi semacam itu, dan dalam kasus itu yang terbuang hanya waktu kandidat
Akan ada juga yang tidak memperbaikinya, dan dalam kasus itu skenario terbaiknya adalah kandidat dan pewawancara baru menyadari kesalahannya belakangan lalu membuang waktu. Skenario terburuknya adalah orang yang tidak mampu melakukan pekerjaan itu malah direkrut, dan hasilnya akan berantakan serta tidak efisien bagi semua pihak
Ini topik yang sangat relevan bagi saya. Resume saya membengkak sampai 7 halaman, dan karena di mana-mana dibilang tidak boleh lebih dari 2 halaman, saya minta Gemini menulis ulang
Gemini suka melebih-lebihkan semuanya sehingga prosesnya memakan banyak waktu, tetapi saya cukup puas dengan hasil akhirnya
Namun beberapa recruiter pertama yang saya kirimi justru lebih menyukai resume lama saya yang 7 halaman. Mungkin mereka belum cukup banyak memakai AI
LLM secara konsisten menilai konten yang ditulis LLM sebagai sesuatu yang bagus
Jika Anda meminta LLM menulis dokumen desain, menunggu sampai keluar hasil yang sangat buruk, lalu meminta LLM lain memberi umpan balik, biasanya mereka tetap akan memujinya
Sebaliknya, jika Anda mengirim dokumen yang ditulis dengan sangat baik, meski premisnya kuat, mereka biasanya justru menemukan lebih banyak kekurangan. Seseorang seharusnya meneliti ini
Jelas LLM punya nilai yang besar, tetapi fenomena ini mengungkap kelemahan yang sangat menarik dan belum jelas seberapa luas dampaknya
LLM tampaknya juga akan punya bias besar terhadap kode yang ditulisnya sendiri. Jika Anda memasukkan kode seperti Redis, yang secara luas dianggap ditulis dengan sangat baik, lalu meminta umpan balik, kemungkinan model itu akan menemukan banyak cacat, dan banyak di antaranya bisa sepenuhnya salah
Sebaliknya, jika Anda memasukkan repositori hasil LLM yang jelas sampah ke model yang sama, apakah reaksinya akan mirip seperti pada dokumen desain? Apakah model memperlakukan bahasa biasa dan kode secara berbeda, atau masalahnya sama saja? Saya penasaran apakah ada yang pernah mencobanya