1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Ketika LLM digunakan baik untuk membuat maupun menilai resume, muncul preferensi diri baru dalam penyaringan rekrutmen, yakni model penilai lebih sering memilih output yang dibuatnya sendiri
  • Studi ini membandingkan resume kontrafaktual yang dibuat oleh berbagai LLM seperti GPT-4o, LLaMA 3.3-70B, dan DeepSeek-V3 berdasarkan 2.245 resume yang ditulis manusia dan dikumpulkan sebelum AI generatif digunakan secara luas
  • Pada sebagian besar model, preferensi diri LLM-vs-Human muncul dengan kuat, dan bias preferensi diri terhadap resume buatan sendiri dibanding resume tulisan manusia berada di kisaran 67%~82% pada model komersial dan open source utama
  • Dalam simulasi pipeline rekrutmen untuk 24 kelompok pekerjaan, pelamar yang menggunakan LLM yang sama dengan LLM evaluator memiliki kemungkinan sekitar 23%~60% lebih tinggi untuk masuk ke kandidat final dibanding pelamar dengan kualifikasi setara yang mengirim resume tulisan manusia
  • System prompting yang mengarahkan model untuk mengabaikan sumber dan fokus pada isi, serta ensemble voting mayoritas, menurunkan preferensi diri LLM-vs-Human secara relatif sebesar 17%~63% pada semua LLM yang diuji

Bias baru yang diciptakan preferensi diri AI dalam evaluasi rekrutmen

  • Ketika large language model (LLM) dipakai baik untuk menghasilkan maupun mengevaluasi konten, preferensi diri (self-preference) — yaitu kecenderungan memberi nilai lebih tinggi pada output yang dibuat oleh model yang sama — muncul sebagai bias baru dalam proses pengambilan keputusan seperti rekrutmen
  • Dalam rekrutmen, semakin umum situasi di mana pelamar menulis atau memoles resume dengan LLM, sementara pemberi kerja menggunakan alat serupa untuk menyaring atau memberi peringkat pada resume, sehingga interaksi AI-AI dapat memengaruhi hasil evaluasi nyata
  • Berbeda dari diskusi fairness yang selama ini terutama berfokus pada diskriminasi berdasarkan atribut demografis, preferensi diri adalah bias yang muncul secara endogen dari hubungan antara model evaluator dan model generator
  • Bias ini dapat menguntungkan pelamar yang memakai model yang sama dengan LLM yang digunakan dalam evaluasi, meskipun kemampuannya setara, dan dapat merugikan pelamar yang memakai alat lain atau tidak memakai AI
  • Penyaringan resume adalah tahap bottleneck awal yang mengurangi kumpulan pelamar besar menjadi tahap wawancara dan evaluasi yang terbatas, sehingga salah penilaian di tahap atas dapat terus memengaruhi komposisi kandidat dan distribusi peluang kerja di tahap berikutnya

Desain eksperimen dan metode pengukuran

  • Eksperimen ini didasarkan pada 2.245 resume yang ditulis manusia yang dikumpulkan dari platform penulisan resume profesional, menggunakan data dari periode sebelum AI generatif dipakai secara luas
  • Untuk tiap resume, dibuat versi kontrafaktual (counterfactual) dengan beberapa LLM terbaru, dengan rancangan agar kualifikasi, pengalaman, dan latar belakang kandidat tetap sama, hanya cara penyampaiannya yang berbeda
  • Model yang digunakan adalah GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
  • LLM evaluator melakukan perbandingan berpasangan dengan memilih resume yang lebih kuat di antara dua resume yang mewakili kandidat yang sama, di mana yang berbeda hanya sumber resume tersebut
  • Preferensi diri dibagi menjadi dua bentuk
    • Preferensi diri LLM-vs-Human

      • Mengacu pada kecenderungan LLM evaluator untuk lebih memilih resume yang dihasilkannya sendiri dibanding resume setara yang ditulis manusia
    • Preferensi diri LLM-vs-LLM

      • Mengacu pada kecenderungan LLM evaluator untuk lebih memilih resume yang dihasilkannya sendiri dibanding resume yang dibuat oleh LLM lain
      • Dalam konteks ini, LLM evaluator bekerja seperti pengklasifikasi biner, dan bias diukur menggunakan kriteria statistical parity dan equal opportunity dari literatur fairness
      • Bias preferensi diri berbasis statistical parity didefinisikan sebagai selisih antara probabilitas dipilihnya resume yang dibuat oleh LLM evaluator dan probabilitas dipilihnya resume yang dibuat manusia atau LLM lain
      • Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
      • Di sini S = 1 berarti resume yang dihasilkan oleh LLM evaluator f, dan S = 0 berarti resume yang dihasilkan manusia atau LLM lain
      • Y'_f = 1 berarti LLM evaluator f memilih resume tersebut sebagai resume yang lebih kuat
      • Perlu kehati-hatian dalam langsung menafsirkan perbedaan statistical parity sebagai bias
      • Perbedaan itu bisa disebabkan oleh preferensi diri, tetapi juga bisa berasal dari perbedaan kualitas konten yang mengekspresikan informasi kandidat yang sama dengan cara yang lebih jelas, konsisten, dan lancar
      • Di sini kualitas konten berarti kejelasan, konsistensi, kelancaran, dan struktur dalam menyampaikan informasi yang sama, bukan perbedaan pada kualifikasi atau latar belakang kandidat

Temuan empiris utama

  • Pada sebagian besar model, preferensi diri LLM-vs-Human muncul dengan kuat dan konsisten
  • Model yang lebih besar seperti GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B, dan LLaMA 3.3-70B menunjukkan bias kuat di atas 65% bahkan setelah kualitas konten dikendalikan
  • Dalam kasus GPT-4o, preferensi diri LLM-vs-Human melebihi 80%, dan pada model komersial maupun open source utama secara umum, bias preferensi diri terhadap resume tulisan manusia berada pada kisaran 67%~82%
  • Preferensi diri LLM-vs-LLM menunjukkan perbedaan yang lebih besar antar model
    • DeepSeek-V3 menunjukkan bias terkuat dalam pengaturan ini, dengan preferensi 69% terhadap outputnya sendiri saat dibandingkan dengan LLaMA 3.3-70B
    • DeepSeek-V3 juga lebih memilih outputnya sendiri sebesar 28% saat dibandingkan dengan GPT-4o
    • GPT-4o dan LLaMA 3.3-70B tidak menunjukkan preferensi diri yang konsisten saat mengevaluasi konten yang dihasilkan model lain
  • Evaluasi dapat dipengaruhi bukan oleh kualifikasi substantif pelamar, melainkan oleh seberapa cocok gaya generasi resume itu dengan gaya generasi LLM evaluator
  • Bias ini dapat memberi keuntungan yang tidak adil kepada pelamar yang memiliki akses ke teknik generasi tertentu atau dapat memakai model tertentu, dan merugikan pelamar yang tidak demikian

Dampak dalam pipeline rekrutmen

  • Dengan mensimulasikan pipeline rekrutmen yang realistis untuk 24 kelompok pekerjaan, studi ini mengukur dampak operasional preferensi diri terhadap hasil seleksi kandidat
  • Pelamar yang menggunakan LLM yang sama dengan yang dipakai untuk evaluasi memiliki kemungkinan sekitar 23%~60% lebih tinggi untuk masuk ke shortlist dibanding pelamar dengan kualifikasi yang sama yang mengirim resume tulisan manusia
  • Kerugian paling besar muncul di bidang terkait bisnis seperti akuntansi, penjualan, dan keuangan
  • Di bidang pertanian, seni, dan otomotif, kerugiannya relatif kurang menonjol
  • Jika keuntungan yang sama terus berulang sepanjang siklus perekrutan, dapat muncul efek lock-in di mana gaya resume yang disukai LLM dominan makin mengakar dalam kumpulan pelamar
  • Efek lock-in seperti ini dapat mengurangi keragaman dalam seleksi kandidat dan memperbesar ketimpangan dalam distribusi peluang evaluasi
  • Karena kapasitas tahap lanjutan seperti wawancara dan penilaian terbatas, false negative pada tahap penyaringan resume awal dapat mengecualikan pelamar yang memenuhi syarat secara tidak dapat dipulihkan, sementara false positive menghabiskan sumber daya evaluasi yang terbatas

Strategi mitigasi dan implikasi fairness

  • Pengenalan diri (self-recognition) diajukan sebagai mekanisme inti di balik preferensi diri
    • Pengenalan diri berarti kemampuan model untuk secara implisit mengidentifikasi konten yang dihasilkannya sendiri
    • Studi sebelumnya menunjukkan bahwa LLM seperti GPT-4 dan LLaMA 2 memiliki kemampuan pengenalan diri yang signifikan, dan terdapat korelasi positif yang kuat antara kemampuan pengenalan diri dan besarnya bias preferensi diri
  • Dua strategi mitigasi sederhana diusulkan
    • System prompting

      • Model secara eksplisit diinstruksikan untuk mengabaikan sumber resume dan hanya fokus pada isi substansialnya
    • Ensemble voting mayoritas

      • Dengan menggabungkan model evaluator bersama model-model yang lebih kecil dan lebih lemah dalam pengenalan diri, bias dari satu LLM tunggal dapat diencerkan
      • Pada semua LLM yang diuji, intervensi ini menurunkan preferensi diri LLM-vs-Human secara relatif sebesar 17%~63%
      • Dalam banyak kasus, intervensi sederhana yang menargetkan kemampuan pengenalan diri saja dapat mengurangi bias lebih dari 50%
      • Bias preferensi diri tersebar luas dan berdampak nyata pada hasil rekrutmen, tetapi bukan sifat yang tetap dan dapat dikurangi secara signifikan melalui intervensi desain
      • Kerangka fairness untuk rekrutmen berbasis AI perlu menangani bukan hanya diskriminasi berdasarkan atribut terlindungi, tetapi juga bias interaksional yang muncul dari interaksi antar sistem AI yang dipakai untuk generasi dan evaluasi
      • Tata kelola AI perusahaan dan desain operasional yang bertanggung jawab harus mencakup bukan hanya data input dan atribut terlindungi, tetapi juga model apa yang dipakai untuk membuat materi pelamar dan model apa yang dipakai untuk mengevaluasinya

1 komentar

 
GN⁺ 1 jam lalu
Komentar Hacker News
  • Jika menyalin begitu saja apa yang saya tulis di LinkedIn, kalau saya memang membaca makalahnya dengan benar, ini bukan benar-benar menunjukkan bahwa LLM lebih menyukai resume yang dibuatnya sendiri
    Metode nyatanya tampak seperti ini: ringkasan eksekutif dihapus dari resume yang ditulis manusia, lalu LLM menulis ulang ringkasan eksekutif berdasarkan sisa resume tersebut, kemudian LLM lain menilai hanya ringkasan itu tanpa melihat sisa resumennya
    Bahkan jika kita percaya desain ini menangkap efek yang nyata, desain ini sangat mungkin melebih-lebihkan dampaknya. Para penulis memang memberi alasan untuk desain tersebut, tetapi itu tampaknya bukan pembenaran yang memadai: https://news.ycombinator.com/item?id=47987256#47987727

    • Ini juga bisa jadi iklan untuk lebih banyak memakai LLM. Seperti industri keju, minyak, atau pala yang punya organisasi promosi, LLM juga punya semacam konsorsium, dan besar kemungkinan mereka mendukung riset seperti ini untuk memicu FOMO
      HR memakai LLM, jadi pencari kerja juga harus memakainya; lalu nanti karena kandidat bagus memakai LLM, HR juga harus memakainya — jadilah struktur yang berputar sendiri
  • Ini memang cuma pengalaman dengan sampel satu, tetapi saat mencari peran baru setelah terkena PHK, resume yang saya buat sendiri tidak mendapat banyak respons dibandingkan dengan pengalaman saya
    Iseng, saya meminta ChatGPT menganalisis resume saya dan memberinya skor, lalu memperbaikinya agar skornya setinggi mungkin. Setelah itu saya cek faktanya dan revisi lagi sebelum mengirimkannya, dan tingkat respons naik jauh dibanding sebelumnya
    Mungkin itu karena kondisi pasar atau faktor waktu, tetapi saya tetap harus lolos wawancara dan membuktikan kemampuan saya, jadi setidaknya itu tampaknya membantu melewati ambang awal

    • Istri saya juga mirip. Ia sudah merapikan profil LinkedIn dan resumennya dengan sangat teliti, memasukkan metrik, kata kunci, dan pencapaian, tetapi selama beberapa bulan sampai hampir setahun nyaris tidak ada kontak dari recruiter maupun respons atas lamaran
      Setelah itu ia dibantu ChatGPT 5.x, dan meski kami skeptis karena perubahan yang disarankan terdengar seperti gaya AI yang seragam, beberapa hari kemudian mulai ada recruiter yang menghubungi dan proses lamaran yang berjalan
      Karena LLM sudah masuk ke banyak titik dalam proses rekrutmen, rasanya sekarang tingkat kesulitannya naik kalau resume tidak ditulis dengan bantuan LLM. LLM yang meninjau resume tampaknya memberi nilai lebih rendah pada profil yang tidak memakai bahasa yang sama dan tidak memicu neuron yang tepat
    • Saya juga melakukan hal serupa saat mencari kerja baru-baru ini, dan memintanya memeriksa apakah butir-butirnya mudah dibaca. Ia mengusulkan sangat banyak perubahan. Saya menerapkan beberapa, tetapi saya tidak yakin seberapa besar itu membantu hasil lamaran saya
    • Ada juga layanan yang melakukan pekerjaan seperti ini untuk LinkedIn dan resume, dan saya pernah melihat hasil yang cukup bagus
    • Setelah itu saya memangkas dan menyuntingnya lagi agar terdengar seperti benar-benar ditulis manusia
    • Mungkin HR juga memberi nilai tambah karena tahu memakai AI
  • Secara intuitif ini terasa masuk akal. Konten yang dibuat model dipengaruhi oleh data latihnya, jadi ketika dibaca kembali, itu bisa terasa lebih cocok dengan distribusi pelatihan yang sama dan dinilai lebih positif
    Ibarat seseorang meminta, “tolong buat resume ini terdengar lebih profesional”, lalu beberapa hari kemudian LLM berkata dalam laporan HR, “resume ini sangat profesional”
    Karena itu, kebijakan pribadi saya yang memakai keluarga LLM berbeda untuk pembuatan kode dan untuk peninjauan kode terasa masuk akal. Tujuannya untuk menghindari menilai PR buatan sendiri

    • Selain itu, ini juga bukan sesuatu yang dapat ditafsirkan manusia dengan jelas. Ada penelitian di mana satu LLM diberi instruksi untuk bertindak dengan cara tertentu lalu diminta mengeluarkan angka acak; angka itu kemudian ditempel ke instans LLM lain, dan yang kedua juga bertindak dengan cara yang sama
      Saya lupa tautannya, tetapi itu benar-benar menarik
  • Kita sedang menyisipkan satu pelaku lain di antara manusia tanpa persetujuan mereka. Ketika model menjadi perantara yang menentukan siapa yang mendapat pekerjaan dan siapa yang tidak, itu terasa bermasalah

    • Bisa jadi ini menciptakan peluang arbitrase besar bagi orang yang tidak memakai LLM
      Jika departemen HR menyaring resume dengan ChatGPT, pada akhirnya mereka akan merekrut orang-orang yang membuat resume dengan ChatGPT. Saya tidak mau memakai logika slippery slope, tetapi secara naluriah rasanya kualitas organisasi bisa cepat menurun
      Sebaliknya, saya adalah tukang reparasi sekaligus subkontraktor, dan pekerjaan hampir selalu datang lewat telepon, pesan teks, email satu kali, dan rekomendasi tepercaya. Sudah lebih dari 8 tahun saya tidak berurusan dengan resume tradisional
      Jika saya mulai berkomunikasi dengan seseorang dan rasanya seperti berbicara dengan komputer, itu langsung jadi sinyal untuk pindah ke klien lain. Kalau mereka bahkan tidak mau meluangkan waktu untuk berkomunikasi langsung dengan saya, bagaimana saya bisa bekerja ratusan jam kerja fisik untuk mereka?
    • Ada jawaban umum, “ya tinggal pakai model yang tersedia”, tetapi AI kemungkinan akan terus punya keterbatasan sumber daya dan motif keuntungan
      Pada akhirnya orang miskin bisa saja memiliki resume yang lebih buruk daripada orang kaya, dan jika model di tengah itu memegang keputusan akhir, hampir tidak ada cara untuk menghindarinya
    • Kapal itu sebenarnya sudah berlayar sejak manajer perekrutan tidak lagi membaca resume secara langsung dan ada profesi recruiter di tengahnya
    • Dulu HR sudah menjalankan peran itu, jadi di antara orang-orang nyata memang selalu ada perantara. HR biasanya tidak terlalu peduli pada resume itu sendiri dan hanya memeriksa apakah itu cocok dengan checklist
    • Sebenarnya itu sudah terjadi saat semua orang membuat akun LinkedIn
  • Di bidang teknologi, resume pada akhirnya — atau bahkan sekarang — tampaknya akan menjadi sesuatu yang ketinggalan zaman. Rasio signal-to-noise-nya terlalu rendah sehingga nilai penyaringannya sangat tipis
    Bahkan sinyal yang relatif kuat seperti GPA, sertifikasi, atau jabatan sebelumnya pun tidak terlalu berkorelasi dengan performa pada wawancara penyaringan awal
    Karena itu, menurut saya yang sangat dibutuhkan industri adalah konsorsium ujian. Daripada menebak kemampuan dari nama universitas, perusahaan teknologi besar sebaiknya membuat ujian standar per bidang, dan nilainya menjadi resume itu sendiri, sehingga developer bisa fokus meningkatkan skor alih-alih menghabiskan waktu untuk menulis resume dan mengulang penyaringan yang melelahkan

    • Sistem seperti itu pada akhirnya juga bisa digame. Sama seperti optimisasi LeetCode muncul untuk menjawab pertanyaan wawancara ala Silicon Valley, belajar untuk pekerjaan akan berubah menjadi belajar untuk ujian, lalu berubah lagi menjadi belajar untuk pra-ujian
    • Mungkin undian malah lebih baik. Kegunaannya kira-kira sama, tetapi jauh lebih sederhana
      Lagi pula, bukankah sertifikasi “enterprise” pada dasarnya sudah memainkan peran seperti itu?
    • Ujian standar per bidang sendiri adalah masalah yang luar biasa sulit. Bahkan jika kita mengesampingkan insentif kecurangan yang terang-terangan, ujian terstandar tidak terlalu baik dalam merepresentasikan pemahaman atas suatu topik
      Itu pada dasarnya sama saja dengan mengklaim LeetCode adalah alat rekrutmen yang efektif, dan klaim itu layak mendapat banyak kritik
    • Mendesain ujian ilmu komputer itu sulit. LeetCode terlalu sederhana, dan hampir hanya menguji pengetahuan algoritma dasar yang nyaris tidak berguna untuk pengembangan perangkat lunak pada umumnya
  • Ini bisa berkembang menjadi permainan tebak-tebakan yang cukup menarik. Jika Anda melamar ke sebuah perusahaan dan tahu perusahaan itu memakai applicant tracking system tertentu, dan sistem itu memakai filter dari penyedia model tertentu, maka masuk akal untuk menulis versi resume yang akan dikirim ke perusahaan itu dengan model yang sama

    • Pengamatan yang bagus. Banyak versi masa depan pada akhirnya akan menjadi perlombaan senjata LLM
  • Sepertinya seluruh industri memakai evaluator otomatis. Caranya adalah memberi skor pada keluaran agen dengan instans agen lain
    Niatnya mirip dengan pelatihan generasi gambar berbasis adversarial neural network tanpa pelabel manusia. Lalu tim-tim akan mengoptimalkan metrik berupa naiknya skor evaluator otomatis, sehingga pada akhirnya tidak mengejutkan jika agen memberi skor tertinggi pada konten yang dihasilkannya sendiri

  • Sebagai percobaan, saya menjalankan qwen/qwen3-v1-30b secara lokal dan memasukkan resume saya yang 100% ditulis manusia, lalu meminta, “buat resume ini terdengar lebih profesional”
    Hasilnya keluar butir-butir yang luar biasa, dan kalimat “spesialis dalam enterprise data modeling dan mengerjakan optimisasi cost of revenue untuk seluruh basis pelanggan” diubah menjadi “spesialis dalam enterprise data modeling dan performance optimization, serta memimpin penghematan biaya berulang lebih dari $5 juta di seluruh basis pelanggan”
    Angka lebih dari $5 juta memang terdengar keren, dan jelas korpus resume sangat berfokus pada metrik, tetapi itu tidak benar, dan saya juga tidak pernah memintanya mengarang angka
    Bahkan meski resume saya hanya mencantumkan peran SDE pada 1996–1998, model itu juga tiba-tiba menambahkan “Sarjana Ilmu Komputer, University of California, Berkeley | 1996–1998” dari udara kosong

    • Ya, benar, masalah mengarang-ngarang akan makin memperburuk ini
      Akan ada orang yang memperbaiki halusinasi semacam itu, dan dalam kasus itu yang terbuang hanya waktu kandidat
      Akan ada juga yang tidak memperbaikinya, dan dalam kasus itu skenario terbaiknya adalah kandidat dan pewawancara baru menyadari kesalahannya belakangan lalu membuang waktu. Skenario terburuknya adalah orang yang tidak mampu melakukan pekerjaan itu malah direkrut, dan hasilnya akan berantakan serta tidak efisien bagi semua pihak
  • Ini topik yang sangat relevan bagi saya. Resume saya membengkak sampai 7 halaman, dan karena di mana-mana dibilang tidak boleh lebih dari 2 halaman, saya minta Gemini menulis ulang
    Gemini suka melebih-lebihkan semuanya sehingga prosesnya memakan banyak waktu, tetapi saya cukup puas dengan hasil akhirnya
    Namun beberapa recruiter pertama yang saya kirimi justru lebih menyukai resume lama saya yang 7 halaman. Mungkin mereka belum cukup banyak memakai AI

  • LLM secara konsisten menilai konten yang ditulis LLM sebagai sesuatu yang bagus
    Jika Anda meminta LLM menulis dokumen desain, menunggu sampai keluar hasil yang sangat buruk, lalu meminta LLM lain memberi umpan balik, biasanya mereka tetap akan memujinya
    Sebaliknya, jika Anda mengirim dokumen yang ditulis dengan sangat baik, meski premisnya kuat, mereka biasanya justru menemukan lebih banyak kekurangan. Seseorang seharusnya meneliti ini
    Jelas LLM punya nilai yang besar, tetapi fenomena ini mengungkap kelemahan yang sangat menarik dan belum jelas seberapa luas dampaknya
    LLM tampaknya juga akan punya bias besar terhadap kode yang ditulisnya sendiri. Jika Anda memasukkan kode seperti Redis, yang secara luas dianggap ditulis dengan sangat baik, lalu meminta umpan balik, kemungkinan model itu akan menemukan banyak cacat, dan banyak di antaranya bisa sepenuhnya salah
    Sebaliknya, jika Anda memasukkan repositori hasil LLM yang jelas sampah ke model yang sama, apakah reaksinya akan mirip seperti pada dokumen desain? Apakah model memperlakukan bahasa biasa dan kode secara berbeda, atau masalahnya sama saja? Saya penasaran apakah ada yang pernah mencobanya