5 poin oleh GN⁺ 5 jam lalu | 3 komentar | Bagikan ke WhatsApp
  • Dalam situasi ketika alat AI dengan cepat merambah hingga ke ranah penulisan dan review kode, penggunaan AI dalam wawancara pada dasarnya harus dikecualikan dan penilaian harus berpusat pada kemampuan dasar
  • Wawancara yang baik dinilai berdasarkan dua sumbu, yaitu kualitas sinyal (signal quality) dan biaya bagi perusahaan (cost to company), dan kedua faktor ini tidak sepenuhnya independen
  • Jenis wawancara dibagi menjadi empat: Take-home, Live exercise, Presentation, Actual work, masing-masing dengan kualitas sinyal dan biaya yang berbeda
  • Karena AI coding, take-home menjadi terlalu mudah, beban review meningkat, dan untuk soal yang bocor pun AI berperan sebagai pelatih yang sangat kuat
  • Kemahiran AI hanyalah instrumental skill (keterampilan instrumental), sehingga perusahaan harus fokus menilai foundational skill (kemampuan dasar)

Argumen inti

  • Di tengah evolusi cepat model dan alat AI, muncul pertanyaan apakah insinyur masih akan menulis dan me-review kode enam bulan lagi, dan jika keterampilan inti itu menghilang, apakah cara wawancara juga harus berevolusi
  • Sebagian besar perusahaan memilih mempertahankan status quo, termasuk perusahaan yang memimpin revolusi ini
    • Pedoman rekrutmen Anthropic mengharuskan take-home diselesaikan "tanpa Claude kecuali ada instruksi lain"
  • Beberapa perusahaan mengizinkan, mendorong, atau mewajibkan penggunaan AI, dan kemahiran AI itu sendiri kadang menjadi topik wawancara
  • Kesimpulannya, AI secara umum harus dikecualikan dari wawancara, dan dipaparkan cara konkret menyesuaikan wawancara terhadap AI

Dua dimensi wawancara yang baik

  • Kualitas sinyal (Signal quality)

    • Kemampuan mengidentifikasi kandidat kuat untuk himpunan kompetensi tertentu dan mengabaikan noise (elemen yang tidak esensial bagi peran atau mudah diajarkan)
    • Kebal terhadap persiapan khusus wawancara (Invulnerability to preparation): jika performa ditentukan oleh jumlah persiapan dan usaha, maka sinyal yang didapat hanya tentang karakteristik itu
    • Realisme (Realism): wawancara harus menyerupai pekerjaan sehari-hari, tetapi itu bukan tujuan pada dirinya sendiri. Wawancara "algorithm & data structure" bertahan lama meski tidak dipakai secara langsung dalam kerja praktis
    • Kesetaraan (Equality): sebagian kandidat lebih diuntungkan oleh keahlian domain sebelumnya, mentoring berbayar, kelonggaran waktu, soal bocor di internet, atau kenalan yang baru mengalaminya. Idealnya, dibutuhkan lingkungan yang adil bagi semua
    • Tingkat kesulitan (Difficulty): wawancara yang baik cukup sulit sehingga banyak orang gagal. Bentuk terbaik adalah masalah yang luas dan ambigu yang memerlukan beberapa wawasan
  • Biaya bagi perusahaan (Cost to company)

    • Pertanyaan wawancara menuntut investasi waktu yang besar: desain draf dan persetujuan uji coba, penyusunan scorecard per peran dan level, pengujian ke kandidat internal dan eksternal, dokumentasi dan pelatihan pewawancara
    • Pertanyaan dan scorecard terus dikalibrasi, sehingga investasinya harus terus dipertahankan
    • Tingkat kesulitan (Difficulty): membuat pertanyaan itu sulit, tetapi membuat pertanyaan yang cukup sulit lebih menantang lagi. Dua ekstrem—terlalu mudah atau terlalu sulit—sama-sama membuang waktu semua pihak
    • Daya tarik bagi kandidat (Appeal to candidate): proses yang terlalu memakan waktu atau pertanyaan yang membosankan akan membuat insinyur hebat pergi dan menurunkan conversion rate. Pertanyaan juga mencerminkan budaya engineering
  • Kedua dimensi ini tidak sepenuhnya independen; misalnya tingkat kesulitan memengaruhi keduanya. Wawancara yang sulit bisa membuat kandidat kuat bersinar tetapi juga memicu false negative (gagal lolos padahal seharusnya lolos)
  • Wawancara tidak harus sempurna; false negative dan false positive selalu ada. False negative sulit diidentifikasi, tetapi false positive bisa dibereskan lebih cepat dengan onboarding yang baik dan milestone semester pertama yang jelas

Klasifikasi jenis wawancara

  • Take-home

    • Kandidat diminta mengirimkan (1) solusi untuk masalah yang ambigu (misalnya spesifikasi produk) sambil (2) mematuhi beberapa batasan teknis (misalnya daftar bahasa pemrograman)
    • Sering dilanjutkan dengan wawancara review di mana kandidat mempresentasikan pekerjaannya dan memodifikasinya secara langsung
    • Kualitas sinyal: (sebelum AI) tinggi — memberi sinyal luas tentang desain, coding, detail, testing, dan lain-lain, serta usaha 6 jam atau lebih membuktikan motivasi
    • Biaya bagi perusahaan: sedang — evaluasi bisa diotomatisasi, hasil kerja (kode) bisa direview secara asinkron, tetapi dapat membuat kandidat mundur
    • Sangat rentan terhadap AI dan orang yang sangat termotivasi
  • Live exercise

    • Termasuk algorithm & datastructure, live coding, system design, postmortem review, dan sebagainya, biasanya lebih dari 1 jam. Soal seperti "rancang arsitektur Netflix" atau "buat rate-limiter" diselesaikan langsung di depan pewawancara
    • Kualitas sinyal: sedang — objektif jika dirancang dan dijalankan dengan baik, tetapi sinyal biasanya terfokus pada satu topik
    • Biaya bagi perusahaan: sedang — agar tidak mudah dikalahkan oleh persiapan kandidat, dibutuhkan banyak variasi pertanyaan
    • Untuk mengurangi biaya, beberapa perusahaan memakai layanan otomasi
  • Presentation

    • Kandidat memilih sendiri masalah dan jawabannya, seperti "jelaskan proyek yang Anda pimpin", "diagram arsitektur", atau "pengalaman melakukan X"
    • Kualitas sinyal: rendah — banyak mode kegagalan
      • Belum pernah menangani masalah menarik (misalnya junior), memilih masalah membosankan, melebih-lebihkan dampak dan kontribusi, kurang persiapan presentasi, komunikator kuat tetapi bukan eksekutor, atau penilaian tidak akurat karena pewawancara kurang paham domain
    • Biaya bagi perusahaan: rendah — tidak banyak yang perlu disiapkan dari sisi kalibrasi
    • Kualitas sinyal yang rendah bisa dikurangi dengan pertanyaan reflektif seperti "apa yang akan Anda lakukan berbeda?" atau pertanyaan hipotetis seperti "bagaimana jika requirement X diubah?"; dalam kasus ini formatnya menjadi mendekati live exercise yang tidak terkalibrasi. Ini menuntut lebih banyak usaha dan keahlian pewawancara
  • Actual work (bukan jenis wawancara)

    • Bekerja bersama selama satu minggu dengan bayaran. Digunakan oleh perusahaan seperti Linear
    • Kualitas sinyal: tinggi / biaya bagi perusahaan: tinggi
  • Sebagian besar perusahaan mencampur beberapa tipe ini, dan Live exercise lebih dominan

Kebocoran pertanyaan hanya soal waktu (terlepas dari AI)

  • Kebocoran pertanyaan hanya soal waktu, dan situs seperti Glassdoor memuat semua rahasia wawancara. Beberapa kandidat bahkan mengikuti wawancara untuk menjual pertanyaannya
  • Jika diabaikan, sinyal melemah dan pendorong utama performa wawancara berubah menjadi "apakah kandidat mencari tahu proses wawancara kita"
  • Taktik respons

    • Kendalikan persiapan (Control the preparation): masukkan presentation ke dalam campuran atau berikan panduan yang presisi (misalnya "desain sistem berfokus pada database", "algoritme berfokus pada graph") untuk menciptakan lingkungan yang adil
    • Variasikan pertanyaan per tipe: arsipkan pertanyaan lama secara berkala. Jika kandidat tidak bisa memprediksi pertanyaan secara tepat, mereka harus memperluas cakupan persiapan, dan itulah tujuannya. Namun ini tidak gratis
    • Persulit kebocoran (Make it harder to leak): lakukan onsite, gunakan whiteboard, dan taruh pertanyaan yang paling rentan di bagian akhir proses (karena jumlah kandidat yang sampai ke sana lebih sedikit, peluang bocornya turun)

AI coding mengancam model wawancara saat ini

  • (1) Take-home menjadi terlalu mudah bagi kandidat dan terlalu mahal bagi perusahaan

    • Pada 2026, besar kemungkinan sebagian besar submission dihasilkan AI atau dibantu AI, dan tugas yang masih bertahan saat ini hanya menunggu waktu sampai terselesaikan oleh rilis model berikutnya
    • Akibatnya, sebagian besar kandidat lolos tahap pertama sehingga membutuhkan banyak waktu review. Me-review submission buatan AI dengan AI adalah hal yang tidak masuk akal
    • AI coding memindahkan biaya wawancara dari peserta wawancara ke pewawancara
      • Mengutip hukum Brandolini: energi untuk membantah kode buruk membutuhkan satu orde magnitudo lebih besar daripada energi untuk membuatnya
  • (2) Jika waktu menulis kode berkurang, wajar untuk mengurangi porsi live-coding

    • Seperti kita memakai bahasa tingkat tinggi alih-alih menulis machine code, ada pandangan bahwa masuk akal menyelaraskan alat yang diizinkan dalam wawancara dengan alat kerja sehari-hari
  • (3) Jika pertanyaan bocor, AI menjadi pelatih yang sangat kuat

    • Dulu, menemukan dan menyiapkan pertanyaan butuh banyak waktu dan sumber daya, tetapi kini AI memberi bantuan paling kuat dan murah

Cara model evaluasi klasik di sekolah bertahan terhadap teknologi

  • Ujian sekolah menengah dan universitas di Prancis secara umum tetap berbentuk sama
    • Tidak boleh membawa bahan (kuliah, buku, dan lain-lain), hampir tidak boleh memakai alat (terutama kalkulator), isi soal tidak dibuka sebelumnya, tidak dapat ditebak (setiap ujian berbeda dan dipakai sekali), dan masalahnya luas serta ambigu
    • Inti ujian sastra Prancis adalah dissertation, yaitu menulis esai 5–10 halaman dari satu kalimat topik, yang sudah ada sejak 1830. Ujian sains pun memakai bentuk serupa dengan 3–4 masalah ambigu
  • Bentuk evaluasi lain seperti take-home, soal pengetahuan pilihan ganda, tugas kelompok, atau presentasi memang ada sebagai pelengkap, tetapi itu pengecualian, bukan prinsip utama
  • Jika klasifikasi tadi diterapkan lagi
    • Kualitas sinyal: tinggi — ruang persiapannya sangat luas dan butuh usaha berkelanjutan
    • Biaya: sangat tinggi — tiap ujian perlu topik baru dan panduan penilaian baru, serta semua kandidat mengikuti ujian yang sama pada waktu yang sama (sangat tidak realistis untuk wawancara perusahaan)
  • Yang menarik, meski alat kognitif seperti copy-paste, internet, kalkulator, dan solver berkembang pesat, model ini nyaris tidak berubah
    • Pendidikan harus berfokus pada kemampuan dasar, bukan pada alat sesaat, dan ini sejalan dengan model Aristotelian yang menekankan penilaian (phronesis) ketimbang ingatan (mneme)

Mengapa perusahaan harus membatasi penggunaan AI selama wawancara

  • Pembedaan antara kemampuan dasar dan kemampuan instrumental

    • Foundational traits & skills adalah kemampuan, sikap, dan kebiasaan yang sulit dibangun atau mahal biayanya
      • Kemampuan intelektual mentah, keahlian mendalam yang diperoleh dari belajar bertahun-tahun (sistem terdistribusi dengan jutaan request per detik, mengubah ratusan microservice menjadi monolith, dan sebagainya), penalaran tingkat kedua, serta kebajikan seperti etos kerja, integrity, dan daya pulih
      • Ini adalah pengetahuan yang terinternalisasi (fundamentals) yang memungkinkan orang mengidentifikasi, mengabstraksikan, dan menyelesaikan masalah, sekaligus menjadi landasan untuk mempelajari lebih banyak keterampilan. Inilah yang membuat orang berkata, "dia pintar, nanti juga bisa"
    • Instrumental skills dapat dipelajari dengan murah atau cepat
      • Kemahiran menengah dalam bahasa pemrograman, penggunaan text editor dengan baik, pencarian dokumentasi, dan penyesuaian prompt AI
    • Dalam wawancara, perusahaan sering memakai sinyal dari berbagai keterampilan instrumental untuk memverifikasi sifat dasar kandidat, seperti kemauan berinvestasi pada produktivitas dan belajar secara terstruktur
  • Rationale 1: Kemahiran AI bukan kemampuan dasar

    • Alat engineering terus berkembang, tetapi wawancara umumnya tetap sama (tidak ada jenis wawancara low-code, system design kebanyakan masih memakai teknologi dasar dan unmanaged)
      • Perusahaan terbaik tidak mencari kemahiran pada satu alat tertentu, dan dengan munculnya LLM, pentingnya Expert Generalist justru semakin besar
    • Alasan mengapa keahlian bahasa pemrograman tidak terlalu penting dalam wawancara juga sama. Bahasa hanyalah alat untuk tujuan yang lebih tinggi, yaitu pemecahan masalah
    • Penggunaan AI juga sama; meski membutuhkan teknik halus seperti prompt/context engineering, definisi MCP/skills, multi-agent workflow, dan harness engineering, semuanya tetap keterampilan instrumental, dan semuanya memerlukan kemampuan dasar yang sama yang dibutuhkan untuk menulis kode, me-review kode, dan merancang arsitektur yang bisa diskalakan
    • Perusahaan merekrut otak, bukan tangan yang sekadar mengetik instruksi ke agen AI tanpa berpikir
    • Review dan produksi adalah dua sisi mata uang yang sama; review kode, arsitektur, dan analisis memerlukan kemampuan serupa dengan menulis, merancang, dan menganalisis. Karena manusia tetap dibutuhkan untuk menghasilkan dan memverifikasi requirement bisnis, code review tidak akan segera hilang (spesifikasi yang cukup detail pada akhirnya adalah kode)
  • Rationale 2: AI menutupi sifat dan kemampuan dasar

    • Mengutip Peter Drucker: kita tidak bisa hanya mempekerjakan tangan; seluruh manusianya ikut datang
    • Memakai pembedaan Lewis Mumford — tool (dipimpin pekerja manusia) vs machine (beroperasi dengan logikanya sendiri dan memiliki agency). Jika penggunaan AI berlebihan, hampir mustahil membedakan kontribusi unik insinyur dari kontribusi model AI
    • Perlu waspada terhadap insinyur yang memakai AI bukan sebagai "tool" melainkan seperti "machine". AI adalah lompatan produktivitas yang melampaui autocomplete kuat, dan bisa mengeksternalisasi sebagian besar proses berpikir. Bahkan ranah khas manusia seperti "taste" ikut terancam sehingga Fitts' list tampak usang
    • Seperti pharmakon Plato yang dianalisis Derrida, AI adalah obat (otomatisasi refactor repetitif, menghemat waktu belajar kekhususan library) sekaligus racun (berisiko melemahkan kemampuan dasar)
    • Wawancara yang terlalu menekankan AI berisiko mengevaluasi model ("machine"), bukan manusia. Karena itu, tugas wawancara perlu dirancang untuk menonjolkan penalaran manusia sebagai subjek utama
  • Rationale 3: AI berevolusi terlalu cepat

    • Menurut Arthur Mensch (CEO Mistral), model AI memperoleh kira-kira satu tahun pengalaman software engineering setiap 12 bulan. Lelucon yang menyamakan agen AI dengan intern sudah hampir tak terdengar lagi
    • Sebagian besar perusahaan tidak punya kapasitas untuk terus membuat dan memelihara pertanyaan yang tahan terhadap AI dan tetap memaksa kemampuan dasar. Saat model berevolusi tiap bulan dan akses ke semua model pun belum tentu ada, membuat pertanyaan yang terus tahan terhadap model terbaik adalah pertarungan yang kalah sejak awal
      • "Designing AI resistant technical evaluations" dari Anthropic adalah studi kasus tentang "bertarung" melawan AI, bukan melawan kandidat
    • Membuat take-home yang lebih sulit mirip dengan mengizinkan kalkulator sambil memberi soal hitung mental yang lebih sulit
    • Praktik terbaik AI juga berubah tiap bulan, dan seiring model makin pandai memahami instruksi, pentingnya prompt engineering menurun. Apakah kandidat mengikuti teknik terbaru bukanlah sinyal yang berguna
    • Sebaliknya, fundamentals secara definisi tidak berubah

Jawaban atas keberatan

  • Menanggapi kritik bahwa tidak ada data: (1) eksperimen sungguhan dengan signifikansi statistik (uji acak terkontrol) hampir mustahil dilakukan, dan tidak ada perusahaan yang rela menerima false negative yang dihasilkannya; (2) sebagian besar keputusan desain wawancara memang didasarkan pada penalaran abstrak, bukan eksperimen ala uji klinis
  • Kecurangan dengan AI (misalnya saat wawancara): jika sudah dilarang secara eksplisit, penggunaan alat AI adalah alasan diskualifikasi langsung
    • Mengutip Warren Buffett: saat merekrut, kita melihat integrity, intelligence, dan energy; jika integrity tidak ada, dua yang lain justru akan merusak. Jika sampai merekrut orang tanpa integrity, lebih baik ia bodoh dan malas
  • Haruskah kandidat dievaluasi dengan AI: tidak. (1) Secara etis salah — ketika yang direkrut adalah manusia pekerja pengetahuan, mesin tidak bisa menilai semuanya; (2) evaluasi AI bersifat nondeterministik dan dikenal suka berhalusinasi, sehingga pada akhirnya hasil evaluasi AI tetap harus direview lagi

Rekomendasi konkret untuk perusahaan

  • Jangan izinkan penggunaan AI di sebagian besar wawancara. Jangan terlalu menekankan alat tertentu, dan fokuslah pada kemampuan dasar
  • Berinvestasilah pada live exercise. Format ini tidak harus palsu, membosankan, atau bersinyal rendah, dan juga tidak harus pendek. Tinjau kembali wawancara data structure & algorithm — format ini masih yang paling menantang secara intelektual. Rancang tugas yang menuntut usaha manusia, dan simpan banyak pertanyaan agar kandidat tidak bisa over-prepare pada satu soal saja
  • Campurkan jenis wawancara untuk mendapatkan sinyal yang luas dengan biaya yang efisien
  • Sesuaikan take-home. Larang penggunaan AI secara eksplisit, atau izinkan tetapi jangan buang waktu me-review output AI. Take-home harus selalu diikuti live exercise berbasis hasil tersebut agar kandidat bisa mempresentasikan pekerjaannya, menjelaskan pendekatan trade-off, perubahan requirement, skalabilitas, dan sebagainya
  • Sertakan setidaknya satu wawancara yang menilai kemampuan review. Biaya pembuatannya rendah, memberi sinyal menarik, dan bebannya lebih ringan bagi kandidat. Contoh: rencana AI, postmortem, codebase yang sudah ada (Bug squash), dokumen requirement produk, analisis trade-off, atau review arsitektur sistem
  • Pertimbangkan memanggil kandidat onsite. Ini cara paling sederhana mencegah kecurangan, sekaligus agak mempersulit kebocoran pertanyaan. Namun ini hanya berlaku bagi perusahaan yang menerapkan RTO (kembali ke kantor)
  • Berikan panduan persiapan wawancara yang jelas untuk menciptakan lingkungan yang adil

3 komentar

 
roxie 3 jam lalu

Menurut saya, ini cocok untuk bekerja bersama selama 1 minggu.

 
linusjeh 3 jam lalu

Tulisan itu juga pasti ditulis pakai AI, kan wkwk

 
jjpark78 3 jam lalu

Toh saat bekerja nanti AI memang akan dipakai, jadi saya rasa mengecualikannya itu ada artinya atau tidak. Daripada begitu, bukankah lebih cocok dengan era AI jika wawancara jarak jauh dihapus, hanya dilakukan secara langsung di lokasi, lalu dinilai lewat pertanyaan yang dirancang dengan baik dan pemantauan tentang bagaimana kandidat memakai AI dan berpikir di tempat?

Bahkan untuk masalah yang sama, dari cara seseorang mengirim prompt saja kita bisa tahu banyak hal tentang orang tersebut.