- Kualitas kerja pengetahuan sulit diverifikasi tanpa mengerjakan ulang hasilnya secara langsung, sehingga orang cenderung bergantung pada indikator pengganti seperti tingkat kerapian yang terlihat ketimbang akurasi sebenarnya
- Jika terlihat cacat di permukaan seperti kesalahan tanggal atau masalah label grafik, keseluruhan hasil mudah dibuang meski tidak terkait dengan kesimpulan utama, dan standar penilaian pun condong ke tampilan luar yang murah untuk diperiksa alih-alih refleksi terhadap realitas
- LLM sangat pandai meniru gaya bahasa dan format yang meyakinkan meski tidak mereproduksi kualitas kerja yang sesungguhnya, sehingga prosedur seremonial dalam laporan atau kode tetap ada, tetapi kualitas di bawahnya bisa kosong
- Jika standar yang diukur adalah kualitas permukaan, maka menjadi masuk akal bila sebagian besar output ditulis oleh LLM, dan LLM itu sendiri juga dioptimalkan untuk output yang terlihat berkualitas tinggi alih-alih kebenaran atau kegunaan
- Akibatnya, sistem bernilai puluhan miliar dolar lebih mudah dipakai untuk meniru pekerjaan daripada melakukan pekerjaan yang nyata, dan alur sekadar meninjau cepat lalu memberi LGTM berlanjut sebagai bentuk otomatisasi dari Goodhart's law
Struktur dan hasil yang diubah oleh LLM
- LLM sangat pandai meniru gaya bahasa dan format yang meyakinkan meski tidak mereproduksi kualitas kerja yang sesungguhnya
- Laporan analisis pasar yang ditulis dengan ChatGPT bisa terbaca dan terlihat seperti hasil dari firma konsultansi papan atas
- Seorang software engineer dapat menghasilkan ribuan baris kode yang sekilas tampak berkualitas tinggi, lalu rekan kerjanya menjalankan code review dengan AI lagi untuk menemukan dan memperbaiki masalah
- Akibatnya, prosedur seremonial pekerjaan tetap dipertahankan, tetapi kualitas nyata di bawahnya bisa kosong
- Jika standar yang diukur adalah kualitas permukaan, pekerja akan rasional bertindak agar terlihat baik menurut standar itu, sehingga sebagian besar output akhirnya ditulis oleh LLM
- Pelatihan LLM juga disetel bukan berdasarkan apakah jawabannya benar atau berguna, melainkan apakah jawaban itu tampak seperti sesuatu yang mungkin muncul dalam korpus pelatihan atau memuaskan penilai RLHF
- Pada akhirnya, LLM itu sendiri dioptimalkan untuk menghasilkan output yang tampak berkualitas tinggi
- Sistem yang dibuat dengan biaya puluhan miliar dolar pun digunakan untuk melakukan tiruan pekerjaan ketimbang pekerjaan yang nyata
- Perusahaan-perusahaan akhirnya berada dalam situasi saling bersaing soal siapa yang memakai token lebih banyak
- Semakin banyak output LLM yang dihasilkan pekerja, semakin sedikit waktu yang tersisa untuk meninjau output itu secara mendalam
- Yang tersisa hanyalah alur meninjau sekilas, memberi LGTM, lalu membuka sesi Claude Code berikutnya
1 komentar
Pendapat Hacker News
Saya tidak sepenuhnya setuju baik dengan klaim dalam tulisan bahwa salah ketik atau kesalahan kecil dulu mudah dipakai sebagai indikator pengganti untuk menilai kualitas kerja pengetahuan manusia, maupun dengan klaim bahwa masalahnya sekarang adalah AI tidak memiliki petunjuk semacam itu
Dari sisi konseptual banyak juga hasil kerja manusia yang buruk, tetapi faktanya benar dan bentuknya rapi
Setelah 10 tahun bekerja dengan klien perusahaan, saya sama sekali tidak merasa era pre-LLM adalah masa keemasan kerja pengetahuan berkualitas tinggi; saat itu pun sudah melimpah berbagai barang rongsokan seperti simulakrum kerja pengetahuan yang berfungsi
Hasil buruk dari manusia biasanya punya penyebab, seperti ketidaktahuan, tekanan waktu, atau tujuan yang egois, dan penyebab itu cukup konsisten
Kita bisa menangkap pola kepercayaan, seperti intern yang hati-hati tetapi belum paham, atau senior yang sangat berpengetahuan tetapi kurang tidur sehingga melewatkan hal yang jelas
Tetapi AI bisa sekaligus mengimplementasikan paper dengan sempurna lalu di eksekusi yang sama melakukan kesalahan setingkat mahasiswa baru, sehingga muncul situasi yang tidak intuitif: kita harus melakukan review dengan asumsi ketidakmampuan total terhadap mesin yang juga menunjukkan kompetensi ekstrem
Jika ada salah ketik atau kesalahan fakta mendasar, kita bisa langsung menggugurkannya, tetapi ketiadaan hal-hal itu tidak berarti kualitasnya tinggi
Biasanya pemeriksaan seperti ini hanya gerbang pertama, bukan keseluruhannya, dan setelah melewati gerbang itu kita jadi lebih mudah melihat masalah yang sebenarnya
Mirip seperti di kode, sebelum reasoning kita lebih dulu merapikan lint dan style
Namun karena kita sendiri tidak tahu bahwa 99% itu dibuat AI, kita jadi mudah salah mengira bahwa karena pola yang kita sadari tertangkap 100%, berarti semua tulisan AI pasti sudah tersaring
Banyak kerja pengetahuan pada dasarnya memang merupakan pengganti bagi sesuatu yang lain
Kualitas yang bebas salah ketik dan rapi formatnya, seperti kemeja putih yang disetrika dan dasi, sering kali terutama merupakan sinyal penghormatan, dan ada banyak dokumen panjang yang pada praktiknya tidak dibaca mendalam oleh siapa pun
Pada akhirnya itu adalah cara simbolis untuk menunjukkan pengorbanan dan kepatuhan, dan LLM sedang menghapus sistem sinyal tersebut
Jika dulu pun kualitas isi sebenarnya tidak benar-benar diperhatikan, berarti dari awal isi itu memang tidak terlalu penting
Di dunia akademik, masalah biaya peninjauan AI sudah mulai terlihat, tetapi agak berbeda dari alasan yang disebut di artikel
Intinya bukan sekadar hilangnya penanda pekerjaan murahan, melainkan biaya untuk meninjau dengan teliti hasil kerja yang dibuat dengan AI sudah menjadi terlalu besar untuk ditanggung manusia saja
Misalnya, jurnal ekonomi bisa memiliki lampiran sampai ratusan halaman, sementara waktu yang dapat dibaca manusia terbatas
Saya penasaran apakah jurnal di bidang lain juga tertekan bukan hanya oleh kenaikan jumlah kiriman baru, tetapi juga oleh intensitas peninjauan yang diperlukan untuk memverifikasi tiap paper
Di bawah level itu, sering kali hampir mustahil membedakan mana yang benar dan mana yang hanya tampak benar
Saat menggunakan AI, saya merasa sedang melakukan cargo-cult terhadap pemahaman
Saya mereproduksi permukaan dari sesuatu yang tampak dipahami, sambil merampas dari diri sendiri waktu dan usaha yang sebenarnya diperlukan untuk benar-benar memahami
Dia percaya bahwa jika Claude diberi Snowflake Cortex, kode terintegrasi, dokumen, dan tiket Jira, maka kita bisa menanyakan apa pun dan semuanya akan jadi jauh lebih baik
Tetapi obsesi itu tidak menghasilkan output besar, dan beberapa kali dia mengalami sendiri secara langsung betapa tidak sempurnanya teknologi ini
Semua orang bicara tentang agentic workflow dan visi wiki internal raksasa, tetapi saya justru terus menghasilkan output dengan AI untuk cukup banyak mempercepat pengiriman sambil tidak menghabiskan waktu pada petualangan besar semacam itu
Ada juga ironi bahwa orang-orang yang dulu mengkritik adopsi chatbot di perusahaan kini justru membakar token untuk mengumpulkan triliunan file .md dan file skill demi membuat chatbot versi mereka sendiri
Yang benar-benar saya khawatirkan adalah pengetahuan nyata di tingkat institusi akan hilang lewat berbagai jalan pintas ini
Meminta contoh sederhana atau bertanya untuk mempelajari konsep masih oke, tetapi prompt yang meminta sekaligus meninjau tool dan infrastruktur saat ini, meningkatkan kecepatan deployment 5x, melakukan riset web, lalu menyusun usulan adopsi organisasi dan analisis biaya-manfaat lima tahun, justru melemahkan manusia itu sendiri
Sekarang orang-orang melempar proposal buatan Claude ke mana-mana, sambil melewati proses menggali sedikit sendiri atau mengeksplorasi bersama arsitek maupun engineer senior
Akibatnya mereka memahami banyak hal hanya secara dangkal, tidak bisa menjelaskan dengan baik ketika digali lebih dalam, dan mempercayai jawaban dari AI seperti strategi final yang tidak ingin mereka tantang
Kesempatan belajar dari orang yang lebih berpengalaman pun tidak lagi dipandang sebagai pengalaman belajar
Pada akhirnya saya tetap percaya bahwa otak manusia sendiri masih merupakan salah satu teknologi paling menakjubkan, dan saya jadi bertanya kenapa kita justru berusaha membangun perpustakaan buatan raksasa ini di luar diri kita
Seperti yang dikatakan Bret Devereaux dalam kritik Game Of Thrones, pandangan dunia dari sudut elite hanya terasa masuk akal bagi elite dan terdengar seperti utopia
Gelembung yang terlepas dari kerja nyata seperti ini pada akhirnya akan pecah besar, dan ketika massa yang kehilangan pekerjaan karena AI berteriak bahwa mereka bahkan tak bisa makan roti, bila jawabannya seperti menyuruh mereka makan kue, mudah membayangkan reaksi balik setingkat Revolusi Prancis
Tetapi sebagai alat untuk membantu saat berusaha memahami secara mendalam, justru jarang ada yang sebaik AI
Pada akhirnya, memahami sesuatu hampir sama dengan mengerjakannya sendiri
Tidak masalah jika kita belum paham, tetapi dalam situasi itu, ada atau tidak ada indikator pengganti, pada akhirnya kita hanya bisa mempercayai pemahaman orang lain
Arah untuk bekerja lebih sedikit dan lebih banyak percaya mungkin bisa berjalan sampai titik tertentu, tetapi jika melewati itu, pekerjaan di masa depan menjadi rentan
simulacrumbenar-benar kata yang bagusKarena itu tampaknya manajer menengah menjadi penganut pertama supremasi LLM
Manajer menengah memiliki banyak insentif untuk terus mengabstraksikan kerja pengetahuan, bukan keterampilan nyata dari perannya, dan lapisan abstraksi itu tampaknya sangat mudah dideskripsikan dalam embedding space
Kode AI sering terlihat lebih buruk daripada kenyataannya
Ia terlalu bertele-tele, membingungkan, dan penuh fallback, sehingga ketika masalah muncul ia mengalir melewati banyak try/catch dan mengirim stack trace ke tempat yang tidak relevan
Meski begitu, jika dilihat dari fungsi murninya saja, saya sering mendapati ia berjalan lebih baik daripada kode buatan manusia yang secara lahiriah mirip
Karena itu sulit dipahami baik oleh manusia maupun oleh LLM
Saya berharap ada lebih banyak gaya tulisan blog seperti ini
Panjangnya pas, pesannya tersampaikan dengan baik, dan ada unsur naratifnya
Sekarang terlalu banyak AI slop buatan LLM sepanjang novel, jadi tulisan seperti ini terasa makin menyenangkan
Bagi banyak orang di industri ini, ini terlihat sebagai arus yang cukup jelas
Masalahnya, uang yang dipertaruhkan terlalu besar, sehingga para pemain besar terus mendorong apa yang mereka inginkan
Ini membuat saya membayangkan bahwa partikel-partikel subatom ternyata sebenarnya adalah sekumpulan semesta, dan sifat-sifatnya mencerminkan jejak para makhluk yang dulu menguasai semesta itu serta otomatisasi yang terus berjalan setelah mereka lenyap
Semacam mesin otomatis yang memanen entropi sambil terus menggandakan dirinya sendiri
Kita sekarang sedang menciptakan sesuatu yang lebih besar dari kita, dan pada suatu titik mungkin akan mencapai titik yang tak bisa dipulihkan kembali
Itu membuat saya membayangkan semesta dan peradaban subatom yang tak terhitung jumlahnya bangkit dan runtuh, bahkan dimangsa oleh teknologi pseudo-kecerdasan yang otonom, lalu secara makro semua itu tampak sebagai perilaku partikel
Sekarang kita pun pada akhirnya sedang menciptakan satu partikel, dan pilihan kolektif kita mungkin memberi pengaruh yang sangat kecil namun bermakna pada semesta tingkat atas tempat kita berada
Output seseorang selalu menjadi input bagi orang lain
Jika kuantitas diperbanyak dengan LLM, orang berikutnya juga akan mem-parsing itu dengan LLM untuk membuat output mereka sendiri
Rantai itu terus berlanjut, lalu ketika konsumen terakhir mengajukan keluhan, tak seorang pun lagi bisa menunjukkan dengan pasti sebenarnya di mana letak kesalahannya
Karena hanya konsumen terakhir yang terlihat, sementara sisanya bersembunyi di balik tujuh lapis proxy