Simulakrum Kerja Pengetahuan

(blog.happyfellow.dev)

1 poin oleh GN⁺ 9 jam lalu | 1 komentar | Bagikan ke WhatsApp

Kualitas kerja pengetahuan sulit diverifikasi tanpa mengerjakan ulang hasilnya secara langsung, sehingga orang cenderung bergantung pada indikator pengganti seperti tingkat kerapian yang terlihat ketimbang akurasi sebenarnya
Jika terlihat cacat di permukaan seperti kesalahan tanggal atau masalah label grafik, keseluruhan hasil mudah dibuang meski tidak terkait dengan kesimpulan utama, dan standar penilaian pun condong ke tampilan luar yang murah untuk diperiksa alih-alih refleksi terhadap realitas
LLM sangat pandai meniru gaya bahasa dan format yang meyakinkan meski tidak mereproduksi kualitas kerja yang sesungguhnya, sehingga prosedur seremonial dalam laporan atau kode tetap ada, tetapi kualitas di bawahnya bisa kosong
Jika standar yang diukur adalah kualitas permukaan, maka menjadi masuk akal bila sebagian besar output ditulis oleh LLM, dan LLM itu sendiri juga dioptimalkan untuk output yang terlihat berkualitas tinggi alih-alih kebenaran atau kegunaan
Akibatnya, sistem bernilai puluhan miliar dolar lebih mudah dipakai untuk meniru pekerjaan daripada melakukan pekerjaan yang nyata, dan alur sekadar meninjau cepat lalu memberi LGTM berlanjut sebagai bentuk otomatisasi dari Goodhart's law

Struktur dan hasil yang diubah oleh LLM

LLM sangat pandai meniru gaya bahasa dan format yang meyakinkan meski tidak mereproduksi kualitas kerja yang sesungguhnya
Laporan analisis pasar yang ditulis dengan ChatGPT bisa terbaca dan terlihat seperti hasil dari firma konsultansi papan atas
Seorang software engineer dapat menghasilkan ribuan baris kode yang sekilas tampak berkualitas tinggi, lalu rekan kerjanya menjalankan code review dengan AI lagi untuk menemukan dan memperbaiki masalah
Akibatnya, prosedur seremonial pekerjaan tetap dipertahankan, tetapi kualitas nyata di bawahnya bisa kosong
Jika standar yang diukur adalah kualitas permukaan, pekerja akan rasional bertindak agar terlihat baik menurut standar itu, sehingga sebagian besar output akhirnya ditulis oleh LLM
Pelatihan LLM juga disetel bukan berdasarkan apakah jawabannya benar atau berguna, melainkan apakah jawaban itu tampak seperti sesuatu yang mungkin muncul dalam korpus pelatihan atau memuaskan penilai RLHF
Pada akhirnya, LLM itu sendiri dioptimalkan untuk menghasilkan output yang tampak berkualitas tinggi
Sistem yang dibuat dengan biaya puluhan miliar dolar pun digunakan untuk melakukan tiruan pekerjaan ketimbang pekerjaan yang nyata
Perusahaan-perusahaan akhirnya berada dalam situasi saling bersaing soal siapa yang memakai token lebih banyak
Semakin banyak output LLM yang dihasilkan pekerja, semakin sedikit waktu yang tersisa untuk meninjau output itu secara mendalam
Yang tersisa hanyalah alur meninjau sekilas, memberi LGTM, lalu membuka sesi Claude Code berikutnya

1 komentar

GN⁺ 9 jam lalu

Pendapat Hacker News

Saya tidak sepenuhnya setuju baik dengan klaim dalam tulisan bahwa salah ketik atau kesalahan kecil dulu mudah dipakai sebagai indikator pengganti untuk menilai kualitas kerja pengetahuan manusia, maupun dengan klaim bahwa masalahnya sekarang adalah AI tidak memiliki petunjuk semacam itu
Dari sisi konseptual banyak juga hasil kerja manusia yang buruk, tetapi faktanya benar dan bentuknya rapi
Setelah 10 tahun bekerja dengan klien perusahaan, saya sama sekali tidak merasa era pre-LLM adalah masa keemasan kerja pengetahuan berkualitas tinggi; saat itu pun sudah melimpah berbagai barang rongsokan seperti simulakrum kerja pengetahuan yang berfungsi
- Bagi saya masalah yang lebih besar adalah hilangnya keterjelasan manusiawi untuk menjelaskan kesalahan
  Hasil buruk dari manusia biasanya punya penyebab, seperti ketidaktahuan, tekanan waktu, atau tujuan yang egois, dan penyebab itu cukup konsisten
  Kita bisa menangkap pola kepercayaan, seperti intern yang hati-hati tetapi belum paham, atau senior yang sangat berpengetahuan tetapi kurang tidur sehingga melewatkan hal yang jelas
  Tetapi AI bisa sekaligus mengimplementasikan paper dengan sempurna lalu di eksekusi yang sama melakukan kesalahan setingkat mahasiswa baru, sehingga muncul situasi yang tidak intuitif: kita harus melakukan review dengan asumsi ketidakmampuan total terhadap mesin yang juga menunjukkan kompetensi ekstrem
- Era pre-LLM memang bukan masa keemasan kualitas, tetapi benar bahwa LLM menghapus satu penanda lain yang dulu membantu menyaring pekerjaan omong kosong yang dibuat tergesa-gesa
- Pada dasarnya ini bukan deteksi positif, melainkan filter negatif
  Jika ada salah ketik atau kesalahan fakta mendasar, kita bisa langsung menggugurkannya, tetapi ketiadaan hal-hal itu tidak berarti kualitasnya tinggi
  Biasanya pemeriksaan seperti ini hanya gerbang pertama, bukan keseluruhannya, dan setelah melewati gerbang itu kita jadi lebih mudah melihat masalah yang sebenarnya
  Mirip seperti di kode, sebelum reasoning kita lebih dulu merapikan lint dan style
- Kita mungkin bisa menangkap frasa khas AI yang mencolok, tetapi bisa saja melewatkan 99% sisanya dari teks buatan AI yang tidak punya penanda apa pun
  Namun karena kita sendiri tidak tahu bahwa 99% itu dibuat AI, kita jadi mudah salah mengira bahwa karena pola yang kita sadari tertangkap 100%, berarti semua tulisan AI pasti sudah tersaring
- Saya rasa ini tidak terlalu penting secara fundamental
  Banyak kerja pengetahuan pada dasarnya memang merupakan pengganti bagi sesuatu yang lain
  Kualitas yang bebas salah ketik dan rapi formatnya, seperti kemeja putih yang disetrika dan dasi, sering kali terutama merupakan sinyal penghormatan, dan ada banyak dokumen panjang yang pada praktiknya tidak dibaca mendalam oleh siapa pun
  Pada akhirnya itu adalah cara simbolis untuk menunjukkan pengorbanan dan kepatuhan, dan LLM sedang menghapus sistem sinyal tersebut
  Jika dulu pun kualitas isi sebenarnya tidak benar-benar diperhatikan, berarti dari awal isi itu memang tidak terlalu penting
Di dunia akademik, masalah biaya peninjauan AI sudah mulai terlihat, tetapi agak berbeda dari alasan yang disebut di artikel
Intinya bukan sekadar hilangnya penanda pekerjaan murahan, melainkan biaya untuk meninjau dengan teliti hasil kerja yang dibuat dengan AI sudah menjadi terlalu besar untuk ditanggung manusia saja
Misalnya, jurnal ekonomi bisa memiliki lampiran sampai ratusan halaman, sementara waktu yang dapat dibaca manusia terbatas
Saya penasaran apakah jurnal di bidang lain juga tertekan bukan hanya oleh kenaikan jumlah kiriman baru, tetapi juga oleh intensitas peninjauan yang diperlukan untuk memverifikasi tiap paper
- Agar adil, di banyak bidang akademik, mulai dari tingkat magister ke atas, penilaian itu sendiri sudah memerlukan keahlian tingkat tinggi
  Di bawah level itu, sering kali hampir mustahil membedakan mana yang benar dan mana yang hanya tampak benar
Saat menggunakan AI, saya merasa sedang melakukan cargo-cult terhadap pemahaman
Saya mereproduksi permukaan dari sesuatu yang tampak dipahami, sambil merampas dari diri sendiri waktu dan usaha yang sebenarnya diperlukan untuk benar-benar memahami
- Ini sesuatu yang selalu saya pikirkan ketika melihat rekan kerja saya; dia hampir selalu membayangkan skenario pemakaian AI sebagai fantasi Jarvis pribadi
  Dia percaya bahwa jika Claude diberi Snowflake Cortex, kode terintegrasi, dokumen, dan tiket Jira, maka kita bisa menanyakan apa pun dan semuanya akan jadi jauh lebih baik
  Tetapi obsesi itu tidak menghasilkan output besar, dan beberapa kali dia mengalami sendiri secara langsung betapa tidak sempurnanya teknologi ini
  Semua orang bicara tentang agentic workflow dan visi wiki internal raksasa, tetapi saya justru terus menghasilkan output dengan AI untuk cukup banyak mempercepat pengiriman sambil tidak menghabiskan waktu pada petualangan besar semacam itu
  Ada juga ironi bahwa orang-orang yang dulu mengkritik adopsi chatbot di perusahaan kini justru membakar token untuk mengumpulkan triliunan file .md dan file skill demi membuat chatbot versi mereka sendiri
  Yang benar-benar saya khawatirkan adalah pengetahuan nyata di tingkat institusi akan hilang lewat berbagai jalan pintas ini
  Meminta contoh sederhana atau bertanya untuk mempelajari konsep masih oke, tetapi prompt yang meminta sekaligus meninjau tool dan infrastruktur saat ini, meningkatkan kecepatan deployment 5x, melakukan riset web, lalu menyusun usulan adopsi organisasi dan analisis biaya-manfaat lima tahun, justru melemahkan manusia itu sendiri
  Sekarang orang-orang melempar proposal buatan Claude ke mana-mana, sambil melewati proses menggali sedikit sendiri atau mengeksplorasi bersama arsitek maupun engineer senior
  Akibatnya mereka memahami banyak hal hanya secara dangkal, tidak bisa menjelaskan dengan baik ketika digali lebih dalam, dan mempercayai jawaban dari AI seperti strategi final yang tidak ingin mereka tantang
  Kesempatan belajar dari orang yang lebih berpengalaman pun tidak lagi dipandang sebagai pengalaman belajar
  Pada akhirnya saya tetap percaya bahwa otak manusia sendiri masih merupakan salah satu teknologi paling menakjubkan, dan saya jadi bertanya kenapa kita justru berusaha membangun perpustakaan buatan raksasa ini di luar diri kita
- Saya rasa ini bukan sekadar cargo cult pemahaman, melainkan cargo cult dari sudut pandang manajer
  Seperti yang dikatakan Bret Devereaux dalam kritik Game Of Thrones, pandangan dunia dari sudut elite hanya terasa masuk akal bagi elite dan terdengar seperti utopia
  Gelembung yang terlepas dari kerja nyata seperti ini pada akhirnya akan pecah besar, dan ketika massa yang kehilangan pekerjaan karena AI berteriak bahwa mereka bahkan tak bisa makan roti, bila jawabannya seperti menyuruh mereka makan kue, mudah membayangkan reaksi balik setingkat Revolusi Prancis
- Sebaliknya, AI memang bisa melakukan sesuatu untuk saya meski saya tidak memahaminya
  Tetapi sebagai alat untuk membantu saat berusaha memahami secara mendalam, justru jarang ada yang sebaik AI
Pada akhirnya, memahami sesuatu hampir sama dengan mengerjakannya sendiri
Tidak masalah jika kita belum paham, tetapi dalam situasi itu, ada atau tidak ada indikator pengganti, pada akhirnya kita hanya bisa mempercayai pemahaman orang lain
Arah untuk bekerja lebih sedikit dan lebih banyak percaya mungkin bisa berjalan sampai titik tertentu, tetapi jika melewati itu, pekerjaan di masa depan menjadi rentan
simulacrum benar-benar kata yang bagus
- Konsep Simulacrum berasal dari Baudrillard, dan esainya Simulation and Simulacra cukup membantu untuk memahami mengapa ekonomi modern terasa seaneh ini
Karena itu tampaknya manajer menengah menjadi penganut pertama supremasi LLM
Manajer menengah memiliki banyak insentif untuk terus mengabstraksikan kerja pengetahuan, bukan keterampilan nyata dari perannya, dan lapisan abstraksi itu tampaknya sangat mudah dideskripsikan dalam embedding space
Kode AI sering terlihat lebih buruk daripada kenyataannya
Ia terlalu bertele-tele, membingungkan, dan penuh fallback, sehingga ketika masalah muncul ia mengalir melewati banyak try/catch dan mengirim stack trace ke tempat yang tidak relevan
Meski begitu, jika dilihat dari fungsi murninya saja, saya sering mendapati ia berjalan lebih baik daripada kode buatan manusia yang secara lahiriah mirip
- Tetap saja, kode yang digambarkan seperti itu tetap merupakan kode buruk
  Karena itu sulit dipahami baik oleh manusia maupun oleh LLM
Saya berharap ada lebih banyak gaya tulisan blog seperti ini
Panjangnya pas, pesannya tersampaikan dengan baik, dan ada unsur naratifnya
Sekarang terlalu banyak AI slop buatan LLM sepanjang novel, jadi tulisan seperti ini terasa makin menyenangkan
Bagi banyak orang di industri ini, ini terlihat sebagai arus yang cukup jelas
Masalahnya, uang yang dipertaruhkan terlalu besar, sehingga para pemain besar terus mendorong apa yang mereka inginkan
Ini membuat saya membayangkan bahwa partikel-partikel subatom ternyata sebenarnya adalah sekumpulan semesta, dan sifat-sifatnya mencerminkan jejak para makhluk yang dulu menguasai semesta itu serta otomatisasi yang terus berjalan setelah mereka lenyap
Semacam mesin otomatis yang memanen entropi sambil terus menggandakan dirinya sendiri
Kita sekarang sedang menciptakan sesuatu yang lebih besar dari kita, dan pada suatu titik mungkin akan mencapai titik yang tak bisa dipulihkan kembali
- Saya tidak sepenuhnya memahaminya, tetapi bayangan itu menarik
  Itu membuat saya membayangkan semesta dan peradaban subatom yang tak terhitung jumlahnya bangkit dan runtuh, bahkan dimangsa oleh teknologi pseudo-kecerdasan yang otonom, lalu secara makro semua itu tampak sebagai perilaku partikel
  Sekarang kita pun pada akhirnya sedang menciptakan satu partikel, dan pilihan kolektif kita mungkin memberi pengaruh yang sangat kecil namun bermakna pada semesta tingkat atas tempat kita berada
Output seseorang selalu menjadi input bagi orang lain
Jika kuantitas diperbanyak dengan LLM, orang berikutnya juga akan mem-parsing itu dengan LLM untuk membuat output mereka sendiri
Rantai itu terus berlanjut, lalu ketika konsumen terakhir mengajukan keluhan, tak seorang pun lagi bisa menunjukkan dengan pasti sebenarnya di mana letak kesalahannya
- Tentu saja, pada saat itu mereka akan bilang bahwa pengguna terakhir menggunakannya dengan salah
  Karena hanya konsumen terakhir yang terlihat, sementara sisanya bersembunyi di balik tujuh lapis proxy

Simulakrum Kerja Pengetahuan

Struktur dan hasil yang diubah oleh LLM

Bacaan terkait

1 komentar

Pendapat Hacker News