1 poin oleh GN⁺ 9 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Kualitas kerja pengetahuan sulit diverifikasi tanpa mengerjakan ulang hasilnya secara langsung, sehingga orang cenderung bergantung pada indikator pengganti seperti tingkat kerapian yang terlihat ketimbang akurasi sebenarnya
  • Jika terlihat cacat di permukaan seperti kesalahan tanggal atau masalah label grafik, keseluruhan hasil mudah dibuang meski tidak terkait dengan kesimpulan utama, dan standar penilaian pun condong ke tampilan luar yang murah untuk diperiksa alih-alih refleksi terhadap realitas
  • LLM sangat pandai meniru gaya bahasa dan format yang meyakinkan meski tidak mereproduksi kualitas kerja yang sesungguhnya, sehingga prosedur seremonial dalam laporan atau kode tetap ada, tetapi kualitas di bawahnya bisa kosong
  • Jika standar yang diukur adalah kualitas permukaan, maka menjadi masuk akal bila sebagian besar output ditulis oleh LLM, dan LLM itu sendiri juga dioptimalkan untuk output yang terlihat berkualitas tinggi alih-alih kebenaran atau kegunaan
  • Akibatnya, sistem bernilai puluhan miliar dolar lebih mudah dipakai untuk meniru pekerjaan daripada melakukan pekerjaan yang nyata, dan alur sekadar meninjau cepat lalu memberi LGTM berlanjut sebagai bentuk otomatisasi dari Goodhart's law

Struktur dan hasil yang diubah oleh LLM

  • LLM sangat pandai meniru gaya bahasa dan format yang meyakinkan meski tidak mereproduksi kualitas kerja yang sesungguhnya
  • Laporan analisis pasar yang ditulis dengan ChatGPT bisa terbaca dan terlihat seperti hasil dari firma konsultansi papan atas
  • Seorang software engineer dapat menghasilkan ribuan baris kode yang sekilas tampak berkualitas tinggi, lalu rekan kerjanya menjalankan code review dengan AI lagi untuk menemukan dan memperbaiki masalah
  • Akibatnya, prosedur seremonial pekerjaan tetap dipertahankan, tetapi kualitas nyata di bawahnya bisa kosong
  • Jika standar yang diukur adalah kualitas permukaan, pekerja akan rasional bertindak agar terlihat baik menurut standar itu, sehingga sebagian besar output akhirnya ditulis oleh LLM
  • Pelatihan LLM juga disetel bukan berdasarkan apakah jawabannya benar atau berguna, melainkan apakah jawaban itu tampak seperti sesuatu yang mungkin muncul dalam korpus pelatihan atau memuaskan penilai RLHF
  • Pada akhirnya, LLM itu sendiri dioptimalkan untuk menghasilkan output yang tampak berkualitas tinggi
  • Sistem yang dibuat dengan biaya puluhan miliar dolar pun digunakan untuk melakukan tiruan pekerjaan ketimbang pekerjaan yang nyata
  • Perusahaan-perusahaan akhirnya berada dalam situasi saling bersaing soal siapa yang memakai token lebih banyak
  • Semakin banyak output LLM yang dihasilkan pekerja, semakin sedikit waktu yang tersisa untuk meninjau output itu secara mendalam
  • Yang tersisa hanyalah alur meninjau sekilas, memberi LGTM, lalu membuka sesi Claude Code berikutnya

1 komentar

 
GN⁺ 9 jam lalu
Pendapat Hacker News
  • Saya tidak sepenuhnya setuju baik dengan klaim dalam tulisan bahwa salah ketik atau kesalahan kecil dulu mudah dipakai sebagai indikator pengganti untuk menilai kualitas kerja pengetahuan manusia, maupun dengan klaim bahwa masalahnya sekarang adalah AI tidak memiliki petunjuk semacam itu
    Dari sisi konseptual banyak juga hasil kerja manusia yang buruk, tetapi faktanya benar dan bentuknya rapi
    Setelah 10 tahun bekerja dengan klien perusahaan, saya sama sekali tidak merasa era pre-LLM adalah masa keemasan kerja pengetahuan berkualitas tinggi; saat itu pun sudah melimpah berbagai barang rongsokan seperti simulakrum kerja pengetahuan yang berfungsi

    • Bagi saya masalah yang lebih besar adalah hilangnya keterjelasan manusiawi untuk menjelaskan kesalahan
      Hasil buruk dari manusia biasanya punya penyebab, seperti ketidaktahuan, tekanan waktu, atau tujuan yang egois, dan penyebab itu cukup konsisten
      Kita bisa menangkap pola kepercayaan, seperti intern yang hati-hati tetapi belum paham, atau senior yang sangat berpengetahuan tetapi kurang tidur sehingga melewatkan hal yang jelas
      Tetapi AI bisa sekaligus mengimplementasikan paper dengan sempurna lalu di eksekusi yang sama melakukan kesalahan setingkat mahasiswa baru, sehingga muncul situasi yang tidak intuitif: kita harus melakukan review dengan asumsi ketidakmampuan total terhadap mesin yang juga menunjukkan kompetensi ekstrem
    • Era pre-LLM memang bukan masa keemasan kualitas, tetapi benar bahwa LLM menghapus satu penanda lain yang dulu membantu menyaring pekerjaan omong kosong yang dibuat tergesa-gesa
    • Pada dasarnya ini bukan deteksi positif, melainkan filter negatif
      Jika ada salah ketik atau kesalahan fakta mendasar, kita bisa langsung menggugurkannya, tetapi ketiadaan hal-hal itu tidak berarti kualitasnya tinggi
      Biasanya pemeriksaan seperti ini hanya gerbang pertama, bukan keseluruhannya, dan setelah melewati gerbang itu kita jadi lebih mudah melihat masalah yang sebenarnya
      Mirip seperti di kode, sebelum reasoning kita lebih dulu merapikan lint dan style
    • Kita mungkin bisa menangkap frasa khas AI yang mencolok, tetapi bisa saja melewatkan 99% sisanya dari teks buatan AI yang tidak punya penanda apa pun
      Namun karena kita sendiri tidak tahu bahwa 99% itu dibuat AI, kita jadi mudah salah mengira bahwa karena pola yang kita sadari tertangkap 100%, berarti semua tulisan AI pasti sudah tersaring
    • Saya rasa ini tidak terlalu penting secara fundamental
      Banyak kerja pengetahuan pada dasarnya memang merupakan pengganti bagi sesuatu yang lain
      Kualitas yang bebas salah ketik dan rapi formatnya, seperti kemeja putih yang disetrika dan dasi, sering kali terutama merupakan sinyal penghormatan, dan ada banyak dokumen panjang yang pada praktiknya tidak dibaca mendalam oleh siapa pun
      Pada akhirnya itu adalah cara simbolis untuk menunjukkan pengorbanan dan kepatuhan, dan LLM sedang menghapus sistem sinyal tersebut
      Jika dulu pun kualitas isi sebenarnya tidak benar-benar diperhatikan, berarti dari awal isi itu memang tidak terlalu penting
  • Di dunia akademik, masalah biaya peninjauan AI sudah mulai terlihat, tetapi agak berbeda dari alasan yang disebut di artikel
    Intinya bukan sekadar hilangnya penanda pekerjaan murahan, melainkan biaya untuk meninjau dengan teliti hasil kerja yang dibuat dengan AI sudah menjadi terlalu besar untuk ditanggung manusia saja
    Misalnya, jurnal ekonomi bisa memiliki lampiran sampai ratusan halaman, sementara waktu yang dapat dibaca manusia terbatas
    Saya penasaran apakah jurnal di bidang lain juga tertekan bukan hanya oleh kenaikan jumlah kiriman baru, tetapi juga oleh intensitas peninjauan yang diperlukan untuk memverifikasi tiap paper

    • Agar adil, di banyak bidang akademik, mulai dari tingkat magister ke atas, penilaian itu sendiri sudah memerlukan keahlian tingkat tinggi
      Di bawah level itu, sering kali hampir mustahil membedakan mana yang benar dan mana yang hanya tampak benar
  • Saat menggunakan AI, saya merasa sedang melakukan cargo-cult terhadap pemahaman
    Saya mereproduksi permukaan dari sesuatu yang tampak dipahami, sambil merampas dari diri sendiri waktu dan usaha yang sebenarnya diperlukan untuk benar-benar memahami

    • Ini sesuatu yang selalu saya pikirkan ketika melihat rekan kerja saya; dia hampir selalu membayangkan skenario pemakaian AI sebagai fantasi Jarvis pribadi
      Dia percaya bahwa jika Claude diberi Snowflake Cortex, kode terintegrasi, dokumen, dan tiket Jira, maka kita bisa menanyakan apa pun dan semuanya akan jadi jauh lebih baik
      Tetapi obsesi itu tidak menghasilkan output besar, dan beberapa kali dia mengalami sendiri secara langsung betapa tidak sempurnanya teknologi ini
      Semua orang bicara tentang agentic workflow dan visi wiki internal raksasa, tetapi saya justru terus menghasilkan output dengan AI untuk cukup banyak mempercepat pengiriman sambil tidak menghabiskan waktu pada petualangan besar semacam itu
      Ada juga ironi bahwa orang-orang yang dulu mengkritik adopsi chatbot di perusahaan kini justru membakar token untuk mengumpulkan triliunan file .md dan file skill demi membuat chatbot versi mereka sendiri
      Yang benar-benar saya khawatirkan adalah pengetahuan nyata di tingkat institusi akan hilang lewat berbagai jalan pintas ini
      Meminta contoh sederhana atau bertanya untuk mempelajari konsep masih oke, tetapi prompt yang meminta sekaligus meninjau tool dan infrastruktur saat ini, meningkatkan kecepatan deployment 5x, melakukan riset web, lalu menyusun usulan adopsi organisasi dan analisis biaya-manfaat lima tahun, justru melemahkan manusia itu sendiri
      Sekarang orang-orang melempar proposal buatan Claude ke mana-mana, sambil melewati proses menggali sedikit sendiri atau mengeksplorasi bersama arsitek maupun engineer senior
      Akibatnya mereka memahami banyak hal hanya secara dangkal, tidak bisa menjelaskan dengan baik ketika digali lebih dalam, dan mempercayai jawaban dari AI seperti strategi final yang tidak ingin mereka tantang
      Kesempatan belajar dari orang yang lebih berpengalaman pun tidak lagi dipandang sebagai pengalaman belajar
      Pada akhirnya saya tetap percaya bahwa otak manusia sendiri masih merupakan salah satu teknologi paling menakjubkan, dan saya jadi bertanya kenapa kita justru berusaha membangun perpustakaan buatan raksasa ini di luar diri kita
    • Saya rasa ini bukan sekadar cargo cult pemahaman, melainkan cargo cult dari sudut pandang manajer
      Seperti yang dikatakan Bret Devereaux dalam kritik Game Of Thrones, pandangan dunia dari sudut elite hanya terasa masuk akal bagi elite dan terdengar seperti utopia
      Gelembung yang terlepas dari kerja nyata seperti ini pada akhirnya akan pecah besar, dan ketika massa yang kehilangan pekerjaan karena AI berteriak bahwa mereka bahkan tak bisa makan roti, bila jawabannya seperti menyuruh mereka makan kue, mudah membayangkan reaksi balik setingkat Revolusi Prancis
    • Sebaliknya, AI memang bisa melakukan sesuatu untuk saya meski saya tidak memahaminya
      Tetapi sebagai alat untuk membantu saat berusaha memahami secara mendalam, justru jarang ada yang sebaik AI
  • Pada akhirnya, memahami sesuatu hampir sama dengan mengerjakannya sendiri
    Tidak masalah jika kita belum paham, tetapi dalam situasi itu, ada atau tidak ada indikator pengganti, pada akhirnya kita hanya bisa mempercayai pemahaman orang lain
    Arah untuk bekerja lebih sedikit dan lebih banyak percaya mungkin bisa berjalan sampai titik tertentu, tetapi jika melewati itu, pekerjaan di masa depan menjadi rentan
    simulacrum benar-benar kata yang bagus

    • Konsep Simulacrum berasal dari Baudrillard, dan esainya Simulation and Simulacra cukup membantu untuk memahami mengapa ekonomi modern terasa seaneh ini
  • Karena itu tampaknya manajer menengah menjadi penganut pertama supremasi LLM
    Manajer menengah memiliki banyak insentif untuk terus mengabstraksikan kerja pengetahuan, bukan keterampilan nyata dari perannya, dan lapisan abstraksi itu tampaknya sangat mudah dideskripsikan dalam embedding space

  • Kode AI sering terlihat lebih buruk daripada kenyataannya
    Ia terlalu bertele-tele, membingungkan, dan penuh fallback, sehingga ketika masalah muncul ia mengalir melewati banyak try/catch dan mengirim stack trace ke tempat yang tidak relevan
    Meski begitu, jika dilihat dari fungsi murninya saja, saya sering mendapati ia berjalan lebih baik daripada kode buatan manusia yang secara lahiriah mirip

    • Tetap saja, kode yang digambarkan seperti itu tetap merupakan kode buruk
      Karena itu sulit dipahami baik oleh manusia maupun oleh LLM
  • Saya berharap ada lebih banyak gaya tulisan blog seperti ini
    Panjangnya pas, pesannya tersampaikan dengan baik, dan ada unsur naratifnya
    Sekarang terlalu banyak AI slop buatan LLM sepanjang novel, jadi tulisan seperti ini terasa makin menyenangkan

  • Bagi banyak orang di industri ini, ini terlihat sebagai arus yang cukup jelas
    Masalahnya, uang yang dipertaruhkan terlalu besar, sehingga para pemain besar terus mendorong apa yang mereka inginkan

  • Ini membuat saya membayangkan bahwa partikel-partikel subatom ternyata sebenarnya adalah sekumpulan semesta, dan sifat-sifatnya mencerminkan jejak para makhluk yang dulu menguasai semesta itu serta otomatisasi yang terus berjalan setelah mereka lenyap
    Semacam mesin otomatis yang memanen entropi sambil terus menggandakan dirinya sendiri
    Kita sekarang sedang menciptakan sesuatu yang lebih besar dari kita, dan pada suatu titik mungkin akan mencapai titik yang tak bisa dipulihkan kembali

    • Saya tidak sepenuhnya memahaminya, tetapi bayangan itu menarik
      Itu membuat saya membayangkan semesta dan peradaban subatom yang tak terhitung jumlahnya bangkit dan runtuh, bahkan dimangsa oleh teknologi pseudo-kecerdasan yang otonom, lalu secara makro semua itu tampak sebagai perilaku partikel
      Sekarang kita pun pada akhirnya sedang menciptakan satu partikel, dan pilihan kolektif kita mungkin memberi pengaruh yang sangat kecil namun bermakna pada semesta tingkat atas tempat kita berada
  • Output seseorang selalu menjadi input bagi orang lain
    Jika kuantitas diperbanyak dengan LLM, orang berikutnya juga akan mem-parsing itu dengan LLM untuk membuat output mereka sendiri
    Rantai itu terus berlanjut, lalu ketika konsumen terakhir mengajukan keluhan, tak seorang pun lagi bisa menunjukkan dengan pasti sebenarnya di mana letak kesalahannya

    • Tentu saja, pada saat itu mereka akan bilang bahwa pengguna terakhir menggunakannya dengan salah
      Karena hanya konsumen terakhir yang terlihat, sementara sisanya bersembunyi di balik tujuh lapis proxy