Segala Hal di Sekitar LLM Masih Terasa seperti Sihir dan Angan-Angan

(dmitriid.com)

1 poin oleh GN⁺ 2025-07-06 | 1 komentar | Bagikan ke WhatsApp

Kisah sukses alat LLM sering kali tidak menyertakan kriteria perbandingan seperti kondisi proyek, tingkat keahlian pengguna, dan jumlah pekerjaan lanjutan, sehingga sulit menilai kegunaan nyatanya
Dalam pembahasan MCP, penggunaan alat, dan agen, sikap yang menganggap pengkritik sebagai “orang yang belum melihat cukup dalam” mirip dengan perdebatan crypto di masa lalu
LLM dan agen bersifat non-deterministik, sehingga cara yang berhasil untuk masalah yang sama saat ini belum tentu tetap berhasil satu menit kemudian
Pernyataan terkenal bahwa Claude Code “menangani bug legacy” juga mendapat 1,8 ribu suka dan 204 repost tanpa menyertakan skala codebase, jenis bug, atau cara pengelolaannya
Bahkan dari sudut pandang orang yang benar-benar telah memakai berbagai alat, LLM lebih mirip mesin statistik non-deterministik; meski saat berhasil terasa seperti sihir, sulit untuk menyebutnya sihir ataupun rekayasa secara pasti

Mengapa sulit membandingkan pengalaman memakai LLM

Pengalaman positif dan negatif terhadap alat LLM biasanya dibagikan sebagai potongan-potongan terpisah, sehingga sulit memastikan apakah yang dibicarakan benar-benar dalam kondisi yang sama
Sifat proyek dan codebase sering kali tidak disebutkan
- Tidak jelas apakah itu greenfield, codebase yang sudah matang, atau codebase proprietari
Keahlian pengguna juga sulit dibandingkan secara sederhana
- Tidak diketahui apakah keahlian itu diterapkan pada domain, codebase, atau bahasa yang sama
Seberapa banyak pekerjaan tambahan seperti review, revisi, deployment, dan penyelesaian akhir yang dibutuhkan juga sangat memengaruhi penilaian
Bahkan jika satu orang memberikan seluruh informasi itu, perbandingan antar pengalaman tetap terbatas jika kondisi orang lain tidak diketahui
Di atas itu semua, ada non-determinisme dari sistem dan agen LLM
- Untuk masalah yang sama, cara yang berhasil sekarang belum tentu tetap berhasil satu menit kemudian
- Pengalaman seorang insinyur senior di proyek React greenfield dan pengalaman seorang desainer non-developer di codebase proprietari OCaml menjadi makin sulit dibandingkan ketika model dan agennya berbeda
- Bahkan dengan model dan agen yang sama, hasil tiap eksekusi bisa berbeda, sehingga perbandingan sederhana menjadi sulit

Kesenjangan antara wacana yang terlalu panas dan penggunaan alat yang nyata

Reaksi yang memperlakukan pengkritik LLM sebagai “orang yang belum cukup melihat MCP dan alat” menunjukkan panasnya perdebatan AI
Contoh dari “industry leaders” yang muncul adalah pernyataan Steve Yegge tentang Claude Code
- Isinya bahwa Claude Code menangani bug legacy di codebase lama secara agresif selama beberapa hari
- Ada ungkapan bahwa Claude Code tetap melanjutkan tanpa harus memilih konteks secara langsung
- Disebut juga bahwa selama persetujuan bank terus berjalan, perbaikan bug berlanjut hingga deployment ke production dan memeriksa log pengguna
Namun bahkan dalam contoh ini, informasi yang dibutuhkan untuk menilai tetap tidak ada
- Skala codebase tidak diketahui
- Jenis bug-nya tidak diketahui
- Tidak jelas apakah ada pengelolaan tambahan
- Bahasa pemrograman dan framework-nya juga tidak terlihat
Meski begitu, pernyataan tersebut mendapat 1,8 ribu suka dan 204 repost
Kaum skeptis dan pengkritik juga bukan berarti tidak memakai alat-alat ini
- Ada side project yang seluruh desainnya dibuat dengan v0 milik Vercel
- Dalam keadaan tidak memahami Swift, dibuat aplikasi monitoring SwiftUI dengan Claude Code
- Poster acara dibuat dengan Midjourney
- Pernah melakukan vibe-coding untuk MCP server dengan Elixir, tetapi tidak memakai phoenix.new
Pengalaman penggunaan nyata diringkas sebagai “hanya bekerja 50% dari waktu dan hanya 50% saja”
LLM adalah mesin statistik non-deterministik, dan walaupun saat bekerja bisa terasa seperti sihir, itu bukanlah sihir maupun rekayasa itu sendiri
Wacana tentang LLM cenderung memperlakukannya hanya sebagai salah satu dari dua hal: sihir atau rekayasa

1 komentar

GN⁺ 2025-07-06

Komentar Hacker News

Saya frustrasi karena manajemen di tempat kerja mendengar hal-hal seperti peningkatan produktivitas 10x. Sebagian klaim seperti itu juga datang dari para early adopter internal.
Namun ekspektasinya jadi terlalu tinggi. Salah satu alasannya adalah Hukum Amdahl: dalam praktiknya, saya menghabiskan jauh lebih banyak waktu untuk berpikir dan berkomunikasi dengan orang lain yang menjadi pelanggan kode saya daripada untuk coding. Bahkan jika coding menjadi 10x lebih cepat, sebagian besar pekerjaan tidak ikut begitu, sehingga produktivitas keseluruhan hanya membaik sekitar 10–15%. Itu bukan sesuatu yang bisa diabaikan, tetapi jelas bukan 10x.
- Mungkin karena pekerjaan saya sekarang sangat bernuansa riset dan pengembangan, tetapi dalam kasus saya LLM meningkatkan produktivitas pada bagian berpikir sama besarnya dengan pada coding. Untuk komunikasi, sejauh ini saya masih menanganinya sendiri dengan baik.
  Rasanya menggunakan LLM untuk pekerjaan berpikir mirip dengan ketika saya mempelajari pencarian web sekitar 20 tahun lalu. Mesin pencari memungkinkan akses ke informasi ketika kita tahu apa yang dicari; sekarang LLM membantu mencari tahu apa yang seharusnya dicari sejak awal, dan bahkan melakukan pencariannya. Pekerjaan yang dulu saya kategorikan sulit karena butuh banyak usaha dan penuh ketidakpastian kini menjadi sepele.
  Saat ini sekitar 1/3 pencarian web saya dilakukan dengan ChatGPT o3, dan sekarang sulit untuk melepaskannya.
  Ada juga efek psikologis: ia membantu merapikan ide yang belum matang dan menjadi semacam rubber duck, sehingga banyak pekerjaan terasa jauh lebih ringan, dan itu saja sudah membuat perbedaan besar.
- Perusahaan kami juga mirip; sejauh ini semua klaim produktivitas dari early adopter internal yang saya lihat didasarkan pada cara mengukur produktivitas yang sangat sempit dan perhitungan yang, paling halusnya, mencurigakan.
- Itu mungkin karena LLM adalah akselerator yang jauh lebih besar bagi developer senior daripada developer junior. Junior belum benar-benar tahu apa yang baik dan apa yang buruk.
  Berikan alur kerja LLM yang dituning dengan baik kepada satu senior, dan tidak akan mengejutkan jika ia menjadi seproduktif 10 junior pada masa sebelum LLM. Bahkan developer yang buruk bisa menghabiskan waktu senior dan membuat produktivitas menjadi negatif, jadi dalam kasus seperti itu peningkatannya mendekati tak terbatas.
  Junior yang cukup baik pun umumnya terikat pada pekerjaan repetitif tingkat rendah, dan LLM sudah bisa melakukan pekerjaan semacam itu dengan lebih baik.
  Jadi saya paham mengapa orang mengatakan pekerjaan benar-benar bisa hilang.
- Jika biaya alat LLM membuat biaya perekrutan naik 10–15%, maka peningkatan produktivitas 10–15% bukanlah sesuatu yang “tidak bisa diabaikan”, melainkan hal yang harus dihitung. Kita harus selalu melihat biaya produksi total, bukan hanya throughput.
- Ini hanya satu gelombang hype teknologi lagi. Kenyataannya mungkin berada di suatu tempat antara kehancuran total dan utopia tak terbatas, tetapi kemungkinan besar bukan keduanya.
  Gelombang AI ini mengingatkan saya pada gerakan awal 2000-an untuk melakukan outsourcing besar-besaran engineer software ke luar negeri. Ada ekspektasi luar biasa di kalangan manajemen, dan di atas kertas terlihat masuk akal, tetapi sebagian besar berakhir dengan kegagalan besar dan hampir semua pekerjaan kembali ke AS.
  Banyak orang mengabaikan bahwa engineer software melakukan banyak pekerjaan kecil yang merekatkan keseluruhan sistem. AI masih sangat kurang di bagian seperti itu. Bukan berarti orang asing tidak memilikinya, tetapi hambatan bahasa, perbedaan zona waktu, perbedaan budaya, dan sebagainya memunculkan masalah serupa. Kualitas kode dan kemudahan pemeliharaan anjlok, dan banyak hasil kerja vendor outsourcing harus dibuang.
  Di codebase yang saya tangani pun residu AI sudah mulai menumpuk. Sangat sulit menangkap hal-hal seperti ini dalam code review ketika sudah lolos, karena jika dilihat sebagai diff, semuanya tampak masuk akal. Masalahnya adalah duplikasi kode yang tidak terlihat dan abstraksi aneh yang sama sekali tidak masuk akal jika dilihat pada level yang lebih tinggi.
Saya termasuk golongan yang persis dikeluhkan oleh penulis. Sejak masa ketika hanya ada ChatGPT dan performanya juga tidak terlalu bagus, saya sudah merilis produk greenfield yang tidak sepele. Awalnya saya memakai Claude sambil copy-paste antara web chat dan XCode, lalu kemudian menemukan Cursor
Cursor memang meninggalkan banyak error build yang menyebalkan, tetapi produktivitas tetap setidaknya 3 kali lipat. Sekarang, setelah agent makin bagus dan Claude 4 keluar, saya hampir tidak menulis kode sendiri, dan saya juga tidak membencinya. Saya lebih condong ke peran arsitek/manajer, dan bila perlu mengarahkan agent dengan keahlian khusus
Sudah beberapa bulan sejak saya masuk ke startup yang menuntut, tetapi saya belum menulis satu baris kode pun dengan tangan. Sebelum membuat PR, saya mengaudit semuanya sendiri dan mengujinya secara menyeluruh, tetapi Cursor + Sonnet benar-benar luar biasa kuat di codebase itu. Bukan metrik tak bermakna seperti jumlah baris kode; saya yakin saya adalah karyawan paling produktif karena, bahkan ketika para pakar codebase tersebut membawa bug yang aneh, saya yang baru masuk ke domain itu bisa mempersempit masalahnya dalam 5–30 menit
Bahkan pekerjaan sebagai developer frontend, yang sepanjang karier semula saya hindari, berkat Claude membuat saya sampai harus menarik diri setelah memperbaiki masalah-masalah kecil yang terlihat. Ini bukan vibe coding, melainkan ada prosedur investigasi, perencanaan, eksplorasi hati-hati, dan proses menyiapkan agent agar berhasil. Pengetahuan domain juga diperlukan. Namun saya benar-benar heran bagaimana ada orang yang tidak bisa mendapatkan utilitas yang sama, dan rasanya tulisan seperti ini muncul dua kali setiap minggu
- Tapi barusan Anda justru mengonfirmasi semua klaim dalam tulisan blog itu
  Anda menceritakan hal yang sulit dipercaya, tetapi tidak membagikan satu pun bukti. Bahkan Anda membuat akun sekali pakai agar identitas dan klaimnya mustahil diverifikasi
  Jadi rasanya seperti lelucon
- Saya juga punya pengalaman serupa, hanya saja cara kerjanya mungkin sedikit berbeda. Saya mahasiswa doktoral. Saya sangat skeptis terhadap LLM, tetapi Claude Code benar-benar mengubah cara saya bekerja
  Meski begitu, kebutuhan kurasi tidak hilang. Itu tetap menjadi tanggung jawab saya, dan juga bagian dari hal yang harus diajarkan dalam program doktoral. Kemampuan untuk menangani secara tepat dan reflektif mengapa melakukan X, apa yang ingin ditunjukkan dengan Y, serta memecah setiap langkah dan menjelaskannya kepada orang lain adalah soft skill yang luar biasa. Agent tidak memiliki model dunia yang berkelanjutan, dan meski memakai kompresi cerdas, mereka cepat melupakan tujuan interaksi, sehingga kemampuan itu kini makin penting
  Jika saya berada dalam kondisi berkomunikasi dengan tepat, saya bisa memakai Claude Code untuk mengorganisasi pekerjaan komputasi dengan cara yang sebelumnya tidak mungkin
  Jika Anda peduli pada kualitas, ini tidak lebih mudah daripada pemrograman, tetapi berbeda, dan menuntut idiom yang berbeda
- Menurut saya kualitas kode yang dihasilkan LLM cukup buruk. Setelah berkali-kali mengulang dan memperbaikinya, sering kali lebih cepat kalau saya melakukannya sendiri
  Agent benar-benar berguna untuk refactoring mekanis berskala besar. Alih-alih memikirkan makro vim yang sempurna atau skrip penulisan ulang AST, saya menyerahkannya kepada agent
- Anda bilang mengaudit semuanya sendiri dan mengujinya secara menyeluruh sebelum membuat PR, tetapi LLM tidak menyimpan keseluruhan proyek di kepalanya dan juga sering berhalusinasi. Bagaimana Anda bisa mengaudit kode dari sumber yang tidak dapat dipercaya secepat itu?
  Rata-rata seberapa panjang prompt-nya, dan apakah unit test juga ditulis oleh LLM?
- Saya memakai Claude Code beberapa jam sehari, dan dia ini pembohong. Memakainya dengan percaya berarti masing-masing menanggung risikonya sendiri
  Secara pribadi, saya rasa pengalaman itu dibungkus terlalu indah
Secara pribadi saya kurang memahami hal ini
Sejumlah besar pekerjaan di industri jasa di seluruh dunia pada dasarnya mendekati pemindahan data manual dari satu lembar Excel yang dikerjakan manusia ke lembar Excel lain, atau dari CRM/email ke Excel. Hampir semua perusahaan besar memiliki ratusan hingga ribuan karyawan tetap yang melakukan pekerjaan semacam ini setiap hari, dan banyak di antaranya dialihdayakan. Menurut saya, untuk setiap 1 software engineer, ada sekitar 100 orang yang mengerjakan pipeline data manual seperti ini
Jadi, agar LLM bisa menciptakan nilai yang sangat besar, ia tidak perlu sangat mahir dalam OCaml. Cukup sedikit lebih baik daripada manusia di Excel. Titik di mana MCP benar-benar membantu adalah kemampuannya menghubungkan sistem-sistem seperti ini dengan mudah. Banyak kesalahan dalam pekerjaan seperti ini muncul karena mencoba memasukkan seluruh pekerjaan ke dalam konteks sekaligus. Jika kita bisa mengambil email dengan MCP, mengekstrak data, lalu memasukkannya baris demi baris ke CRM dengan MCP lagi, berdasarkan pengalaman saya tingkat halusinasinya sangat rendah. Setidaknya setara dengan staf junior yang terlalu banyak bekerja
Mungkin inti tulisan itu juga memang ini, tetapi dalam use case seperti ini, nondeterminisme bukan masalah. Karena orang-orang yang terlibat pun tidak deterministik. Kita bisa membuat sistem dan proses yang memaksakan kualitas pada sistem nondeterministik, misalnya sistem manusia
Terakhir, saya mengikuti kripto maupun LLM dari dekat, dan dari sisi utilitas serta adopsi, keduanya tidak terlihat mirip. Yang paling mendekati adalah adopsi smartphone. Saat iPhone pertama kali keluar, banyak teman nonteknis saya bilang mereka tidak butuh smartphone, tetapi dalam beberapa tahun semuanya memilikinya. LLM juga serupa. Sekarang hampir semua teman nonteknis saya menggunakannya untuk sangat beragam keperluan
- Membandingkannya dengan kripto adalah kritik yang malas. Tidak terlalu layak untuk diverifikasi. Itu hanya upaya membawa dan mendaur ulang sentimen negatif terhadap kripto. Kedua teknologi itu tidak saling terkait, sehingga tidak ada alasan teknis yang jelas untuk membandingkan dan menilainya
  Namun, reaksi sosialnya memang merupakan arus pemujaan teknologi, dan wajar jika banyak engineer yang sudah lama mengalaminya merasa lelah. Klaim yang tidak realistis mudah ditemukan, dan yang terburuk datang dari para CEO perusahaan AI
  Pada saat yang sama, sangat banyak orang pada dasarnya buta komputer. Bisa dibayangkan betapa menggairahkannya hal ini bagi orang-orang yang bahkan hampir tidak pernah bersentuhan dengan otomasi dasar. “Komputer yang bisa bicara” yang sudah akrab kita lihat dalam fiksi ilmiah hampir menjadi kenyataan
  Beberapa tahun lalu, sebelum AI, saya mengerjakan machine learning dan natural language processing, dan hal yang paling menonjol adalah bidang ini menjadi jauh lebih arus utama dibanding apa pun yang pernah terjadi sebelumnya di bidang tersebut. Akibatnya, makin banyak orang yang kurang berpengalaman merancang berdasarkan inferensi statistik. Untuk sementara waktu, ini akan menjadi era Wild West dalam segala hal: mempelajari opini, implementasi yang berhasil, dan ide proyek yang realistis
  Anggap saja begini. Sekarang, saat ada teman yang datang membawa ide aplikasi seperti dari novel, kita bisa menyuruhnya membuatnya sendiri. Itu setidaknya menguntungkan semua orang
- Setiap karyawan tetap yang mengerjakan pipeline data manual semacam itu pada saat yang sama juga memverifikasi pekerjaan tersebut. Dan mereka juga memiliki tanggung jawab kepatuhan untuk melakukannya secara akurat dan tepat waktu
  Mungkin juga ada bagian yang secara emosional terikat pada perusahaan, seperti naluri bertahan hidup agar tidak dipecat, ambisi untuk bekerja lebih baik, serta etika dan penilaian untuk melaporkan manajer yang aneh melalui jalur lain
  LLM tidak akan menelepon node lain dalam organisasi untuk memastikan ketika melihat suatu nilai tampak aneh karena alasan di luar konteks. Misalnya situasi ketika kemarin adalah hari libur bank sekali saja sehingga nilainya seharusnya 0. Memastikan angka-angka ini akurat bisa saja bernilai setara gaji tahunan seorang karyawan tetap. Dan juga ada nilai dalam memiliki seseorang yang bisa disalahkan, dipecat, atau dipenjara ketika angkanya tidak akurat
- Saya penasaran di perusahaan seperti apa benar ada 100 tenaga pipeline data manual untuk setiap 1 software engineer. Saya ingin seseorang melakukan survei menyeluruh dan mengklasifikasikan 500 pekerjaan kerah putih
  Hal-hal yang benar-benar bisa diotomatisasi sudah diotomatisasi. Saya memang berpikir AI akan menimbulkan disrupsi besar, tetapi saya sangat skeptis terhadap pandangan bahwa sebagian besar pekerjaan kerah putih adalah “pekerjaan email” atau input data. Itu tidak sesuai dengan pengalaman saya, dan saya juga pernah bekerja di perusahaan birokratis besar yang oleh orang-orang di sini mungkin disebut terjebak di masa lalu
- Ini sangat meremehkan kompleksitas jenis pekerjaan seperti ini
Saya programmer yang sudah pensiun. Sulit membayangkan mempercayakan kode yang dihasilkan secara probabilistik pada sistem mission-critical. Kalau hasilnya hampir benar dan hanya butuh sedikit perbaikan, saya bisa mengerti, tetapi saya tidak punya pengalaman langsung
Poin utamanya adalah LLM luar biasa di ranah non-coding, misalnya brainstorming, ideasi bebas, mengisi detail riset, dan mengajukan pertanyaan yang membuat saya merefleksikan diri. Saya memperlakukan LLM seperti mitra berpikir. Memang bisa salah, tetapi kesalahannya mudah ditangkap dengan memeriksa ke sumber lain atau meminta LLM lain meninjau kesimpulannya
- Saya tidak bisa mewakili pengalaman tertentu, tetapi saya termasuk orang yang sangat skeptis terhadap segala hal, dan tetap saja ini melampaui ekspektasi saya dalam segala aspek yang mungkin
  Dalam kurang dari 24 jam saya membuat sesuatu yang mungkin butuh berbulan-bulan hanya untuk memulainya, dan lebih lama lagi untuk mencapai versi yang sehalus sekarang. Yang paling mengesankan adalah ia melakukan hal-hal yang sebenarnya bisa saya lakukan, tetapi jauh lebih cepat. Yang lebih mengesankan lagi, ia melakukan pekerjaan yang sama sekali tidak bisa saya lakukan sehingga seharusnya harus merekrut orang atau mengalihdayakannya, dengan biaya dan waktu jauh lebih sedikit, serta siklus iterasi lebih cepat daripada berkomunikasi dengan orang lain
  Ini tidak sempurna dan kadang sangat membuat frustrasi. Ia bisa meng-hardcode nilai padahal sudah secara eksplisit saya larang, atau berbohong bahwa ia sudah melakukan perbaikan tertentu padahal sebenarnya mengubah hal lain yang sama sekali tidak terkait. Meski begitu, menurut saya ini game changer
- Saya sempat mencoba pendekatan “mitra berpikir” untuk beberapa waktu dan sebentar terasa berhasil, tetapi pada titik tertentu retakannya mulai terlihat dan saya mengenali omong kosongnya. LLM sangat hebat membuat dirinya tampak seperti tahu dan mampu bernalar, tetapi tidak begitu bagus dalam mengembangkan percakapan intelektual
  Terutama saat mencoba menggali pengetahuan di bidang yang baru dikenal, mudah dan berbahaya untuk tersesat oleh LLM. Jika memakai mesin pencari biasa, kita bisa melihat situs sumber dan menilai kredibilitasnya, tetapi LLM tidak punya itu. Output-nya pada dasarnya bisa apa saja, dan saya tidak setuju bahwa kesalahannya pasti mudah ditangkap
- Saya sudah 40 tahun memprogram dan mulai memakai LLM beberapa bulan lalu; cara kerja saya benar-benar berubah. Saya memintanya menulis potongan kode, menempelkan pesan error dari log dan biasanya dalam satu menit ia memberi usulan perbaikan, dan saya juga memakainya untuk brainstorming arsitektur atau solusi baru
  Tentu saya memeriksa kode yang ditulisnya, tetapi hampir setiap hari saya terkejut dengan kecerdasan dan akurasinya. Ini sama sekali berbeda dari kripto
- Sebagai skeptis LLM, menurut saya semua kode, termasuk kode yang ditulis developer berpengalaman, pada dasarnya probabilistik. Karena itulah proyek penting memiliki code review, unit test, pair programming, guideline, dan safety net
  Jika Anda memakai output LLM tanpa kritik, itu penggunaan yang salah; tetapi memakai output manusia tanpa kritik juga salah
  Namun LLM bukan sihir, dan saya khawatir orang akan menyembunyikan praktik engineering yang buruk di balik copilot atau model agen, lalu dalam jangka panjang menumpuk lebih banyak boilerplate alih-alih efisiensi, keamanan, dan redesign yang benar-benar penting
- Ada satu bidang yang dikuasai LLM dengan sangat baik, yaitu data science. Jika input dan output terdefinisi dengan baik, mudah memverifikasi apakah hasilnya benar. Jika Anda tahu sifat tertentu dari data, Anda juga bisa memintanya menuliskan test
  Masalahnya adalah kita harus memberi LLM konteks tentang apa yang sedang kita lakukan, dan dalam chat ala ChatGPT, konteks itu sering tidak diberikan atau terasa merepotkan untuk diberikan. Di sinilah Claude Code mengubah permainan
  Misalnya, anggap ada file PCAP yang setiap paket UDP-nya berisi beberapa pesan. Bagaimana memfilter IP, port, protokol, dan waktu? Pakai LLM lalu periksa output-nya. Bagaimana mencari jumlah paket dengan pola A, AB, AAB, ABB, dan seterusnya? Pakai LLM lalu periksa output-nya. Bagaimana membuat PCAP untuk pengujian yang hanya berisi paket seperti itu? Pakai LLM lalu periksa output-nya
  Karena ia juga bisa membaca kode, jujur saja, pekerjaan Anda tidak seistimewa itu, sehingga ia bisa jauh lebih baik menebak apa yang hendak Anda lakukan. Bagaimanapun, fakta bahwa Anda bisa berkata “tuliskan unit test untuk semua fungsi di atas” saja sudah bisa membantu Anda memverifikasi sendiri
Ada pernyataan “seperti kebanyakan skeptis dan kritikus, saya memakai alat ini setiap hari. Dan dalam 50% kasus, ia bekerja sekitar 50%”; saya sendiri memakai LLM hampir setiap hari untuk pekerjaan sejak sekitar setahun lalu, dan ia menyelesaikan sekitar 90% masalah saya
Sangat sulit menentukan apakah keluhan AI/LLM seperti ini harus dianggap serius, atau dilihat sebagai pola penggunaan yang tidak rasional dari sebagian pengguna. Misalnya, saya tidak pernah memasukkan codebase ke LLM lalu berharap ia bekerja secara ajaib. Saya mengajukan pertanyaan langsung dan spesifik dalam batas pemahaman saya, lalu menerapkan solusinya dengan sengaja dalam cara yang bisa diuji
Jika Anda mendekatinya dengan cara lain lalu mengeluh tentang LLM, saya cenderung menganggap Anda memakainya dengan salah. Dan Anda melewatkan keajaiban kecil yang berguna, nyata, dan cukup konsisten
- Itu pada dasarnya mengutip kalimat The Weatherman, “60% dari waktu, selalu berhasil”
  Saya juga memakai gpt dan Claude setiap hari lewat Cursor. gpt o3 cukup bagus untuk pencarian pengetahuan umum. Claude sering berantakan, tetapi saya juga sering melihatnya, sambil membuang token untuk pamer, tetap menyentuh poin yang relevan dengan masalah sebenarnya
  Model-model ini bodoh; bukan idiot jenius, lebih tepatnya sekadar idiot. Meski begitu, kadang ia mengenai item yang relevan. Jika Anda kira-kira tahu apa yang seharusnya terjadi dan memperlakukan LLM seperti terrier pemburu tikus di ladang pertanian, Anda bisa memanfaatkannya dengan benar
- Pernyataan ini juga tidak lebih baik daripada komentar yang dipermasalahkan penulis
  Angka 90% itu juga terlihat agak mencurigakan
Tulisan ini terbaca seperti marah pada ketidakakuratan dalam diskursus, tetapi sejujurnya ketidakakuratan itu lebih merajalela di pihak penentang daripada pendukung. Sebab para pendukung biasanya harus berurusan dengan cacat dan keterbatasannya setiap hari
Kesimpulan bahwa segala sesuatu di sekitar LLM hanyalah pemikiran magis tampak cukup arogan. Dalam lima tahun terakhir, masalah-masalah yang sebelumnya nyaris sulit ditangani, seperti penerjemahan, transkripsi, dan pembuatan kode hingga skala tertentu, sudah sepenuhnya atau hampir sepenuhnya terselesaikan
- Para penentang biasanya menunjuk cacat yang nyata. Para pendukung biasanya mengangkat LLM tanpa kritik seolah-olah itu keajaiban yang bisa menyelesaikan masalah apa pun sekaligus, tanpa detail konkret
- Penerjemahan, transkripsi, dan pembuatan kode hingga skala tertentu dulunya masalah yang nyaris sulit ditangani?
  Google Translate, Whisper, dan generator kode sudah ada cukup lama bahkan tanpa LLM
Mengenai ungkapan “crypto datang lagi”, crypto adalah tali penyelamat bagi saya. Karena di negara tempat saya tinggal, saya tidak bisa membuka rekening bank karena alasan yang tidak bisa saya kendalikan maupun perbaiki
Jadi kalau crypto tidak berguna bagi Anda, baguslah. Bagi saya dan jutaan orang seperti saya, ini adalah soal hidup-mati
LLM juga serupa: bagi sebagian orang ia terasa seperti sihir, bagi yang lain ia adalah alat deterministik yang dapat diandalkan, sekaligus juga sihir. Saya baru saja mengklasifikasikan dan mengurutkan ratusan faktur. Ya, itu sihir
- Ini pada dasarnya satu-satunya use case crypto, dan juga tujuan yang memang dirancang secara eksplisit: resistansi terhadap sensor
  Karena itu sulit menemukan hal berguna yang bisa dilakukan crypto dalam ekonomi legal. Ia dirancang untuk memungkinkan transaksi yang tidak diinginkan atau tidak bisa difasilitasi oleh pemerintah. Dalam beberapa kasus ada penerapan kemanusiaan, dan ada juga banyak penerapan ilegal
- Bisa jelaskan lebih lanjut situasinya? Anda berada di negara mana, dan bagaimana Anda menggunakan crypto di sana?
- Di tengah hype omong kosong seperti “kalau tidak percaya makna sejati crypto, berarti bodoh”, ini adalah use case yang valid
  “Anda harus ada di sana untuk bisa percaya” https://x.com/0xbags/status/1940774543553146956
  Gelombang AI sekarang juga sedang melewati masa yang mirip. Kritik apa pun dianggap sebagai omongan orang bodoh yang tidak tahu apa-apa
- Sepertinya ini sebenarnya tidak bertentangan dengan lelucon penulis. Anda ingin memakai crypto sebagai mata uang, sementara tulisan asli kemungkinan besar membicarakan penipuan di sekitar crypto sebagai instrumen investasi
  Jika dipakai sebagai mata uang, orang-orang yang ingin melakukan pump-and-dump koin dan menjadikannya sarana mencari uang adalah musuh Anda. Semakin stabil nilainya, alih-alih roller coaster lonjakan dan kejatuhan, semakin baik bagi Anda
- Ini masalah yang sama seperti yang dialami crypto. Hampir semua orang menyebarkan kebohongan tentang teknologinya, dan banyak di antaranya hanya tidak cukup paham untuk tahu bahwa mereka sedang berbohong. Ini perbedaan antara keluguan dan niat buruk
  Di dunia crypto, menurut saya ada lebih banyak kebohongan yang disengaja dan lebih sedikit nilai yang bisa didapat, tetapi dalam kedua kasus, orang-orang yang sebenarnya bisa memperoleh manfaat justru berbalik sebelum sempat masuk karena ketidakjujuran dan distorsi. Dan dalam kedua kasus, ada contoh nilai nyata yang diperoleh hari ini
Sedikit terkait, tetapi saya kesal dengan cara istilah AGI digunakan belakangan ini, kadang bahkan istilah AI juga. Terutama dalam makalah ilmiah, saya berharap semuanya didefinisikan dengan baik, setidaknya dalam cara istilah itu digunakan di dalam makalah tersebut
Mengapa kita tidak bisa membuat definisi tentang apa itu AGI? Dengan begitu, kita juga bisa membuktikan secara logis apakah suatu AI memenuhi definisi itu. Meski secara praktis tampak tidak terlalu berguna, secara teoritis itu jauh lebih berguna daripada memakai istilah tanpa makna
Sekarang rasanya seperti semacam jalan keluar. Wikipedia menyebutnya “jenis AI yang menyamai atau melampaui kemampuan manusia dalam hampir semua tugas kognitif”. Bagaimana mengukurnya? Kalau kita tidak bisa membuktikan bahwa suatu sistem memiliki sifat ini, apa gunanya?
Ini agak seperti curhat, tapi saya tetap berharap ada sedikit yang bisa dipahami
- Konsensus umum tidak selalu diperlukan. Saya punya tonggak pribadi yang lebih longgar tentang apa itu AGI, tetapi saya tidak berharap orang lain membaginya
  Mirip seperti bagi saya “crypto” tetap berarti kriptografi, bukan mata uang kripto. Kadang arus utama memang hanya punya pendapat berbeda
- Definisinya sudah ada
  “AI adalah apa yang belum bisa dilakukan”[1]
  1. https://en.wikipedia.org/wiki/AI_effect
Baru-baru ini perusahaan kami mulai memakai LLM, dan tugas pertamanya adalah mentranskripsikan 20 ribu panggilan pelanggan lalu mengekstrak informasi berikut
1. Produk apa saja yang biasanya dibandingkan dengan produk kami
2. Masalah apa yang dialami pengguna dalam software kami
3. Use case apa yang paling sering disebutkan pengguna
  Riset yang dulu memakan waktu berminggu-minggu selesai dalam beberapa jam. Itu membantu menyusun strategi baru dan menghasilkan nilai bisnis nyata
  Saya melihat LLM hanya sebagai mesin pemrosesan bahasa alami, dan untuk kegunaan itu ia sangat bagus. Memang ada orang yang melebih-lebihkan, tetapi itu tidak mengubah fakta bahwa dalam kasus kami ia benar-benar berguna. Saya tidak mengerti mengapa ada begitu banyak tulisan “LLM itu buruk”. Kalau tidak cocok untuk Anda, lewatkan saja. Mengapa siapa pun harus membuktikan sesuatu kepada siapa pun? Ini hanya alat
- Anda meremehkan dampak negatif yang ditimbulkan hype. Ia mendistorsi pasar, memicu investasi berlebihan, membuat departemen dipangkas lebih dulu, dan menciptakan ekspektasi yang tidak akan pernah terpenuhi
  Tulisan-tulisan seperti ini penting untuk mendinginkan ekspektasi. Ketika orang menjual LLM, biasanya yang mereka jual bukan ringkasan panggilan dukungan pelanggan, melainkan gagasan bahwa staf dukungan pelanggan bisa dipecat
- Benar sekali. Orang-orang yang mengatakan LLM tidak punya kegunaan nyata belum pernah menghadapi masalah yang mengharuskan pemrosesan banyak data dengan cara yang cukup stabil
  Selama bertahun-tahun, sebagian besar terjemahan di web tidak memiliki konteks. Sekarang konteks bisa ada
Tokoh-tokoh teknologi yang tepercaya dan rasional, yang dikenal berpandangan hati-hati, telah melaporkan bahwa mereka memakai berbagai bentuk AI generatif dan memperoleh peningkatan signifikan dalam pekerjaan pemrograman
Seberapa besar yang dimaksud signifikan di sini? Antara 5% dan 100%, yaitu tingkat yang tidak bisa diabaikan
Setidaknya aman untuk mengatakan bahwa AI generatif adalah, atau bisa menjadi, alat yang cukup bermanfaat bagi cukup banyak orang
Agar penilaian seperti ini masuk akal, tidak berarti semua detail seperti jumlah CPU, jumlah baris kode, atau jumlah byte yang diproses harus diungkapkan
- Itu tidak berbeda dari mengatakan, “orang-orang mengklaim peningkatan produktivitas di suatu titik antara angka sembarang yang saya buat dan angka sembarang lain. Kita harus mempercayai klaim ini tanpa sikap kritis”

Segala Hal di Sekitar LLM Masih Terasa seperti Sihir dan Angan-Angan

Mengapa sulit membandingkan pengalaman memakai LLM

Kesenjangan antara wacana yang terlalu panas dan penggunaan alat yang nyata

Bacaan terkait

1 komentar

Komentar Hacker News