Pengguna LLM Berpengalaman, tapi Alasan Sebenarnya Jarang Menggunakannya

(minimaxir.com)

29 poin oleh GN⁺ 2025-05-06 | 2 komentar | Bagikan ke WhatsApp

Penulis mengungkapkan bahwa meski telah meneliti LLM dan teknologi generasi teks selama lebih dari 10 tahun, ia justru tidak sering menggunakan LLM dalam kehidupan sehari-hari
Saat menggunakan LLM, ia menekankan kontrol yang cermat seperti prompt engineering, pengaturan system prompt, dan penyesuaian temperature, serta lebih memilih pendekatan berbasis API dibanding frontend umum
Untuk pekerjaan di BuzzFeed seperti pelabelan data, peringkasan klaster artikel, dan peninjauan style guide, ia memanfaatkan LLM untuk memecahkan masalah yang spesifik dan membuktikan penghematan waktu yang besar
Ia tidak menggunakan LLM untuk menulis, tetapi memakainya untuk menguji logika tulisan melalui komentar Hacker News fiktif yang bersifat kritis
LLM berguna untuk membantu coding, tetapi untuk pekerjaan yang kompleks atau menuntut keandalan, ia lebih memilih implementasi langsung, dan tetap bersikap skeptis terhadap agent maupun vibe coding

Jarak antara saya dan LLM

Penulis adalah data scientist yang sangat berpengalaman dalam menggunakan alat AI generatif, mulai dari generasi teks berbasis RNN, tuning GPT-2, hingga eksperimen GPT-3/ChatGPT
Namun, ia jarang benar-benar menggunakannya secara langsung, dan keputusan untuk memakai LLM merupakan pendekatan instrumental yang ditentukan oleh sifat serta kebutuhan tugas

Cara mengendalikan LLM

Inti penggunaan LLM adalah mengarahkan output yang diinginkan melalui prompt engineering
Alih-alih frontend umum (ChatGPT.com), ia lebih suka memanggil API secara langsung atau menggunakannya lewat UI backend, khususnya API Claude Sonnet
Dengan system prompt dan pengaturan temperature, ia menyeimbangkan kreativitas dan determinisme; biasanya diatur pada 0.0 ~ 0.3 untuk menjamin output lebih dapat diprediksi
Masalah halusinasi (menghasilkan isi yang tidak faktual) cenderung makin parah saat temperature lebih tinggi, sehingga perlu diwaspadai

Contoh pemanfaatan di pekerjaan

Otomatisasi klasifikasi artikel BuzzFeed: menggunakan Claude API, skema klasifikasi berbasis JSON, dan pengaturan temperature 0.0 untuk menetapkan kategori secara akurat
Peringkasan klaster artikel: memberikan 5 artikel serupa lalu meminta judul dan deskripsi bersama, sehingga otomatisasi ringkasan klaster dapat dilakukan secara efisien
Pemeriksaan tanda baca dan style guide: memasukkan seluruh style guide ke system prompt untuk melakukan penilaian tata bahasa berdasarkan kebijakan
Setiap tugas dapat diselesaikan sebagai POC hanya dalam beberapa jam, dan terbukti menghemat waktu lebih dari beberapa hari dibanding cara sebelumnya

Menulis sendiri, kritik dari LLM

Tulisan blog ditulis sendiri, karena memiliki kekhasan gaya yang sulit direplikasi LLM
Namun, ia meminta LLM menulis komentar kritis ala pengguna Hacker News untuk mencari celah logis dalam tulisannya
Pendekatan ini membantu meningkatkan kualitas tulisan, tetapi bukan berarti LLM menggantikan proses menulis

Pemanfaatan LLM dalam coding

Untuk tugas yang rumit namun berulang seperti menulis regular expression atau komposisi gambar dengan Pillow, LLM sangat membantu meningkatkan produktivitas
Sebaliknya, saat menggunakan library baru seperti Polars, muncul masalah seperti LLM keliru menganggapnya sebagai fungsi pandas
Rekomendasi kode real-time seperti Copilot tidak disukai karena terlalu sering memicu pergantian konteks mental sehingga justru mengganggu fokus
Ia mempertahankan pandangan bahwa dari ide yang diajukan LLM, "meminjam idenya lalu memperbaikinya sendiri" adalah pendekatan yang lebih baik

Pandangan tentang Agents, MCP, dan Vibe Coding

MCP dan Agents memang membaik secara konsep, tetapi secara praktis belum menghadirkan use case baru
Vibe Coding mungkin berguna untuk proyek hobi, tetapi tidak cocok untuk produk resmi dan tidak boleh dipakai sebagai cara menghindari tanggung jawab
Ia menekankan pandangan bahwa hanya kode yang bisa dipercaya yang layak disebut profesional

Pemikiran tentang industri dan etika LLM

Klaim bahwa "LLM tidak berguna" dianggap tidak mencerminkan realitas penggunaan nyata; yang lebih penting justru ROI jangka pendek dan masalah struktur industri
Model open source dan infrastruktur alternatif seperti Cerebras dan Groq tetap dapat memenuhi permintaan LLM bahkan jika OpenAI menghilang
Pada akhirnya, LLM adalah alat yang harus digunakan sesuai tujuan, dan pujian tanpa syarat maupun penolakan total sama-sama berbahaya

Penutup

LLM adalah alat seperti memaksakan paku persegi ke lubang bundar; bisa tidak efisien, tapi juga bisa inovatif
Yang penting adalah penilaian teknisi untuk menentukan kapan, di mana, dan bagaimana menggunakannya, dan itulah kompetensi sejati di era LLM

2 komentar

ifmkl 2025-05-07

Saya setuju dengan baris paling terakhir. Selain itu, apa yang saya rasakan juga mirip, pada akhirnya AI dan LLM adalah sesuatu yang bisa digunakan dan dimanfaatkan hanya sebatas kemampuan penggunanya.

GN⁺ 2025-05-06

Komentar Hacker News

Ada pendapat tentang hal-hal membingungkan saat programmer berpengalaman bekerja dengan LLM
- pandas adalah pustaka standar untuk memanipulasi data tabular di Python dan telah digunakan sejak 2008
- Belakangan ini menggunakan pustaka baru polars, dan LLM sering keliru menganggap fungsi polars sebagai fungsi pandas, sehingga perlu memeriksa dokumentasi
- Alasan tidak menggunakan coding agent adalah karena "mengganggu", dan ini adalah pandangan yang bisa saya pahami sebagai orang yang juga tidak suka autocomplete
- LLM "murni" menimbulkan kesalahan kode dalam pekerjaan pemrograman, tetapi konfigurasi agent LLM juga mencakup kode yang menstrukturkan interaksi dengan LLM
- Jika LLM membuat kesalahan fungsi, program tidak akan bisa dikompilasi, lalu agent mendeteksinya dan LLM memperbaikinya berulang kali
Menggunakan vibe coding saat membuat mockup UI atau situs web
- Tidak punya pengalaman frontend, tetapi ada nilai dalam membuat demo live yang sudah 80% jadi untuk ditunjukkan kepada orang lain
- Belum siap untuk produk nyata, tetapi berguna untuk pembuatan mockup dalam diskusi internal
Sudah mencoba berbagai cara untuk mendapatkan hasil terbaik dari LLM
- Memikirkan skenario untuk "mengelabui" LLM tidak efisien, dan efektivitasnya bisa sangat berbeda tergantung versi model
Lebih berhati-hati terhadap output LLM untuk pertanyaan kode yang kompleks tentang pustaka yang kurang populer
- Dalam beberapa bulan terakhir, antarmuka ChatGPT efektif untuk menyelesaikan pertanyaan kode tentang pustaka terbaru
- Pekerjaan meng-upgrade kode ke pustaka JavaScript baru berhasil dilakukan
Menggunakan cara menempelkan dokumentasi pustaka baru atau seluruh codebase langsung ke model berkonteks panjang
- Efektif untuk pustaka di bawah 50.000 token, dan Gemini 2.5 Pro juga menangani ratusan ribu token dengan baik
Menyukai bahwa penulis menyertakan log percakapan
- Banyak orang tidak bisa membagikannya karena bisa mengekspos informasi, tetapi penting untuk mendukung klaim tentang hasil LLM dengan bukti seperti itu
Tidak menggunakan ChatGPT.com atau antarmuka pengguna umum
- Menggunakan UI backend dari masing-masing layanan LLM untuk mendapatkan hasil yang lebih baik
- OpenAI cenderung membatasi model di UI ChatGPT
Antarmuka LLM modern yang tidak memungkinkan pengaturan system prompt secara eksplisit menggunakan system prompt mereka sendiri
- ChatGPT memiliki system prompt, tetapi Claude tidak
- Pada model baru, kegunaan system prompt semakin berkurang
Menetapkan batasan tertentu pada teks yang dihasilkan lebih efektif dilakukan melalui system prompt daripada prompt pengguna
- LLM memahami konsep 30 kata, tetapi tidak selalu bekerja dengan baik untuk tugas semacam ini
Menggunakan UI backend dari masing-masing layanan LLM
- Ingin tahu apakah menggunakan wrapper kustom untuk berinteraksi dengan API, atau memakai klien yang sudah mapan
Respons JSON tidak selalu bekerja seperti yang diharapkan
- Untuk mengembalikan JSON yang konsisten, definisikan skema JSON agar selalu mengembalikan struktur yang sama
Menggunakan LLM untuk mempelajari hal baru atau menulis skrip singkat
- Teknik memasukkan teks dari sebuah posting blog ke LLM, lalu meminta LLM berpura-pura menjadi komentator Hacker News yang sinis dan menulis lima komentar terasa menarik