Pelajaran Pahit dari Ekspansi LLM

(sawyerhood.com)

23 poin oleh GN⁺ 2025-11-28 | 1 komentar | Bagikan ke WhatsApp

Dalam 3 tahun terakhir, evolusi cara memperluas LLM berkembang dalam berbagai bentuk seperti plugin, instruksi pengguna, memori, protokol, dan skill
ChatGPT Plugins pada awalnya mencoba penggunaan alat serbaguna melalui pemanggilan API, tetapi gagal karena keterbatasan model dan UX yang kompleks
Setelah itu, Custom Instructions dan Custom GPTs muncul, menghadirkan personalisasi sederhana berbasis prompt dan struktur model kustom yang dapat dibagikan
Model Context Protocol (MCP) dan Claude Code memungkinkan integrasi alat yang kompleks namun kuat, dan belakangan Agent Skills bangkit kembali dalam bentuk yang lebih sederhana
Pada akhirnya, arsitektur agen yang menyelesaikan tugas hanya dengan alat tujuan umum dan instruksi bahasa alami akan menjadi arah utama ekspansi LLM

Sejarah dan Perubahan Ekspansi LLM

Cara penggunaan LLM telah berkembang dari input teks sederhana menjadi agen pengendali codebase dan browser
- Cara mendukung kustomisasi pengguna muncul sebagai tantangan utama
- Berbagai pendekatan dicoba, dari system prompt sederhana hingga protokol client-server yang kompleks

ChatGPT Plugins (Maret 2023)

OpenAI mengumumkan ChatGPT Plugins, dirancang agar LLM memanggil endpoint REST melalui spesifikasi OpenAPI
- Menargetkan penggunaan alat serbaguna pada tingkat AGI
Namun, karena keterbatasan GPT-3.5 dan GPT-4 awal, eksplorasi spesifikasi API berskala besar memicu error dan hilangnya konteks
- UX yang tidak nyaman seperti aktivasi plugin secara manual juga menjadi masalah
Meski demikian, plugin Code Interpreter (kemudian menjadi Advanced Data Analysis) menunjukkan potensi lingkungan eksekusi sandbox yang kuat

Custom Instructions (Juli 2023)

Fitur prompt kustom sederhana yang mengurangi kompleksitas plugin
- Ditambahkan otomatis ke semua percakapan, sehingga menyelesaikan masalah pengaturan konteks berulang
Setelah itu, fitur ini berperan sebagai cikal bakal file aturan di lingkungan pengembangan seperti .cursorrules dan CLAUDE.md

Custom GPTs (November 2023)

OpenAI memproduktisasi prompt engineering melalui Custom GPTs
- Menggabungkan persona, file, dan action untuk membuat tautan GPT kustom yang dapat dibagikan
Dari pendekatan plugin yang terbuka, ini merupakan kemunduran ke bentuk aplikasi satu tujuan

Memory in ChatGPT (Februari 2024)

Kasus pertama peralihan ke fitur personalisasi otomatis
- Mengingat informasi yang disebutkan selama percakapan dan otomatis mencerminkannya pada konteks berikutnya
- Ini menjadi awal dari arsitektur agen persisten yang mempertahankan status jangka panjang tanpa perlu diatur langsung oleh pengguna

Cursor Rules (April 2024)

Cursor IDE memperkenalkan pengelolaan instruksi tingkat repositori melalui file .cursorrules
- Contoh: “gunakan tab”, “tanpa titik koma”, “gunakan TypeScript”, dan sebagainya
Setelah itu, struktur ini diperluas ke folder .cursor/rules, sehingga aturan per file dan per direktori bisa diterapkan
Kemampuan agar LLM menentukan sendiri kapan aturan diterapkan juga ditambahkan

Model Context Protocol (MCP, November 2024)

MCP yang diperkenalkan oleh Anthropic menyediakan struktur agar model dapat menggunakan alat nyata secara andal
- Menjaga koneksi client-server sambil bertukar definisi alat, resource, dan prompt
Bukan sekadar menambahkan konteks, melainkan memberikan kapabilitas nyata
- Contoh: membaca repositori, query DB, deployment Vercel
Meski kompleks dan membebani konfigurasi, MCP digunakan sebagai lapisan dasar ChatGPT Apps (diumumkan Oktober 2025)

Claude Code dan Mekanisme Ekspansi (Februari 2025)

Claude Code adalah agen yang menyatukan berbagai metode ekspansi
- Mengelola instruksi repositori dengan CLAUDE.md
- Integrasi alat dengan MCP
- Mendukung Slash Commands, Hooks, Sub-agents, Output Styles (akan dihentikan), dan lainnya
Beberapa fitur belum jelas apakah akan dipertahankan, tetapi ini dinilai sebagai model integrasi eksperimental untuk ekspansi agen

Agent Skills (Oktober 2025)

Sebagai bentuk kelahiran kembali ChatGPT Plugins, ini menggunakan struktur skill berbasis folder tanpa protokol yang rumit
- Terdiri dari SKILL.md, skrip, dan file contoh di dalam direktori skills/
- Hanya membaca seluruh isi saat diperlukan, sehingga mengatasi masalah context bloat
Contoh: skill pengujian web app berbasis Playwright
- SKILL.md berisi metadata dan panduan penggunaan
- Skrip dijalankan langsung, dan LLM tidak perlu memuat isi kode ke konteks jika tidak diperlukan
Berasumsi adanya hak akses komputer tujuan umum, dengan inti pendekatan berupa kepercayaan pada alat serbaguna alih-alih alat khusus

Prospek Masa Depan

Agent Skills mewujudkan idealisme plugin awal
- Model kini cukup cerdas sehingga mampu menyelesaikan tugas hanya dengan alat umum dan instruksi
Agen didefinisikan ulang bukan sebagai loop LLM sederhana, tetapi sebagai entitas eksekusi yang terhubung dengan komputer
- Contoh: Claude Code, Zo Computer, dan lainnya adalah bentuk integrasi LLM dengan komputer
Setelah 2026, aplikasi LLM diperkirakan akan meluas dalam bentuk arsitektur agen dengan komputer tertanam
Kesimpulannya, ada kemungkinan ekspansi berbasis bahasa alami kembali menjadi pusat, alih-alih protokol kompleks seperti MCP

1 komentar

GN⁺ 2025-11-28

Opini Hacker News

Saya merasa bahasa alami terlalu ambigu, jadi tidak efisien untuk diperluas menjadi bahasa pemrograman
Alasan matematika punya bahasa khusus domain sendiri adalah untuk memastikan kejelasan
- Dulu saya pernah bekerja di komunikasi teknis, dan bahkan bahasa alami pun bisa dipoles cukup presisi jika melewati loop baca–revisi–tinjau ulang yang berulang
  Dalam bahasa Inggris memang merepotkan, tapi kalau sudah terbiasa ambiguitasnya bisa dikurangi
- Karena itu saya rasa perlu progressive hardening yang memperkuat spesifikasi secara bertahap
  Konsep terkait dirangkum dengan baik di dokumen ini
Saya menganggap Skills sebagai konsep yang mewujudkan mimpi ChatGPT Plugins
Sekarang modelnya sudah cukup pintar sehingga rasanya ini benar-benar bisa berjalan
Simon Willison juga berargumen dalam tulisan ini bahwa Skills adalah perubahan yang lebih besar daripada MCP, tetapi tampaknya masih kurang mendapat perhatian karena inersia MCP
- Alasan Skills terasa kurang menarik adalah karena pada dasarnya lebih mirip dokumentasi yang dimuat secara selektif
  Namun justru itu jauh lebih berarti karena menghilangkan scaffolding rumit yang diminta MCP
  Misalnya, saat memproses transkrip akun Fathom, saya hanya perlu membuat skrip CLI dan menulis SKILL.md
  Pengujian API klien juga saya selesaikan dengan cara yang sama
  Hanya saja pendekatan ini kurang mencolok dan memberi lebih sedikit ruang untuk membuat tooling berskala besar, jadi tampaknya kurang disorot
- Akhir-akhir ini kelelahan LLM makin besar, jadi sepertinya orang-orang tidak terlalu antusias pada Skills
  Selain itu, Skills mengandaikan agen yang bisa mengeksekusi kode arbitrer, sehingga hambatan masuknya tinggi
- Saya masih belum paham apa yang istimewa dari direktori Skills
  Sejak dulu saya sudah menyuruh Claude Code “baca X lalu lakukan Y”, jadi saya penasaran apa bedanya dengan Skills
- Eksekusi sandbox di Claude Skills terlalu tidak efisien
  Saya harus mengandalkan I/O dan pernyataan print untuk melacak pekerjaan, dan itu terasa menyebalkan
- Skills terlihat seperti versi pengguna akhir dari MCP
  MCP ditujukan untuk membangun sistem, sementara Skills khusus Claude sehingga lock-in-nya besar
  Tidak bisanya saling merujuk atau menggabungkan skill juga merupakan batasan besar
  Pada akhirnya, saat mencoba menyelesaikan masalah seperti ekstensibilitas, penggunaan ulang, dan penggunaan jarak jauh, rasanya kita akan kembali lagi ke MCP
  Namun jika Skills menetap sebagai sudut pandang lain atas MCP, mungkin nanti akan muncul sesuatu seperti konverter Skill→MCP
Saya tidak paham apa hubungan antara perbaikan model dengan Bitter Lesson
Strukturnya tetap berupa penyuntikan keahlian manusia untuk menutupi keterbatasan model
Kalau benar-benar Bitter Lesson, seharusnya hasil yang lebih baik datang hanya dari menambah sumber daya komputasi tanpa campur tangan manusia
- Saya juga mengira itu topik tulisannya, makanya saya klik
Custom GPTs adalah konsep lama, tetapi belakangan saya menemukan penggunaan yang praktis
Saya membuat Custom GPT yang terhubung ke Notion API untuk catatan rapat dan pengelolaan tugas istri saya, dan dalam beberapa jam saja sudah bekerja cukup berguna
Saya sempat ingin mengintegrasikannya dengan aplikasi Reminders, tetapi karena batasan API dan masalah izin UI, pada akhirnya saya harus membuat server MCP sendiri
Saya menyalakan Amphetamine di MacBook Pro lama, lalu menghubungkannya dengan Tailnet dan tunnel Cloudflare agar bisa diakses dari ChatGPT
Memang rumit, tetapi menempatkan agen AI sebagai satu hub pusat ternyata cukup bernilai
Implementasi terkait dirangkum di blog ini
Bahkan ChatGPT 5.1 masih berhalusinasi tentang API yang tidak ada, tetapi tetap saja perlahan membaik
Setiap kali manusia meningkatkan kemampuan memproses informasi, dunia berubah; jadi kalau LLM hanya meningkatkan probabilitas jawaban benar pun, dunia akan berubah lagi
Saya setuju dengan ucapan “ingin men-short MCP”
MCP memang sulit ditangani, tetapi di dunia ini ada banyak pekerjaan yang membutuhkan antarmuka yang aman
Alasan desain awalnya rumit adalah karena ia mengekspos realitas pemrosesan token streaming apa adanya
Memang kompleks, tetapi saya rasa ia masih berada di batas sistem sederhana yang tetap bisa bekerja
Rasanya tidak akan tergantikan sepenuhnya, dan agar model bisa benar-benar menangani lingkungan agen, struktur seperti MCP masih akan dibutuhkan untuk sementara waktu
- Pada akhirnya MCP hanyalah satu lagi format API yang mendeskripsikan dirinya sendiri
  Model-model sekarang sudah cukup mampu berinteraksi hanya dengan penjelasan API yang sederhana
  Kalau API-nya sudah ada, alasan untuk membuat server MCP jadi berkurang
- Saya tidak paham kenapa orang bilang MCP itu sulit
  Implementasinya sesederhana JSON-RPC + API
  Contoh hello-world Python FastMCP hampir sama dengan versi Flask
- Sepertinya MCP itu terlalu dini muncul
  Skills hadir sebagai reaksi balik atas itu, dan ke depan tampaknya akan berkembang ke struktur yang merakit sendiri ruang LLM dan ruang kode
- MCP hanyalah satu lagi cerita middleware, dan hal seperti itu selalu gagal
Skills.md pada akhirnya tampaknya akan mengalami masalah pembengkakan konteks seperti MCP
Mungkin lebih baik cukup menaruh skrip tanpa penjelasan, lalu melatih LLM agar mencari yang dibutuhkan di dalam folder
- Saya rasa ini adalah masalah rekayasa yang bisa dipecahkan
  Misalnya, cukup sediakan subagen ringan yang membaca dan memilih skill
ChatGPT Apps yang diumumkan bulan ini terasa hampir sama dengan ChatGPT Plugin dari 3 tahun lalu
Bedanya hanya pada cara memanggil pluginnya — dulu dipilih dari dropdown, sekarang cukup menuliskan namanya di prompt
Dari sudut pandang pengguna, tampaknya tidak ada perbedaan besar
Saya menganggap prompt sebagai program probabilistik, dan menurut saya perlu shell khusus untuk memanggilnya
Agen coding seperti Claude Code atau Codex adalah contohnya
Saya sedang meneliti pemisahan fungsi seperti ini dari IDE agar berkembang menjadi shell mandiri seperti llm-do
Inti sebenarnya dari perluasan LLM adalah integrasi shell
LLM yang terhubung ke shell pada dasarnya bisa melakukan apa saja
- Kolam renang memang bisa digali dengan sendok, tapi menurut saya lebih baik memakai backhoe

Pelajaran Pahit dari Ekspansi LLM

Sejarah dan Perubahan Ekspansi LLM

ChatGPT Plugins (Maret 2023)

Custom Instructions (Juli 2023)

Custom GPTs (November 2023)

Memory in ChatGPT (Februari 2024)

Cursor Rules (April 2024)

Model Context Protocol (MCP, November 2024)

Claude Code dan Mekanisme Ekspansi (Februari 2025)

Agent Skills (Oktober 2025)

Prospek Masa Depan

Bacaan terkait

1 komentar

Opini Hacker News