30 poin oleh GN⁺ 2026-04-06 | 2 komentar | Bagikan ke WhatsApp
  • Skill yang memaksa respons dalam gaya bahasa manusia gua untuk menghemat rata-rata 65~75% token output
  • Tingkat kompresi dapat diatur dalam tiga level: Lite·Full·Ultra, menghasilkan jawaban singkat dan efisien sambil tetap menjaga akurasi teknis
  • Dalam benchmark nyata, penjelasan terkait React·PostgreSQL·Git semuanya menurunkan penggunaan token hingga kurang dari setengahnya
  • Memberikan efek kecepatan respons sekitar 3x lebih cepat, keterbacaan yang lebih baik, dan penghematan biaya sekaligus
  • Bisa dipasang dengan perintah sederhana di Claude Code dan Codex, dan dapat terus digunakan sepanjang sesi

Ringkasan Caveman

  • Plugin untuk Claude Code dan Codex yang mengubah respons LLM menjadi ‘gaya bahasa manusia gua (caveman-speak)’ sehingga mengurangi penggunaan token sekitar 75%
  • Menghapus kata-kata yang tidak perlu sambil mempertahankan akurasi teknis untuk menghasilkan jawaban singkat dan efisien
  • Instalasi bisa dilakukan dengan perintah satu baris, dan tetap aktif di semua sesi
  • Hanya token output yang dikurangi — token berpikir/penalaran tidak terpengaruh
  • Yang dihapus meliputi:
    • Salam/pembuka: "Sure, I'd be happy to help" (membuang 8 token)
    • Pembuka penjelasan alasan: "The reason this is happening is because" (7 token)
    • Ekspresi rekomendasi: "I would recommend that you consider" (7 token)
    • Kalimat pembuka bertele-tele: "Sure, let me take a look at that for you" (10 token)
  • Yang dipertahankan: code block, istilah teknis (seperti polymorphism), pesan error, pesan commit git·PR

Contoh Before / After

  • Penjelasan teknis yang sama dipadatkan menjadi kalimat singkat
    • Penjelasan penyebab re-render komponen React: 69 token → 19 token
    • Penjelasan bug middleware autentikasi: penghematan token lebih dari 75%
  • Tingkat kompresi bisa diatur dalam tiga level: Lite / Full / Ultra
    • Lite (/caveman lite): menghapus ekspresi yang tidak perlu, tata bahasa tetap dipertahankan — tetap profesional tanpa bertele-tele
    • Full (/caveman full): mode caveman dasar — artikel dihilangkan, kalimat pendek dan terputus-putus
    • Ultra (/caveman ultra): kompresi maksimum — gaya telegraf, semuanya dipersingkat
Iklan

Benchmark

  • Hasil perbandingan penggunaan token nyata melalui Claude API menunjukkan rata-rata penghematan 65%
  • Rentang penghematan: 22%~87%
    • Penjelasan bug re-render React: 1,180 → 159 token (hemat 87%)
    • Pengaturan connection pool PostgreSQL: 2,347 → 380 token (hemat 84%)
    • Docker multi-stage build: 1,042 → 290 token (hemat 72%)
    • Penjelasan git rebase vs merge: 702 → 292 token (hemat 58%)
    • Refaktorisasi callback → async/await: 387 → 301 token (hemat 22%, efek paling kecil)
  • Hanya token output yang berkurang, token berpikir·penalaran tetap sama
  • Manfaat utamanya adalah keterbacaan yang lebih baik dan kecepatan respons yang meningkat, sedangkan penghematan biaya adalah efek tambahan

Dasar ilmiah

  • Makalah Maret 2026 "Brevity Constraints Reverse Performance Hierarchies in Language Models": ketika model besar dipaksa memberi respons singkat, ditemukan peningkatan akurasi 26%p pada benchmark tertentu dan pembalikan peringkat performa
  • "Verbose not always better. Sometimes less word = more correct"
    • Dibanding respons panjang, ada kasus di mana respons singkat justru lebih akurat

Cara instalasi

  • Instalasi satu baris: npx skills add JuliusBrussee/caveman
  • Plugin Claude Code: claude plugin marketplace add JuliusBrussee/caveman
  • Codex: clone repositori lalu cari dan pasang Caveman di menu /plugins
  • Pemicu: /caveman, "talk like caveman", "caveman mode", "less tokens please"
  • Menonaktifkan: "stop caveman" atau "normal mode"
  • Sekali instal → berlaku untuk seluruh sesi berikutnya
Iklan

Cara penggunaan

  • Perintah pemicu: /caveman, $caveman, “talk like caveman”, “caveman mode”, “less tokens please”

  • Perintah berhenti: “stop caveman”, “normal mode”

  • Pengaturan level

    Level Trigger Karakteristik
    Lite /caveman lite Tata bahasa dipertahankan, kata-kata tidak perlu dihapus
    Full /caveman full Mode dasar, artikel dan kata mubazir dihapus
    Ultra /caveman ultra Kompresi maksimum, ekspresi berpusat pada singkatan
  • Pengaturan dipertahankan sampai sesi berakhir

  • Lisensi MIT / Python 100% / Mendukung plugin Claude Code & Codex

2 komentar

 
joyfui 2026-04-06

Gaya bicara Sparta di sini juga..? hehe

 
GN⁺ 2026-04-06
Komentar Hacker News
  • Penulisnya di sini. Beberapa orang membantah klaim yang lebih kuat daripada yang sebenarnya dinyatakan repositori ini. Sebenarnya ini dibuat sebagai lelucon, bukan komentar setingkat riset
    Skill ini bukan ditujukan untuk mengurangi reasoning token tersembunyi, melainkan fokus mengurangi teks keluaran yang bertele-tele. Tidak ada pengaruh pada kodenya sendiri
    Saya rasa model Anthropic sudah cukup dituning dengan RL, jadi sulit sengaja menurunkan performanya secara drastis
    Angka “~75%” di README adalah hasil uji awal, jadi seharusnya ditulis dengan lebih hati-hati. Sekarang saya sedang menyiapkan benchmark resmi
    Skill ini tidak gratis, dan menghabiskan sebagian context saat dimuat. Jadi evaluasi yang benar harus mencakup token input/output, latensi, dan kualitas
    Ada juga riset bahwa prompt yang ringkas bisa mengurangi panjang respons sambil menjaga kualitas (tautan paper)
    Intinya, ini ide yang menarik, tapi banyak interpretasi berlebihan, dan README perlu ditulis lebih akurat sampai evaluasi resminya selesai

    • Terdengar masuk akal. Diskusi online memang sering berjalan seperti ini. Meski begitu, thread ini masih lebih baik dari rata-rata, walau kadang mengecewakan
    • Kalau ingin benchmark, saya sarankan melihat adam-s/testing-claude-agent
    • Ringkasnya: “Ini cuma lelucon. Jangan marah ke saya. Tapi mungkin agak bekerja?”
    • Saya juga pernah membahas hal serupa dengan LLM, dan menjelaskan bahwa ia cenderung menjawab singkat untuk pertanyaan singkat, dan memberi jawaban dengan informasi padat untuk permintaan yang sopan. Pada akhirnya, cara bertanya memang memengaruhi gaya jawaban
      (Dan saya tidak paham kenapa komentar terkait seperti ini terus-menerus di-downvote)
    • Ucapan “model Anthropic dioptimalkan untuk coding sehingga tidak bisa dipaksa turun performanya” agak membingungkan.
      Kalau menambahkan prompt seperti “bertindaklah bodoh”, tentu performanya bisa turun. Pertanyaannya adalah seberapa besar gaya keluaran tertentu benar-benar berpengaruh
  • Saya selalu mengira kalau LLM dipaksa berbicara dengan gaya selain gaya default-nya, kemampuan penalarannya akan berkurang.
    Karena sebagian layer model mau tidak mau harus fokus pada salah satu dari “apa yang akan dikatakan” atau “bagaimana cara mengatakannya”
    Dalam eksperimen seperti novel kolaboratif atau roleplay, saya melihat bahwa makin banyak fakta yang harus dipertimbangkan model, makin sulit baginya mempertahankan gaya

    • Sebaliknya, kalau disuruh “bicara lebih cerewet”, keluarannya jadi jauh lebih banyak. Instruksi kepribadian memang benar-benar punya pengaruh besar
    • Saya juga berpikir begitu. Pada akhirnya model punya attention budget yang terbatas, jadi hal yang bisa dikerjakan sekaligus juga terbatas
  • Ide ini menarik. Tapi saya juga ingin melihat arah penggunaan token yang kaya, bukan sekadar token yang sedikit.
    Misalnya memakai ungkapan yang lebih presisi seperti “improve idiomatically” alih-alih “make good”. Bahasa adalah modulator untuk mengatur realitas, jadi penggunaan yang lebih halus tampaknya bisa memberi hasil lebih baik. Benchmark-nya ditunggu

    • Gaya “caveman” ini mengingatkan saya pada gaya telegram zaman dulu. Mungkinkah model mempelajari “token kaya” yang memadatkan informasi seperti buku singkatan telegram, lalu mendekodenya di browser? tautan buku singkatan telegram
    • Ini mirip perdebatan RISC vs CISC. Seperti kesederhanaan yang menang dalam skalabilitas, LLM juga tampaknya berkembang ke arah berpikir dengan konsep yang sederhana dan ortogonal
    • Ada yang menyarankan mencoba prompt seperti “MILSPEC prose register. Max per-token semantic yield.”
  • Saya mencoba bicara ke Claude seperti caveman, tapi pemahamannya menurun dan jadi banyak salah paham. Saya justru harus menjelaskan lebih banyak, dan kalau ada typo, kehilangan konteksnya besar.
    Akhirnya terasa butuh lebih banyak kata. Juga sepertinya LLM mendapat lebih sedikit informasi dari jawaban-jawabannya sendiri sebelumnya

    • Di forum umum (Twitter, Reddit) orang juga sering mengeluh LLM itu bodoh, tapi kalau melihat cara mereka menulis, kita jadi tahu alasannya
    • Dulu pada masa awal ChatGPT saya pernah mencoba bicara hanya dengan s-expression, dan model juga menjawab dengan s-expression. Isinya kacau, tapi tanda kurungnya benar. Sekarang sudah tidak begitu lagi
    • “Ngomong banyak kenapa? Ngomong sedikit hemat waktu. Dunia laut”
    • Sebagian besar data gaya bicara “caveman” bukanlah percakapan ilmiah, jadi tampaknya model tidak bisa memprediksi konteks seperti itu
  • Saya melihat tulisan tentang Grug brained developer bertemu AI tooling (grugbrain.dev)

    • Saya juga sering memakai Grug sebagai contoh saat meminta LLM menjelaskan konsep
  • Ide ini menarik. Tapi perusahaan saya menilai kinerja dari jumlah konsumsi token. Adakah skill untuk sengaja membuat Claude lebih bertele-tele?

    • Suruh saja menjelaskan dengan gaya ELI5 ke /tmp di setiap loop
    • Ini serius atau bercanda? Anda kerja di Nvidia?
  • Idenya lucu, tapi dalam praktiknya token input yang jadi bottleneck.
    Model membaca banyak file, output tool, dan pohon direktori, sementara keluarannya hanya beberapa ratus baris kode dan penjelasan singkat

    • Untuk single-turn benar, tapi kalau akumulasi multi-turn, optimasi output tetap berarti.
      Omong-omong, poin yang sama tetap bisa disampaikan tanpa “Cute idea, but” (tautan)
    • Selain itu, skill ini tidak memengaruhi thinking token. Bahkan mungkin perlu lebih banyak penalaran internal untuk mengubahnya ke gaya caveman
  • Ada juga riset terkait, ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026)

  • Menarik. Mungkin juga memungkinkan untuk mendekompresi hasil keluaran dengan model 2B

  • Mungkin sudah ada yang mencobanya, atau saya sendiri sedang mempertimbangkan untuk mengimplementasikannya
    Kalau LLM saling berkomunikasi dengan bahasa non-manusia alih-alih bahasa manusia, efisiensinya mungkin bisa lebih tinggi.
    Strukturnya: model lokal kecil menerjemahkan input manusia ke bahasa yang ramah untuk LLM, lalu model besar berpikir dalam bahasa itu sebelum diterjemahkan kembali
    Model seperti Apple Fundamental Models yang punya context window kecil juga bisa dipakai sebagai lapisan terjemahan seperti ini.
    Dengan reinforcement learning, tampaknya juga mungkin membiarkan mereka menemukan bahasa seperti itu sendiri. Rasanya ini bisa jadi proyek yang sangat menarik

    • Saya juga memikirkan hal serupa. Akan bagus kalau ada bahasa khusus LLM dan model dilatih menggunakannya, tapi mungkin butuh 60 hingga 100 juta dolar.
      Karena kita harus membuat bahasa yang benar-benar baru sekaligus metode pelatihannya. Tapi kalau ada yang menggalang investasi VC, saya ingin ikut