- Claude 4.7 menghasilkan rata-rata 1,3–1,45x lebih banyak token dibanding versi sebelumnya, sehingga dalam skema harga yang sama terjadi kenaikan biaya 20–30% per sesi
- Peningkatan token paling menonjol pada konten berbahasa Inggris dan kode, sementara konten CJK (Tionghoa, Jepang, Korea) hampir tidak berubah
- Berkat tokenisasi yang lebih terperinci, kepatuhan terhadap instruksi (Instruction Following) meningkat sekitar 5 poin persentase, terutama dengan berkurangnya kesalahan format
- Jumlah token pada cache prefix dan riwayat percakapan meningkat, sehingga biaya cache dan laju konsumsi rate limit ikut naik
- Secara keseluruhan, Claude 4.7 dinilai sebagai struktur yang menukar biaya token tambahan dengan akurasi lebih tinggi dan eksekusi instruksi yang lebih rinci
Hasil Pengukuran Tokenizer Claude 4.7
- Claude Opus 4.7 dari Anthropic disebut menggunakan 1,0–1,35x lebih banyak token dibanding versi sebelumnya, 4.6, tetapi pengukuran nyata menunjukkan angka sekitar 1,45–1,47x
- Dengan harga dan kuota yang sama, kenaikan jumlah token berdampak pada konsumsi max window yang lebih cepat, biaya cache prefix yang lebih tinggi, dan lebih cepat mencapai rate limit
- Eksperimen dibagi menjadi dua bagian: pengukuran biaya dan pengukuran kepatuhan instruksi
Metode Pengukuran Biaya
- Menggunakan endpoint Anthropic API
POST /v1/messages/count_tokens untuk memasukkan konten yang sama ke model 4.6 dan 4.7, sehingga hanya perbedaan tokenizer murni yang dibandingkan
- Menggunakan dua set sampel
- 7 sampel penggunaan nyata yang dikirim oleh pengguna Claude Code
- 12 sampel buatan yang mencakup bahasa Inggris, kode, data terstruktur, CJK, emoji, simbol matematika, dan lain-lain
-
Hasil konten Claude Code nyata
- Rasio rata-rata tertimbang 1,325x untuk 7 sampel nyata (8.254 → 10.937 token)
- Contoh utama
- File CLAUDE.md: 1,445x
- Prompt pengguna: 1,373x
- Postingan blog: 1,368x
- Diff kode: 1,212x
-
Hasil berdasarkan jenis konten (12 sampel buatan)
- Rata-rata konten bahasa Inggris dan kode: 1,345x
- Rata-rata konten CJK (Tionghoa, Jepang, Korea): 1,01x
- Contoh rinci
- Dokumentasi teknis: 1,47x
- Shell script: 1,39x
- Kode TypeScript: 1,36x
- Prosa bahasa Inggris: 1,20x
- JSON: 1,13x
- Prosa Jepang dan Tionghoa: 1,01x
Pola Perubahan pada Tokenizer
- Konten CJK, emoji, dan simbol berada di kisaran 1,005–1,07x, sehingga nyaris tidak berubah
- Kosakata non-Latin tampaknya tidak banyak diubah
- Konten bahasa Inggris dan kode meningkat 1,20–1,47x, dengan dampak pada kode lebih besar daripada prosa
- String berulang pada kode (keyword, import, identifier, dan lain-lain) dipecah lebih rinci sehingga terbagi menjadi lebih banyak token
- Rasio token per karakter dalam bahasa Inggris turun dari 4,33→3,60, dan TypeScript dari 3,66→2,69
- Teks yang sama direpresentasikan dalam unit yang lebih kecil
Mengapa Menggunakan Lebih Banyak Token
- Anthropic menekankan bahwa 4.7 “cenderung mengikuti instruksi secara lebih literal”
- Unit token yang lebih kecil membantu memperkuat attention pada level kata, sehingga meningkatkan eksekusi instruksi yang akurat, tugas tingkat karakter, dan presisi pemanggilan alat
- Mitra seperti Notion, Warp, dan Factory melaporkan berkurangnya kesalahan eksekusi alat
- Namun, selain tokenisasi, bobot model dan post-training juga berubah, sehingga penyebab pastinya tidak bisa dipisahkan
Uji Kepatuhan Instruksi
- Menggunakan benchmark IFEval (2023, Google): dari 541 prompt seperti “jawab dalam tepat N kata” atau “tulis tanpa koma”, diambil 20 sampel untuk diuji
- Hasil
- Mode ketat per prompt: 4.6 → 85%, 4.7 → 90% (+5pp)
- Mode ketat per instruksi: 86% → 90% (+4pp)
- Dalam mode longgar, tidak ada perbedaan
- Peningkatan terutama berasal dari berkurangnya kesalahan terkait format
- Perbedaan yang jelas hanya terlihat pada satu prompt (
change_case:english_capital)
- Karena ukuran sampel kecil (+5pp secara statistik belum pasti), hasil ini dinilai sebagai peningkatan kecil tetapi konsisten
Perhitungan Biaya per Sesi Claude Code
- Asumsi sesi percakapan 80 putaran bolak-balik
- Prefix statis: 6K token (CLAUDE.md 2K + definisi alat 4K)
- Riwayat percakapan: bertambah 2K per giliran, mencapai 160K pada giliran ke-80
- Input/output: 500 / 1.500 token per giliran
- Cache hit rate: 95%
-
Biaya sesi berdasarkan 4.6
- | Item | Perhitungan | Biaya |
- | --- | --- | --- |
- | Penulisan cache pertama | 8K × $6.25/MTok | $0.05 |
- | Pembacaan cache (79x) | 79 × 86K × $0.50/MTok | $3.40 |
- | Input baru | 79 × 500 × $5/MTok | $0.20 |
- | Output | 80 × 1.500 × $25/MTok | $3.00 |
- | Total | | sekitar $6.65 |
-
Biaya sesi berdasarkan 4.7
- CLAUDE.md: 1,445x → 2K → 2,9K
- Definisi alat: 1,12x → 4K → 4,5K
- Riwayat percakapan: 1,325x → 160K → 212K
- Input pengguna: 1,325x → 500 → 660
- Rata-rata cache prefix: sekitar 115K token
- | Item | Perhitungan | Biaya |
- | --- | --- | --- |
- | Penulisan cache pertama | 10K × $6.25/MTok | $0.06 |
- | Pembacaan cache (79x) | 79 × 115K × $0.50/MTok | $4.54 |
- | Input baru | 79 × 660 × $5/MTok | $0.26 |
- | Output | 80 × 1.500–1.950 × $25/MTok | $3.00–$3.90 |
- | Total | | sekitar $7.86–$8.76 |
- Biaya per sesi naik 20–30%, tanpa perubahan harga per token
- Bagi pengguna paket Max, akhir sesi datang lebih cepat dalam jendela waktu yang sama
Dampak pada Prompt Cache
- Karena cache dipisahkan per model, perpindahan ke 4.7 membuat cache 4.6 yang ada menjadi tidak berlaku
- Sesi pertama dimulai tanpa cache, sehingga biaya prefix yang lebih besar langsung muncul
- Volume cache itu sendiri meningkat 1,3–1,45x, sehingga biaya baca dan tulis naik dalam rasio yang sama
- Jumlah token berubah meski log percakapan sama, menyebabkan diskontinuitas pada tagihan dan metrik pemantauan dibanding sebelumnya
Sanggahan dan Interpretasi
-
“Sebagian besar input hanyalah pembacaan cache, jadi dampaknya kecil”
- Jika cache hit rate tinggi, dampak biaya memang kecil, tetapi saat TTL kedaluwarsa, cache tidak berlaku, atau model berganti, biaya naik mengikuti rasio penuh
-
“1,35x bukan batas atas, melainkan rentang”
- Nilai pengukuran nyata terkonsentrasi dekat batas atas (1,325x), dan beberapa file bahkan melampauinya
- Dalam penggunaan nyata, lebih aman merencanakan dengan asumsi batas atas
Kesimpulan
- Pada pekerjaan yang berpusat pada bahasa Inggris dan kode, penggunaan token naik 1,3–1,45x
- Kepatuhan instruksi membaik sekitar +5pp, kecil tetapi terasa nyata
- Biaya per sesi naik 20–30%, dengan harga per token tetap sama
- Pada akhirnya, ini dinilai sebagai struktur di mana biaya tambahan dibayar demi akurasi yang lebih tinggi dan eksekusi instruksi yang lebih rinci
2 komentar
Bukan Claude 4.7, melainkan opus 4.7
Komentar Hacker News
Dengan asumsi kurva performa/biaya LLM berbentuk logaritmik, masih belum jelas apakah Opus 4.5+ adalah titik baru di atas kurva itu, atau sekadar berada di bagian tempat biaya melonjak tajam demi performa yang lebih tinggi
Kenaikan harga cepat oleh Anthropic bisa jadi sinyal yang mencerminkan lonjakan biaya operasional
Saya rasa kebiasaan menampilkan sumbu x sebagai log biaya pada grafik evaluasi model justru menutupi realitas ini
Era memakai model terbaik untuk semuanya sudah berakhir. Kita butuh opsi untuk memilih beberapa titik berbeda tergantung tugas
Untuk tugas kompleks, menurut saya tidak masalah memakai model yang lebih besar dan menghabiskan token setara 5 jam sekaligus
Tapi banyak orang juga akan tidak suka kompleksitas pilihan ini, dan saya perkirakan upaya smart routing akan makin banyak ke depan
Misalnya seperti Apple yang punya segmen pelanggan untuk opsi super mahal, pasar LLM ultra-performa tinggi juga mungkin saja ada
Banyak orang fokus pada biaya model AI, tetapi pada praktiknya waktu manusia untuk mengarahkan dan meninjau agen coding AI jauh lebih mahal
$200/bulan memang mahal untuk hobi, tetapi dari sudut pandang bisnis itu nyaris tidak signifikan
Yang penting adalah seberapa baik model menyelesaikan pekerjaan, dan pada kisaran harga saat ini, yang utama adalah efisiensi terhadap waktu
Saya menilai nilai ekonomis langganan Claude ada di kisaran 10 ribu sampai 40 ribu euro.
Bahkan kalau harganya naik 100x, saya tetap akan beli. Tapi kalau sudah 20 ribu euro/bulan, saya akan mempertimbangkan alternatif; saat ini peningkatan produktivitas masih sangat dominan
Peningkatan kualitas model pada akhirnya akan mencapai titik diminishing returns
Seperti layar 8K vs 16K, kebanyakan pengguna tidak akan benar-benar merasakan bedanya
Jika ada kenaikan biaya 20~30%, harus ada kenaikan nilai yang terlihat sebesar itu juga
Sebaliknya, kueri percakapan umum sudah jenuh, jadi sulit membedakan model satu dengan yang lain
Multiplier model GitHub Copilot naik dari 3 menjadi 7.5
Ini terlihat seperti upaya Microsoft untuk mengurangi kerugian
Lihat dokumentasi resmi
Judul artikelnya menyesatkan. Jumlah token memang naik, tetapi biaya per tugas bisa berbeda
Dengan asumsi Opus 4.7 tidak memakai jalur penalaran yang sama dengan Opus 4.6
Kita perlu menunggu hasil Intelligence Index dari Artificial Analysis
Kemarin saat memakai Opus hasilnya luar biasa bagus, tetapi hari ini terus salah bahkan pada tugas sederhana
Saya sampai harus menunjukkan masalah yang sama untuk ketiga kalinya, sesi sering terputus, dan compaction terjadi berlebihan
Akhirnya saya memutuskan kembali ke Sonnet
Belakangan saya sering berpikir, “apakah kita benar-benar butuh model yang lebih kuat?”
Industri terlalu terpaku pada perlombaan performa dan melupakan efisiensi serta keberlanjutan
Ke depan, menurut saya arah pentingnya adalah mengoptimalkan model 0.5B~1B parameter untuk tugas tertentu
Seperti tulisan CPUs Aren’t Dead, model Gemma 4 E2B dari Google bisa berjalan bahkan di ponsel dan melampaui GPT-3.5-turbo
Menurut Intelligence Index dari Artificial Analysis, model 2B terbaru menghasilkan performa mirip model 175B dari 3~4 tahun lalu
Gemma 4 E4B bahkan kadang melampaui GPT-4o
Kalau tren ini berlanjut, tak lama lagi kita bisa menjalankan model papan atas di laptop
Promosi seperti “model baru ini gila” pada akhirnya hanyalah pemasaran FOMO
Para penjual camilan di Kolkata, India, tidak bisa menaikkan harga meski harga bahan baku naik, jadi mereka menyiasatinya dengan mengecilkan ukuran
Begitulah adaptasi psikologis manusia bekerja
Anthropic memperkenalkan mode xhigh baru di 4.7
Mode max memakai token lebih banyak dan bisa memicu penalaran berlebihan, jadi untuk kebanyakan kasus mereka merekomendasikan xhigh
Lihat dokumentasi resmi
Berdasarkan kode nyata, Opus 4.7 menunjukkan kenaikan sekitar 30% token
Yang penting adalah “kemampuan baru apa yang diberikan 4.7 dibanding 4.6”
Masih terlalu dini untuk menilai, dan kalau memang bernilai, kenaikan biaya bisa diterima
Jika ruang lingkup tugas dipersempit, review dan pengelolaan jadi lebih mudah, dan perbaikan bisa cepat dilakukan dengan diff kecil
Kalau konsumsi token Copilot naik 7x, saya malah merasa akan terjadi gangguan alur kerja