- Alat perhitungan untuk menganalisis masalah di mana tokenizer baru Opus 4.7 membuat prompt yang sama dihitung sebagai lebih banyak token
- Input yang sama dipetakan menjadi 1,0~1,35x token tergantung jenis konten, sehingga biaya per permintaan meningkat meski tanpa mengubah kata-kata
- Hasil penghitungan nyata menunjukkan bahwa, dibanding Opus 4.6, Opus 4.7 meningkatkan rata-rata token permintaan dan rata-rata biaya per permintaan masing-masing sebesar +37,4%
- Berdasarkan 50 kasus terbaru, kenaikannya tersebar dari minimum +19,0% hingga maksimum +86,2%, dengan banyak kasus berada di kisaran +30% dan +40%
- Di halaman ini, Anda bisa menempelkan percakapan, system prompt, dan teks untuk melihat perbandingan rinci selisih jumlah token Opus 4.7 vs 4.6 serta biaya berdasarkan harga saat ini
Latar belakang dibuatnya alat ini
- Dalam pengumuman rilis Opus 4.7, model ini diperkenalkan sebagai upgrade langsung dari Opus 4.6, tetapi ada dua perubahan yang memengaruhi penggunaan token
- Karena tokenizer yang diperbarui, input yang sama dipetakan menjadi 1,0~1,35x token tergantung jenis konten
- Pada effort level yang tinggi, terutama pada turn akhir di lingkungan agentic, model berpikir lebih banyak sehingga jumlah token output meningkat
- Keandalan untuk masalah sulit memang meningkat, tetapi ini juga berdampak langsung pada struktur biaya berbasis token
Dampaknya bagi pengguna
- Bahkan dengan teks prompt yang sama, Opus 4.7 akan menghitung lebih banyak token, sehingga biaya per permintaan naik meski frasa tidak diubah
- Tokenomics memungkinkan pengguna menempelkan percakapan, system prompt, atau teks apa pun untuk langsung memeriksa perbedaan jumlah token antara Opus 4.7 dan 4.6
- Juga menghitung selisih biaya yang konkret berdasarkan harga saat ini
Halaman rata-rata komunitas
- Halaman
/leaderboard mengumpulkan data perbandingan anonim dari para pengguna alat
- Memungkinkan melihat rata-rata kenaikan token nyata menurut berbagai jenis prompt berdasarkan penggunaan aktual
Hal yang perlu diketahui
- Teks prompt tidak disimpan: input diparsing di browser lalu dikirim ke server dan diteruskan ke API penghitung token Anthropic; teks prompt tidak disimpan di DB, hanya metrik jumlah token anonim yang disimpan
- Bukan produk resmi Anthropic: dibuat oleh Bill Chambers dan tidak memiliki hubungan afiliasi, dukungan, atau sponsor dengan Anthropic
- Open source: seluruh source code tersedia di GitHub (
bllchmbrs/tokensmatter), kontribusi dan masukan sangat diterima
Rata-rata komunitas
- Berdasarkan perbandingan permintaan penggunaan nyata yang dikirim secara anonim, dihitung selisih token permintaan dan biaya permintaan Opus 4.7 dibanding Opus 4.6
- Dihitung berdasarkan total 425 kiriman
- Daftar perbandingan terbaru menampilkan 50 kasus terbaru, diurutkan dari yang paling baru
- Rata-rata perubahan token permintaan +37,4%
- Rata-rata perubahan biaya permintaan +37,4%
- Ukuran rata-rata permintaan 369 / 495
- Tidak ada penjelasan tambahan untuk kedua angka ini di sumber asli
Contoh perbandingan anonim terbaru
- Pada tabel 50 kasus terbaru, sebagian besar kasus mencatat kenaikan token permintaan Opus 4.7 dan kenaikan biaya dengan rasio yang sama
- Contoh 1: kiriman
6b5d3ebf, permintaan 23 → 31, biaya $0.000345 → $0.000465, perubahan +34,8%
- Contoh 2: kiriman
1363973a, permintaan 99 → 130, biaya $0.001485 → $0.001950, perubahan +31,3%
- Contoh 3: kiriman
17a9645e, permintaan 16 → 20, biaya $0.000240 → $0.000300, perubahan +25,0%
- Kenaikan juga terlihat pada permintaan kecil
- kiriman
10c3149a, permintaan 8 → 14, biaya $0.000120 → $0.000210, perubahan +75,0%
- kiriman
8f58e536, permintaan 8 → 13, biaya $0.000120 → $0.000195, perubahan +62,5%
- kiriman
942f5d38, permintaan 12 → 19, biaya $0.000180 → $0.000285, perubahan +58,3%
- Kasus kenaikan serupa juga berulang pada permintaan skala menengah
- kiriman
67f5f437, permintaan 188 → 275, biaya $0.002820 → $0.004125, perubahan +46,3%
- kiriman
04249c86, permintaan 176 → 256, biaya $0.002640 → $0.003840, perubahan +45,5%
- kiriman
af25da70, permintaan 269 → 501, biaya $0.004035 → $0.007515, perubahan +86,2%
- Pola kenaikan serupa juga terlihat pada permintaan besar
- kiriman
c5d75d71, permintaan 2,263 → 3,282, biaya $0.0339 → $0.0492, perubahan +45,0%
- kiriman
4db385b5, permintaan 1,592 → 2,205, biaya $0.0239 → $0.0331, perubahan +38,5%
- kiriman
68375705, permintaan 4,449 → 6,434, biaya $0.0667 → $0.0965, perubahan +44,6%
- Terdapat banyak entri kiriman dengan angka yang berulang
- Kasus permintaan 175 → 221, biaya $0.002625 → $0.003315, perubahan +26,3% berulang pada beberapa ID kiriman
- Kasus permintaan 996 → 1,392, biaya $0.0149 → $0.0209, perubahan +39,8% berulang pada beberapa ID kiriman
- Kasus permintaan 43 → 61, biaya $0.000645 → $0.000915, perubahan +41,9% berulang pada beberapa ID kiriman
1 komentar
Komentar Hacker News
Menurut saya, untuk membandingkan secara adil kita harus melihat total biaya. 4.7 menghasilkan token output yang jauh lebih sedikit daripada 4.6, dan biaya reasoning juga tampaknya turun cukup banyak. Jika melihat perbandingan Artificial Analysis, 4.7 keluar sedikit lebih murah daripada 4.6, dan 4.5 hampir setengahnya. Khususnya, biaya reasoning yang hampir terpotong setengah dari 4.6 ke 4.7 cukup mencolok. Namun, pada workload nyata seperti Claude Code, porsi input dan reasoning sama-sama tampak besar, jadi saya masih belum yakin bagaimana kenaikan harga input dan penurunan harga reasoning akan saling mengimbangi. Tugas yang banyak reasoning mungkin jadi lebih murah, tetapi tugas dengan sedikit reasoning justru bisa lebih mahal. Untuk tugas seperti itu, saya mungkin lebih memilih Codex
Secara subjektif, saya hampir tidak merasakan peningkatan performa dari 4.6 ke 4.7, tetapi kecepatan konsumsi limit terasa sangat jelas. Kemarin saya menghabiskan limit 5 jam hanya dalam 2 jam, lalu saat menyalakan batched mode untuk refactor saya membatalkan karena 30% limit habis dalam 5 menit. Setelah itu saya beralih ke mode serial dan memang lebih hemat, tetapi tetap jelas habis jauh lebih cepat daripada 4.6. Sekarang rasanya satu percakapan menghabiskan sekitar 5% dari limit 5 jam, padahal dulu sekitar 1~2%. Saya memakai paket Max 5x jadi masih ada cukup ruang di limit mingguan, tetapi setidaknya saya berharap bagian ini dijelaskan dengan lebih transparan atau diperbaiki. Pengaturan effort juga masih terlalu tidak transparan sehingga kurang membantu secara nyata
Kalau hasilnya bagus, saya tidak keberatan membayar lebih, tetapi sekarang rasanya Anthropic sedang bergerak ke arah membuat kita terus memakai token lewat semacam intermittent reinforcement. Keluarga Claude jelas lebih menyenangkan daripada GPT atau Codex, lebih berkarakter, dan punya selera desain maupun estetika. Rasanya seperti vibe-coding bersama, hampir seperti permainan. Namun hasil akhirnya hampir selalu berujung pada masalah yang sama: menghapus test agar lolos, menambah kode duplikat, salah melakukan abstraksi, mematikan type safety, dan mengabaikan hard requirement. Masalah seperti ini tidak terselesaikan di 4.7, dan apa pun kata benchmark, dalam penggunaan nyata rasanya tetap sama. Saya juga tidak yakin perusahaan ini benar-benar berniat memperbaikinya
Perbandingan ini tampaknya mengukur panjang prompt dengan API penghitung token dalam dua cara untuk mengisolasi hanya perubahan tokenizer. Bisa saja model yang lebih pintar memberi jawaban lebih singkat sehingga token output berkurang, jadi jika itu ikut diperhitungkan, saya rasa perbandingan ini saja belum cukup untuk menyimpulkan bahwa 4.7 benar-benar lebih murah dalam praktik. Tentu hasil akhirnya bisa lebih mahal atau lebih murah, tetapi dari materi ini saja menurut saya belum terlalu membantu untuk menilai penggunaan nyata
Untuk sementara saya akan tetap memakai Opus 4.5 sebagai utama di VSCode Copilot. Workflow saya cenderung memberi instruksi yang cukup rinci ke agen, tetapi kebanyakan agen justru ingin melakukan lebih banyak dari yang perlu. Dari yang pernah saya coba, hal terbaik dari Opus 4.5 adalah kecenderungannya untuk membaca ruang lingkup yang saya inginkan bahkan dari prompt yang tidak sempurna, lalu hanya melakukan seperlunya. 4.6 butuh waktu lebih lama, berpikir terlalu berlebihan, dan cakupan perubahannya juga membesar; model GPT kelas atas juga punya masalah serupa. Model lain seperti Sonnet kurang mampu menangkap niat saya dari instruksi yang kurang presisi dibanding Opus. Karena itu saya berhenti bereksperimen dan tetap memakai 4.5, dan meski mahal, saya merasa masih sepadan. Tetapi sekarang 4.7 akan menggantikan 4.5 dan 4.6 sekaligus di VSCode Copilot, ditambah modifier 7.5x, jadi dari sudut pandang saya ini terlihat lebih lambat dan lebih mahal, bahkan terasa seperti kemunduran
Makin lama saya merasa bahwa menganggap LLM bisa menggantikan seluruh pekerjaan white-collar hanya dengan terus scaling adalah asumsi yang naif. Mekanisme attention atau Hopfield network tampaknya hanya memodelkan sebagian dari otak manusia, dan banyaknya solusi penambal agentic memory belakangan ini justru terlihat seperti bukti bahwa transformer SOTA saat ini saja belum cukup. Bahkan jika dibatasi hanya pada ranah teks pun saya merasa batasannya mulai terlihat, meski mungkin saya hanya sedang mengulang argumen ala Yann LeCun
Kemarin saya mencoba merangkum best practice untuk website satu halaman dengan Opus 4.7, dan hanya dalam sekitar 4 prompt saya sudah melewati limit harian. Setelah menambah sekitar 7 lagi, limit mingguan juga terlewati. Seluruh HTML/CSS/JS-nya bahkan tidak sampai 300 baris, jadi saya cukup terkejut melihat limit penggunaan bisa habis secepat itu
Judulnya menurut saya seharusnya bukan dari 4.7 ke 4.6, tetapi 4.6 to 4.7
Menurut penjelasan Artificial Analysis, Opus 4.7 membutuhkan sekitar 4.406 dolar untuk menjalankan Intelligence Index dengan Adaptive Reasoning dan Max Effort, yaitu sekitar 11% lebih murah daripada 4.6 yang sekitar 4.970 dolar. Skornya juga 4 poin lebih tinggi, dan mereka mengatakan perbedaan ini terjadi karena penggunaan token output berkurang meski tokenizer baru sudah diperhitungkan. Namun, diskon cached input masih belum dimasukkan ke perhitungan ini dan akan segera ditambahkan ke kalkulasi biaya
Kesan saya justru kualitas percakapannya membaik lebih dari dugaan. Ia lebih self-critical, lebih kritis dalam meninjau usulan, dan pilihan default-nya umumnya juga terasa lebih baik. Saya memang belum banyak mencoba berbagai harness seperti orang-orang lain di sini, jadi perbedaannya mungkin terasa kurang menonjol, tetapi justru bagi pengguna yang belum terlalu siap nilainya bisa lebih besar. Bahkan untuk tugas dasar seperti menelusuri alur review terbaru atau melihat diskusi produk, 4.6 memang berguna tetapi mudah menjadi foot-gun, sedangkan 4.7 tampaknya lebih mungkin bertindak seperti anggota senior dalam tim