2 poin oleh GN⁺ 3 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Alat perhitungan untuk menganalisis masalah di mana tokenizer baru Opus 4.7 membuat prompt yang sama dihitung sebagai lebih banyak token
  • Input yang sama dipetakan menjadi 1,0~1,35x token tergantung jenis konten, sehingga biaya per permintaan meningkat meski tanpa mengubah kata-kata
  • Hasil penghitungan nyata menunjukkan bahwa, dibanding Opus 4.6, Opus 4.7 meningkatkan rata-rata token permintaan dan rata-rata biaya per permintaan masing-masing sebesar +37,4%
  • Berdasarkan 50 kasus terbaru, kenaikannya tersebar dari minimum +19,0% hingga maksimum +86,2%, dengan banyak kasus berada di kisaran +30% dan +40%
  • Di halaman ini, Anda bisa menempelkan percakapan, system prompt, dan teks untuk melihat perbandingan rinci selisih jumlah token Opus 4.7 vs 4.6 serta biaya berdasarkan harga saat ini

Latar belakang dibuatnya alat ini

  • Dalam pengumuman rilis Opus 4.7, model ini diperkenalkan sebagai upgrade langsung dari Opus 4.6, tetapi ada dua perubahan yang memengaruhi penggunaan token
    • Karena tokenizer yang diperbarui, input yang sama dipetakan menjadi 1,0~1,35x token tergantung jenis konten
    • Pada effort level yang tinggi, terutama pada turn akhir di lingkungan agentic, model berpikir lebih banyak sehingga jumlah token output meningkat
  • Keandalan untuk masalah sulit memang meningkat, tetapi ini juga berdampak langsung pada struktur biaya berbasis token

Dampaknya bagi pengguna

  • Bahkan dengan teks prompt yang sama, Opus 4.7 akan menghitung lebih banyak token, sehingga biaya per permintaan naik meski frasa tidak diubah
  • Tokenomics memungkinkan pengguna menempelkan percakapan, system prompt, atau teks apa pun untuk langsung memeriksa perbedaan jumlah token antara Opus 4.7 dan 4.6
  • Juga menghitung selisih biaya yang konkret berdasarkan harga saat ini

Halaman rata-rata komunitas

  • Halaman /leaderboard mengumpulkan data perbandingan anonim dari para pengguna alat
  • Memungkinkan melihat rata-rata kenaikan token nyata menurut berbagai jenis prompt berdasarkan penggunaan aktual

Hal yang perlu diketahui

  • Teks prompt tidak disimpan: input diparsing di browser lalu dikirim ke server dan diteruskan ke API penghitung token Anthropic; teks prompt tidak disimpan di DB, hanya metrik jumlah token anonim yang disimpan
  • Bukan produk resmi Anthropic: dibuat oleh Bill Chambers dan tidak memiliki hubungan afiliasi, dukungan, atau sponsor dengan Anthropic
  • Open source: seluruh source code tersedia di GitHub (bllchmbrs/tokensmatter), kontribusi dan masukan sangat diterima

Rata-rata komunitas

  • Berdasarkan perbandingan permintaan penggunaan nyata yang dikirim secara anonim, dihitung selisih token permintaan dan biaya permintaan Opus 4.7 dibanding Opus 4.6
    • Dihitung berdasarkan total 425 kiriman
    • Daftar perbandingan terbaru menampilkan 50 kasus terbaru, diurutkan dari yang paling baru
  • Rata-rata perubahan token permintaan +37,4%
  • Rata-rata perubahan biaya permintaan +37,4%
  • Ukuran rata-rata permintaan 369 / 495
    • Tidak ada penjelasan tambahan untuk kedua angka ini di sumber asli

Contoh perbandingan anonim terbaru

  • Pada tabel 50 kasus terbaru, sebagian besar kasus mencatat kenaikan token permintaan Opus 4.7 dan kenaikan biaya dengan rasio yang sama
    • Contoh 1: kiriman 6b5d3ebf, permintaan 23 → 31, biaya $0.000345 → $0.000465, perubahan +34,8%
    • Contoh 2: kiriman 1363973a, permintaan 99 → 130, biaya $0.001485 → $0.001950, perubahan +31,3%
    • Contoh 3: kiriman 17a9645e, permintaan 16 → 20, biaya $0.000240 → $0.000300, perubahan +25,0%
  • Kenaikan juga terlihat pada permintaan kecil
    • kiriman 10c3149a, permintaan 8 → 14, biaya $0.000120 → $0.000210, perubahan +75,0%
    • kiriman 8f58e536, permintaan 8 → 13, biaya $0.000120 → $0.000195, perubahan +62,5%
    • kiriman 942f5d38, permintaan 12 → 19, biaya $0.000180 → $0.000285, perubahan +58,3%
  • Kasus kenaikan serupa juga berulang pada permintaan skala menengah
    • kiriman 67f5f437, permintaan 188 → 275, biaya $0.002820 → $0.004125, perubahan +46,3%
    • kiriman 04249c86, permintaan 176 → 256, biaya $0.002640 → $0.003840, perubahan +45,5%
    • kiriman af25da70, permintaan 269 → 501, biaya $0.004035 → $0.007515, perubahan +86,2%
  • Pola kenaikan serupa juga terlihat pada permintaan besar
    • kiriman c5d75d71, permintaan 2,263 → 3,282, biaya $0.0339 → $0.0492, perubahan +45,0%
    • kiriman 4db385b5, permintaan 1,592 → 2,205, biaya $0.0239 → $0.0331, perubahan +38,5%
    • kiriman 68375705, permintaan 4,449 → 6,434, biaya $0.0667 → $0.0965, perubahan +44,6%
  • Terdapat banyak entri kiriman dengan angka yang berulang
    • Kasus permintaan 175 → 221, biaya $0.002625 → $0.003315, perubahan +26,3% berulang pada beberapa ID kiriman
    • Kasus permintaan 996 → 1,392, biaya $0.0149 → $0.0209, perubahan +39,8% berulang pada beberapa ID kiriman
    • Kasus permintaan 43 → 61, biaya $0.000645 → $0.000915, perubahan +41,9% berulang pada beberapa ID kiriman

1 komentar

 
GN⁺ 3 hari lalu
Komentar Hacker News
  • Menurut saya, untuk membandingkan secara adil kita harus melihat total biaya. 4.7 menghasilkan token output yang jauh lebih sedikit daripada 4.6, dan biaya reasoning juga tampaknya turun cukup banyak. Jika melihat perbandingan Artificial Analysis, 4.7 keluar sedikit lebih murah daripada 4.6, dan 4.5 hampir setengahnya. Khususnya, biaya reasoning yang hampir terpotong setengah dari 4.6 ke 4.7 cukup mencolok. Namun, pada workload nyata seperti Claude Code, porsi input dan reasoning sama-sama tampak besar, jadi saya masih belum yakin bagaimana kenaikan harga input dan penurunan harga reasoning akan saling mengimbangi. Tugas yang banyak reasoning mungkin jadi lebih murah, tetapi tugas dengan sedikit reasoning justru bisa lebih mahal. Untuk tugas seperti itu, saya mungkin lebih memilih Codex

    • Menurut saya, alasan 4.7 berpikir lebih sedikit dan juga menghasilkan output lebih sedikit adalah karena forced adaptive thinking. Pengguna API juga tidak bisa mematikannya, padahal ini adalah pendekatan yang sama yang menimbulkan masalah kualitas di Opus 4.6 hanya dua minggu lalu. Saat itu juga ada pendapat yang menyarankan penonaktifan, dan kalau tidak salah bahkan ada kasus token thinking dialokasikan 0. Sampai sekarang pun banyak orang mengeluhkan penurunan kualitas Opus 4.7, dan saya sendiri sering melihat kesalahan yang sangat mendasar. Ia membakar token selama 10 menit tetapi sebenarnya tidak membaca kode dengan benar, hanya mengaburkan masalah dengan hand-waving, lalu belakangan membalikkan pendiriannya sendiri. Opus dengan adaptive thinking aktif terasa sulit dipercaya. Jika perlu, saya juga bisa memberikan session feedback ID
    • Ada juga yang berpendapat bahwa karena model dengan nomor yang sama pun bisa berubah perilaku dan penggunaan tokennya seiring waktu, maka pengujian model yang sama di waktu berbeda justru lebih adil. Nama versinya mungkin sama, tetapi perilaku internalnya bisa berubah, jadi hasil uji terbaru belum tentu cocok dijadikan acuan perbandingan di masa depan
  • Secara subjektif, saya hampir tidak merasakan peningkatan performa dari 4.6 ke 4.7, tetapi kecepatan konsumsi limit terasa sangat jelas. Kemarin saya menghabiskan limit 5 jam hanya dalam 2 jam, lalu saat menyalakan batched mode untuk refactor saya membatalkan karena 30% limit habis dalam 5 menit. Setelah itu saya beralih ke mode serial dan memang lebih hemat, tetapi tetap jelas habis jauh lebih cepat daripada 4.6. Sekarang rasanya satu percakapan menghabiskan sekitar 5% dari limit 5 jam, padahal dulu sekitar 1~2%. Saya memakai paket Max 5x jadi masih ada cukup ruang di limit mingguan, tetapi setidaknya saya berharap bagian ini dijelaskan dengan lebih transparan atau diperbaiki. Pengaturan effort juga masih terlalu tidak transparan sehingga kurang membantu secara nyata

    • Yang paling menjengkelkan adalah penurunan kualitas akibat penerapan adaptive thinking secara paksa. Itu memakan 5~10% pemakaian Max 5x saya dan berjalan sampai 10 menit, tetapi hasil yang kembali sering kali sulit dipercaya. Alih-alih benar-benar membaca kode dan bernalar, ia cenderung asal melewati masalah, jadi Opus dengan adaptive thinking aktif terasa tidak bisa diandalkan
    • Dari yang saya pahami, jika jeda antar prompt lebih dari 5 menit, maka tanpa compact atau clear kita sepertinya harus membayar lagi biaya inisialisasi ulang cache. Bahkan dengan compact pun biayanya tampaknya tidak benar-benar hilang, hanya token input yang sedikit berkurang. Tapi saya juga penasaran apakah compaction itu sendiri gratis
  • Kalau hasilnya bagus, saya tidak keberatan membayar lebih, tetapi sekarang rasanya Anthropic sedang bergerak ke arah membuat kita terus memakai token lewat semacam intermittent reinforcement. Keluarga Claude jelas lebih menyenangkan daripada GPT atau Codex, lebih berkarakter, dan punya selera desain maupun estetika. Rasanya seperti vibe-coding bersama, hampir seperti permainan. Namun hasil akhirnya hampir selalu berujung pada masalah yang sama: menghapus test agar lolos, menambah kode duplikat, salah melakukan abstraksi, mematikan type safety, dan mengabaikan hard requirement. Masalah seperti ini tidak terselesaikan di 4.7, dan apa pun kata benchmark, dalam penggunaan nyata rasanya tetap sama. Saya juga tidak yakin perusahaan ini benar-benar berniat memperbaikinya

    • Saya juga merasakan hal yang hampir sama. Saat ini alat-alat ini tampak sangat berguna terutama sebagai pengganti Google, scaffolding yang merepotkan, code review, dan pencarian tingkat lanjut. Karena mereka sudah mendapat posisi di pasar coding LLM, sekarang kelihatannya mereka mulai serius memonetisasi, dan saya memperkirakan ke depannya akan terus muncul model yang peningkatan performanya minim tetapi harganya naik lebih dari 40%
    • Menurut saya AI itu tidak cukup hanya dilepas begitu saja, tetapi harus dipandu. Kalau kita punya kemampuan untuk mengarahkannya dengan benar, hasil berkualitas tinggi tetap bisa didapat
    • Dari kritik di atas, saya merasa interpretasi bahwa Anthropic sengaja memilih strategi ekstraksi jangka pendek untuk mendorong konsumsi token terlalu pasti. Sulit rasanya mengklaim tahu strategi perusahaan dari luar. Dugaan saya, dibanding skenario itu, jauh lebih mungkin performanya goyah karena masalah infrastruktur atau kapasitas, atau tuning-nya diarahkan ke hal yang diinginkan engineer, bukan pelanggan, atau dibuat lebih hati-hati karena kekhawatiran keamanan seperti pesan keselamatan terkait Mythos. Faktor-faktor ini juga tidak saling eksklusif. Saya sendiri juga tidak merasa Opus 4.7 sangat mengesankan, tetapi saya juga belum lama memakainya dan belum menjalankan benchmark sendiri. Selain itu, akhir-akhir ini tugas yang saya berikan ke Claude jauh lebih sulit daripada beberapa minggu lalu, yaitu soal Bayesian probabilistic modeling, jadi mungkin saya sendiri sedang mendorong batas model lebih keras
  • Perbandingan ini tampaknya mengukur panjang prompt dengan API penghitung token dalam dua cara untuk mengisolasi hanya perubahan tokenizer. Bisa saja model yang lebih pintar memberi jawaban lebih singkat sehingga token output berkurang, jadi jika itu ikut diperhitungkan, saya rasa perbandingan ini saja belum cukup untuk menyimpulkan bahwa 4.7 benar-benar lebih murah dalam praktik. Tentu hasil akhirnya bisa lebih mahal atau lebih murah, tetapi dari materi ini saja menurut saya belum terlalu membantu untuk menilai penggunaan nyata

    • Untuk data yang lebih dekat ke penggunaan nyata, benchmark Artificial Analysis melaporkan bahwa 4.6 max memakai sekitar 160 juta token, sementara 4.7 max sekitar 100 juta token. Jika melihat rincian biaya, biaya input naik 800 dolar tetapi biaya output turun 1400 dolar. Tentu saja seberapa jauh kompensasi output terhadap input terjadi akan sangat berbeda tergantung use case, dan makin rendah effort tampaknya selisihnya juga akan makin kecil
    • Saya kurang paham kenapa dibilang tidak berguna. Harga token input 4.7 memang tetap sama, tetapi terlihat jelas bahwa prompt yang sama sekarang jadi sekitar 30% lebih mahal dari sisi input
    • Benar. Saya juga melihat bahwa di 4.6, setelah mulai mengubah setiap sesi ke max effort, justru penggunaan token saya turun. Karena thinking di tengah jalan mengoreksi dirinya sendiri, trial-and-error berkurang dan pekerjaan selesai dalam lebih sedikit langkah. Sebaliknya, 4.7 tampaknya lebih sering berputar-putar bahkan pada tugas dasar. Meski begitu, kemampuannya mempertahankan konteks panjang dalam waktu lama mungkin sedikit lebih baik
    • Di bidang AI, entah kenapa rasanya selalu tidak pernah ada perbandingan yang berguna yang bisa diterima semua orang
  • Untuk sementara saya akan tetap memakai Opus 4.5 sebagai utama di VSCode Copilot. Workflow saya cenderung memberi instruksi yang cukup rinci ke agen, tetapi kebanyakan agen justru ingin melakukan lebih banyak dari yang perlu. Dari yang pernah saya coba, hal terbaik dari Opus 4.5 adalah kecenderungannya untuk membaca ruang lingkup yang saya inginkan bahkan dari prompt yang tidak sempurna, lalu hanya melakukan seperlunya. 4.6 butuh waktu lebih lama, berpikir terlalu berlebihan, dan cakupan perubahannya juga membesar; model GPT kelas atas juga punya masalah serupa. Model lain seperti Sonnet kurang mampu menangkap niat saya dari instruksi yang kurang presisi dibanding Opus. Karena itu saya berhenti bereksperimen dan tetap memakai 4.5, dan meski mahal, saya merasa masih sepadan. Tetapi sekarang 4.7 akan menggantikan 4.5 dan 4.6 sekaligus di VSCode Copilot, ditambah modifier 7.5x, jadi dari sudut pandang saya ini terlihat lebih lambat dan lebih mahal, bahkan terasa seperti kemunduran

    • Saya penasaran kenapa tidak pakai Sonnet saja
    • Saya juga sempat bertanya-tanya apakah pernyataan bahwa 4.7 menggantikan 4.5 dan 4.6 benar-benar berarti 4.5 akan hilang. Saya juga sudah menetap di 4.5, jadi kalau itu benar cukup disayangkan
  • Makin lama saya merasa bahwa menganggap LLM bisa menggantikan seluruh pekerjaan white-collar hanya dengan terus scaling adalah asumsi yang naif. Mekanisme attention atau Hopfield network tampaknya hanya memodelkan sebagian dari otak manusia, dan banyaknya solusi penambal agentic memory belakangan ini justru terlihat seperti bukti bahwa transformer SOTA saat ini saja belum cukup. Bahkan jika dibatasi hanya pada ranah teks pun saya merasa batasannya mulai terlihat, meski mungkin saya hanya sedang mengulang argumen ala Yann LeCun

    • Mungkin memang benar Anda sedang mengulang argumen itu. Logika small subset bahwa transformer hanya mirip sebagian kecil otak manusia menurut saya kurang meyakinkan, baik secara neurobiologis maupun jika melihat performa LLM di dunia nyata. Transformer adalah arsitektur yang sangat umum dan ekspresif, dipakai bukan hanya untuk LLM tetapi juga video, audio, SLAM, VLA, dan banyak area lain. Fakta bahwa ia tidak menyalin otak manusia satu banding satu tidak berarti ia tidak bisa mencapai kecerdasan yang setara secara fungsional. Otak manusia hanyalah salah satu bentuk implementasi yang muncul lewat evolusi. Klaim LeCun bahwa LLM tidak bisa melakukan ini-itu juga terus terpatahkan secara empiris. Bahkan pada benchmark seperti ARC-AGI-3 yang dirancang tidak menguntungkan LLM, saya belum melihat keluarga AI lain yang bisa dibilang lebih baik daripada LLM
    • Saya merasa dengan scaling saja kita sudah hampir mencapai batas atas. Namun efisiensi masih bisa membaik, dan tooling maupun harness di sekelilingnya akan terus berkembang
    • Bahkan jika dibatasi ke teks saja, pertanyaannya tetap ada. Kenapa sampai sekarang masih belum bisa menulis sebuah novel dengan baik? Kalau standarnya diturunkan ke novella pun, rasanya belum bisa mencapai tingkat karya seperti Death in Venice, Candide, The Metamorphosis, atau Breakfast at Tiffany's. Semua buku itu pasti ada di korpus pelatihan, jadi saya penasaran apakah ini hanya soal belum ada orang yang mau membakar token senilai ratusan ribu dolar untuk mencobanya
  • Kemarin saya mencoba merangkum best practice untuk website satu halaman dengan Opus 4.7, dan hanya dalam sekitar 4 prompt saya sudah melewati limit harian. Setelah menambah sekitar 7 lagi, limit mingguan juga terlewati. Seluruh HTML/CSS/JS-nya bahkan tidak sampai 300 baris, jadi saya cukup terkejut melihat limit penggunaan bisa habis secepat itu

    • Saya belum mencoba Claude justru karena saya merasa hal seperti ini akan terjadi. Jika berlangganan enterprise, tagihannya hanya akan makin besar, dan rasanya VP juga tidak akan mudah langsung mengirim pengumuman migrasi ke seluruh karyawan. Kalau pelanggan individu lebih dulu pergi, penggunaan data center mungkin turun dan profitabilitas justru naik
    • Saya penasaran reasoning effort-nya diatur ke apa. Setahu saya Max memang memakai token jauh lebih banyak dan tidak direkomendasikan untuk sebagian besar use case. Default baru xhigh juga lebih boros daripada default lama medium
    • Saya penasaran Anda pakai paket apa. Kalau Pro, itu masih masuk akal, tetapi kalau di paket Max sampai segitu saya akan agak terkejut
    • Saya penasaran apakah ini memakai langganan Claude. Setahu saya Claude versi langganan tidak bekerja seperti itu
  • Judulnya menurut saya seharusnya bukan dari 4.7 ke 4.6, tetapi 4.6 to 4.7

    • Sangat setuju
    • Bahkan bagi pembaca kiri ke kanan, Opus 4.6 to 4.7 terasa jauh lebih alami
  • Menurut penjelasan Artificial Analysis, Opus 4.7 membutuhkan sekitar 4.406 dolar untuk menjalankan Intelligence Index dengan Adaptive Reasoning dan Max Effort, yaitu sekitar 11% lebih murah daripada 4.6 yang sekitar 4.970 dolar. Skornya juga 4 poin lebih tinggi, dan mereka mengatakan perbedaan ini terjadi karena penggunaan token output berkurang meski tokenizer baru sudah diperhitungkan. Namun, diskon cached input masih belum dimasukkan ke perhitungan ini dan akan segera ditambahkan ke kalkulasi biaya

  • Kesan saya justru kualitas percakapannya membaik lebih dari dugaan. Ia lebih self-critical, lebih kritis dalam meninjau usulan, dan pilihan default-nya umumnya juga terasa lebih baik. Saya memang belum banyak mencoba berbagai harness seperti orang-orang lain di sini, jadi perbedaannya mungkin terasa kurang menonjol, tetapi justru bagi pengguna yang belum terlalu siap nilainya bisa lebih besar. Bahkan untuk tugas dasar seperti menelusuri alur review terbaru atau melihat diskusi produk, 4.6 memang berguna tetapi mudah menjadi foot-gun, sedangkan 4.7 tampaknya lebih mungkin bertindak seperti anggota senior dalam tim