3 poin oleh GN⁺ 2 hari lalu | 2 komentar | Bagikan ke WhatsApp
  • Claude 4.7 menghasilkan rata-rata 1,3–1,45x lebih banyak token dibanding versi sebelumnya, sehingga dalam skema harga yang sama terjadi kenaikan biaya 20–30% per sesi
  • Peningkatan token paling menonjol pada konten berbahasa Inggris dan kode, sementara konten CJK (Tionghoa, Jepang, Korea) hampir tidak berubah
  • Berkat tokenisasi yang lebih terperinci, kepatuhan terhadap instruksi (Instruction Following) meningkat sekitar 5 poin persentase, terutama dengan berkurangnya kesalahan format
  • Jumlah token pada cache prefix dan riwayat percakapan meningkat, sehingga biaya cache dan laju konsumsi rate limit ikut naik
  • Secara keseluruhan, Claude 4.7 dinilai sebagai struktur yang menukar biaya token tambahan dengan akurasi lebih tinggi dan eksekusi instruksi yang lebih rinci

Hasil Pengukuran Tokenizer Claude 4.7

  • Claude Opus 4.7 dari Anthropic disebut menggunakan 1,0–1,35x lebih banyak token dibanding versi sebelumnya, 4.6, tetapi pengukuran nyata menunjukkan angka sekitar 1,45–1,47x
  • Dengan harga dan kuota yang sama, kenaikan jumlah token berdampak pada konsumsi max window yang lebih cepat, biaya cache prefix yang lebih tinggi, dan lebih cepat mencapai rate limit
  • Eksperimen dibagi menjadi dua bagian: pengukuran biaya dan pengukuran kepatuhan instruksi

Metode Pengukuran Biaya

  • Menggunakan endpoint Anthropic API POST /v1/messages/count_tokens untuk memasukkan konten yang sama ke model 4.6 dan 4.7, sehingga hanya perbedaan tokenizer murni yang dibandingkan
  • Menggunakan dua set sampel
    • 7 sampel penggunaan nyata yang dikirim oleh pengguna Claude Code
    • 12 sampel buatan yang mencakup bahasa Inggris, kode, data terstruktur, CJK, emoji, simbol matematika, dan lain-lain
  • Hasil konten Claude Code nyata

    • Rasio rata-rata tertimbang 1,325x untuk 7 sampel nyata (8.254 → 10.937 token)
    • Contoh utama
    • File CLAUDE.md: 1,445x
    • Prompt pengguna: 1,373x
    • Postingan blog: 1,368x
    • Diff kode: 1,212x
  • Hasil berdasarkan jenis konten (12 sampel buatan)

    • Rata-rata konten bahasa Inggris dan kode: 1,345x
    • Rata-rata konten CJK (Tionghoa, Jepang, Korea): 1,01x
    • Contoh rinci
    • Dokumentasi teknis: 1,47x
    • Shell script: 1,39x
    • Kode TypeScript: 1,36x
    • Prosa bahasa Inggris: 1,20x
    • JSON: 1,13x
    • Prosa Jepang dan Tionghoa: 1,01x

Pola Perubahan pada Tokenizer

  • Konten CJK, emoji, dan simbol berada di kisaran 1,005–1,07x, sehingga nyaris tidak berubah
    • Kosakata non-Latin tampaknya tidak banyak diubah
  • Konten bahasa Inggris dan kode meningkat 1,20–1,47x, dengan dampak pada kode lebih besar daripada prosa
    • String berulang pada kode (keyword, import, identifier, dan lain-lain) dipecah lebih rinci sehingga terbagi menjadi lebih banyak token
  • Rasio token per karakter dalam bahasa Inggris turun dari 4,33→3,60, dan TypeScript dari 3,66→2,69
    • Teks yang sama direpresentasikan dalam unit yang lebih kecil

Mengapa Menggunakan Lebih Banyak Token

  • Anthropic menekankan bahwa 4.7 “cenderung mengikuti instruksi secara lebih literal”
  • Unit token yang lebih kecil membantu memperkuat attention pada level kata, sehingga meningkatkan eksekusi instruksi yang akurat, tugas tingkat karakter, dan presisi pemanggilan alat
  • Mitra seperti Notion, Warp, dan Factory melaporkan berkurangnya kesalahan eksekusi alat
  • Namun, selain tokenisasi, bobot model dan post-training juga berubah, sehingga penyebab pastinya tidak bisa dipisahkan

Uji Kepatuhan Instruksi

  • Menggunakan benchmark IFEval (2023, Google): dari 541 prompt seperti “jawab dalam tepat N kata” atau “tulis tanpa koma”, diambil 20 sampel untuk diuji
  • Hasil
    • Mode ketat per prompt: 4.6 → 85%, 4.7 → 90% (+5pp)
    • Mode ketat per instruksi: 86% → 90% (+4pp)
    • Dalam mode longgar, tidak ada perbedaan
  • Peningkatan terutama berasal dari berkurangnya kesalahan terkait format
  • Perbedaan yang jelas hanya terlihat pada satu prompt (change_case:english_capital)
  • Karena ukuran sampel kecil (+5pp secara statistik belum pasti), hasil ini dinilai sebagai peningkatan kecil tetapi konsisten

Perhitungan Biaya per Sesi Claude Code

  • Asumsi sesi percakapan 80 putaran bolak-balik
    • Prefix statis: 6K token (CLAUDE.md 2K + definisi alat 4K)
    • Riwayat percakapan: bertambah 2K per giliran, mencapai 160K pada giliran ke-80
    • Input/output: 500 / 1.500 token per giliran
    • Cache hit rate: 95%
  • Biaya sesi berdasarkan 4.6

    • | Item | Perhitungan | Biaya |
    • | --- | --- | --- |
    • | Penulisan cache pertama | 8K × $6.25/MTok | $0.05 |
    • | Pembacaan cache (79x) | 79 × 86K × $0.50/MTok | $3.40 |
    • | Input baru | 79 × 500 × $5/MTok | $0.20 |
    • | Output | 80 × 1.500 × $25/MTok | $3.00 |
    • | Total | | sekitar $6.65 |
  • Biaya sesi berdasarkan 4.7

    • CLAUDE.md: 1,445x → 2K → 2,9K
    • Definisi alat: 1,12x → 4K → 4,5K
    • Riwayat percakapan: 1,325x → 160K → 212K
    • Input pengguna: 1,325x → 500 → 660
    • Rata-rata cache prefix: sekitar 115K token
    • | Item | Perhitungan | Biaya |
    • | --- | --- | --- |
    • | Penulisan cache pertama | 10K × $6.25/MTok | $0.06 |
    • | Pembacaan cache (79x) | 79 × 115K × $0.50/MTok | $4.54 |
    • | Input baru | 79 × 660 × $5/MTok | $0.26 |
    • | Output | 80 × 1.500–1.950 × $25/MTok | $3.00–$3.90 |
    • | Total | | sekitar $7.86–$8.76 |
    • Biaya per sesi naik 20–30%, tanpa perubahan harga per token
    • Bagi pengguna paket Max, akhir sesi datang lebih cepat dalam jendela waktu yang sama

Dampak pada Prompt Cache

  1. Karena cache dipisahkan per model, perpindahan ke 4.7 membuat cache 4.6 yang ada menjadi tidak berlaku
    • Sesi pertama dimulai tanpa cache, sehingga biaya prefix yang lebih besar langsung muncul
  2. Volume cache itu sendiri meningkat 1,3–1,45x, sehingga biaya baca dan tulis naik dalam rasio yang sama
  3. Jumlah token berubah meski log percakapan sama, menyebabkan diskontinuitas pada tagihan dan metrik pemantauan dibanding sebelumnya

Sanggahan dan Interpretasi

  • “Sebagian besar input hanyalah pembacaan cache, jadi dampaknya kecil”

    • Jika cache hit rate tinggi, dampak biaya memang kecil, tetapi saat TTL kedaluwarsa, cache tidak berlaku, atau model berganti, biaya naik mengikuti rasio penuh
  • “1,35x bukan batas atas, melainkan rentang”

    • Nilai pengukuran nyata terkonsentrasi dekat batas atas (1,325x), dan beberapa file bahkan melampauinya
    • Dalam penggunaan nyata, lebih aman merencanakan dengan asumsi batas atas

Kesimpulan

  • Pada pekerjaan yang berpusat pada bahasa Inggris dan kode, penggunaan token naik 1,3–1,45x
  • Kepatuhan instruksi membaik sekitar +5pp, kecil tetapi terasa nyata
  • Biaya per sesi naik 20–30%, dengan harga per token tetap sama
  • Pada akhirnya, ini dinilai sebagai struktur di mana biaya tambahan dibayar demi akurasi yang lebih tinggi dan eksekusi instruksi yang lebih rinci

2 komentar

 
kaydash 2 hari lalu

Bukan Claude 4.7, melainkan opus 4.7

 
GN⁺ 2 hari lalu
Komentar Hacker News
  • Dengan asumsi kurva performa/biaya LLM berbentuk logaritmik, masih belum jelas apakah Opus 4.5+ adalah titik baru di atas kurva itu, atau sekadar berada di bagian tempat biaya melonjak tajam demi performa yang lebih tinggi
    Kenaikan harga cepat oleh Anthropic bisa jadi sinyal yang mencerminkan lonjakan biaya operasional
    Saya rasa kebiasaan menampilkan sumbu x sebagai log biaya pada grafik evaluasi model justru menutupi realitas ini

    • Saya merujuk pada analisis biaya per jam agen AI dari Toby Ord. Konsep frontier performa/biaya miliknya layak mendapat perhatian lebih
    • Sekarang saatnya developer melakukan right-sizing ukuran model dan tingkat usaha sesuai tugas
      Era memakai model terbaik untuk semuanya sudah berakhir. Kita butuh opsi untuk memilih beberapa titik berbeda tergantung tugas
      Untuk tugas kompleks, menurut saya tidak masalah memakai model yang lebih besar dan menghabiskan token setara 5 jam sekaligus
      Tapi banyak orang juga akan tidak suka kompleksitas pilihan ini, dan saya perkirakan upaya smart routing akan makin banyak ke depan
    • Anthropic sedang menuju IPO, jadi tekanannya besar untuk meningkatkan pendapatan per pengguna. Pada akhirnya mereka bergerak ke struktur harga yang mencerminkan biaya operasional model yang sebenarnya
    • Jika model diimplementasikan langsung di silikon, biayanya akan turun dan kecepatannya naik. Upaya seperti Taalas layak dilihat
    • Jika pelanggan bersedia menanggung biaya yang lebih tinggi, saya rasa model yang jauh lebih kuat juga bisa ditawarkan
      Misalnya seperti Apple yang punya segmen pelanggan untuk opsi super mahal, pasar LLM ultra-performa tinggi juga mungkin saja ada
  • Banyak orang fokus pada biaya model AI, tetapi pada praktiknya waktu manusia untuk mengarahkan dan meninjau agen coding AI jauh lebih mahal
    $200/bulan memang mahal untuk hobi, tetapi dari sudut pandang bisnis itu nyaris tidak signifikan
    Yang penting adalah seberapa baik model menyelesaikan pekerjaan, dan pada kisaran harga saat ini, yang utama adalah efisiensi terhadap waktu

    • Tim kami merilis tiga produk tahun ini dengan Claude. Khususnya, proyek yang diperkirakan butuh 9 orang selama 6 bulan selesai oleh 2 orang dalam 2 bulan
      Saya menilai nilai ekonomis langganan Claude ada di kisaran 10 ribu sampai 40 ribu euro.
      Bahkan kalau harganya naik 100x, saya tetap akan beli. Tapi kalau sudah 20 ribu euro/bulan, saya akan mempertimbangkan alternatif; saat ini peningkatan produktivitas masih sangat dominan
    • $200 hampir tidak jadi beban bagi perusahaan, tetapi sulit dibenarkan untuk hobi pribadi
    • Instance Openclaw saya menagih $200 per hari karena memakai Opus. Optimasi routing adalah masalah yang lebih besar. Saat $1/jam itu bagus, tetapi pada $15/jam daya saingnya turun
  • Peningkatan kualitas model pada akhirnya akan mencapai titik diminishing returns
    Seperti layar 8K vs 16K, kebanyakan pengguna tidak akan benar-benar merasakan bedanya
    Jika ada kenaikan biaya 20~30%, harus ada kenaikan nilai yang terlihat sebesar itu juga

    • Karena itu saya melihat sebagian besar riset berfokus pada bidang coding. Tingkat kesulitannya terus naik dan nilai ekonominya juga tetap terjaga
      Sebaliknya, kueri percakapan umum sudah jenuh, jadi sulit membedakan model satu dengan yang lain
    • Meski terlihat 99% akurat, ketika harus membuat 100 ribu keputusan per hari, galat kecil akan terakumulasi menjadi masalah besar
    • Jika muncul model 4K yang bisa berjalan lokal, lab besar akan kerepotan. Meski begitu Google mungkin tetap bertahan karena punya pendapatan iklan
    • Ini tergantung jenis tugas. Misalnya dalam desain obat baru, perbedaan antara 95% selesai dan 100% selesai bisa menghasilkan nilai puluhan kali lipat
    • Untuk pencarian web atau ringkasan, mungkin sudah mencapai batasnya, tetapi kompleksitas coding bisa meluas tanpa batas
  • Multiplier model GitHub Copilot naik dari 3 menjadi 7.5
    Ini terlihat seperti upaya Microsoft untuk mengurangi kerugian
    Lihat dokumentasi resmi

    • Karena itu kami menyarankan di organisasi kami, “jangan pernah menyalakan Opus 4.7”. 4.6 (3x) dan 4.5 (3x) masih oke, tetapi 4.7 (7.5x) sama sekali tidak sepadan
    • Belakangan Opus 4.6 menunjukkan penurunan kualitas penalaran. Terlalu cepat ke kesimpulan, melewati logika. Kalau tidak ada terobosan besar, rasanya akan datang penurunan kualitas (en**)** yang tajam
  • Judul artikelnya menyesatkan. Jumlah token memang naik, tetapi biaya per tugas bisa berbeda
    Dengan asumsi Opus 4.7 tidak memakai jalur penalaran yang sama dengan Opus 4.6
    Kita perlu menunggu hasil Intelligence Index dari Artificial Analysis

    • Di benchmark internal, Opus 4.7 50% lebih murah dan skor performanya 80% (vs 60%)
    • Judul artikel diubah menjadi lebih netral dari “Claude Opus 4.7 costs 20–30% more per session”
    • Dalam eksperimen perbandingan 28 tugas, 4.7 punya biaya mirip 4.6 versi lama dan sekitar 20% lebih mahal daripada 4.6 versi baru
    • Berdasarkan data pribadi saya, 4.7 memang lebih mahal daripada 4.6, dan peningkatan performanya tidak jelas
    • Bahkan dari grafik pengumuman resmi saya bisa melihat dasar klaim “strictly better” itu
  • Kemarin saat memakai Opus hasilnya luar biasa bagus, tetapi hari ini terus salah bahkan pada tugas sederhana
    Saya sampai harus menunjukkan masalah yang sama untuk ketiga kalinya, sesi sering terputus, dan compaction terjadi berlebihan
    Akhirnya saya memutuskan kembali ke Sonnet

    • Ini bukan bug, tetapi kebijakan pengurangan komputasi. Ke depan akan makin parah
    • LLM bukan kepribadian. Saat melakukan sampling dari distribusi probabilitas, peluang munculnya sesi buruk adalah 100% pada akhirnya. Konteks harus di-reset lalu coba lagi
    • Saya juga belakangan sering melihat hasil kacau dari Opus 4.7. Rasanya pahit melihat model mengakui kesalahannya sendiri lalu mencoba lagi
  • Belakangan saya sering berpikir, “apakah kita benar-benar butuh model yang lebih kuat?”
    Industri terlalu terpaku pada perlombaan performa dan melupakan efisiensi serta keberlanjutan
    Ke depan, menurut saya arah pentingnya adalah mengoptimalkan model 0.5B~1B parameter untuk tugas tertentu

    • Kalau saya bisa menjalankan Sonnet 4.6 secara lokal, saya sudah cukup puas
      Seperti tulisan CPUs Aren’t Dead, model Gemma 4 E2B dari Google bisa berjalan bahkan di ponsel dan melampaui GPT-3.5-turbo
      Menurut Intelligence Index dari Artificial Analysis, model 2B terbaru menghasilkan performa mirip model 175B dari 3~4 tahun lalu
      Gemma 4 E4B bahkan kadang melampaui GPT-4o
      Kalau tren ini berlanjut, tak lama lagi kita bisa menjalankan model papan atas di laptop
    • Banyak orang berharap Sonnet 4.6 punya performa setingkat Opus 4.5, tetapi kenyataannya tidak demikian
    • Efisiensi tidak menghasilkan uang. Bagi perusahaan LLM besar, menguntungkan jika biaya inferensi tetap mahal
      Promosi seperti “model baru ini gila” pada akhirnya hanyalah pemasaran FOMO
    • Tidak semua orang butuh kalkulator canggih. Yang penting adalah memilih alat dengan tingkat kemampuan yang diperlukan
    • Tapi kita juga tidak bisa puas dengan “model yang malas dan tidak akurat”. Lab yang menyelesaikan masalah ini akan mendapatkan keunggulan penentu
  • Para penjual camilan di Kolkata, India, tidak bisa menaikkan harga meski harga bahan baku naik, jadi mereka menyiasatinya dengan mengecilkan ukuran
    Begitulah adaptasi psikologis manusia bekerja

    • Di seluruh dunia juga mirip. Kemasan camilan tetap sama tetapi isinya berkurang. Bahkan tabung Pringles pun makin tipis dan pendek
    • Fenomena ini disebut Shrinkflation
  • Anthropic memperkenalkan mode xhigh baru di 4.7
    Mode max memakai token lebih banyak dan bisa memicu penalaran berlebihan, jadi untuk kebanyakan kasus mereka merekomendasikan xhigh
    Lihat dokumentasi resmi

    • Menambahkan tahap xhigh dan mendorong max lebih jauh terasa seperti, “yang ini bisa sampai 11
  • Berdasarkan kode nyata, Opus 4.7 menunjukkan kenaikan sekitar 30% token
    Yang penting adalah “kemampuan baru apa yang diberikan 4.7 dibanding 4.6”
    Masih terlalu dini untuk menilai, dan kalau memang bernilai, kenaikan biaya bisa diterima

    • Hal menarik dalam diskusi adalah banyak orang mengejar model baru, padahal Sonnet 4.6 saja sudah cukup efisien
      Jika ruang lingkup tugas dipersempit, review dan pengelolaan jadi lebih mudah, dan perbaikan bisa cepat dilakukan dengan diff kecil
      Kalau konsumsi token Copilot naik 7x, saya malah merasa akan terjadi gangguan alur kerja
    • Belakangan banyak keluhan bahwa 4.6 mengalami penurunan performa
    • Saya tidak tahu 4.6 akan dipertahankan sampai kapan. Untuk enterprise mungkin sedikit lebih lama, tetapi pelanggan langganan pribadi tampaknya akan segera kehilangan pilihan