- Tetap menggunakan model Opus 4.6 yang sama, tetapi mengubah konfigurasi API untuk meminimalkan latensi
- Dioptimalkan untuk pekerjaan interaktif yang sensitif terhadap waktu, seperti iterasi cepat dan live debugging
- Di CLI atau ekstensi VS Code, masukkan
/fast untuk toggle on/off, atau aktifkan secara permanen di file pengaturan pengguna dengan "fastMode": true
- Saat diaktifkan, otomatis beralih ke Opus 4.6 dan menampilkan pesan status serta ikon
↯
- Fast Mode membuat harga token lebih tinggi dibanding Opus 4.6 standar
- Untuk konteks di bawah 200K, berlaku input $30/MTok dan output $150/MTok (standar: input $5, output $25)
- Untuk konteks di atas 200K, berlaku input $60/MTok dan output $225/MTok (standar: input $10, output $37.5)
- Diskon 50% berlaku hingga 16/2
- Berlaku rate limit terpisah khusus Fast Mode, dan saat melewati batas atau kredit habis akan otomatis fallback ke mode standar
- Fast Mode disediakan sebagai pratinjau riset, sehingga fitur dan harga dapat berubah
3 komentar
Komentar Hacker News
Kecepatannya meningkat 2,5x, tetapi harganya 6x
Premiumnya cukup mahal. Terutama Gemini 3 Pro memiliki kecepatan token per detik 1,8x dibanding Opus 4.6, tetapi harganya hanya sekitar 0,45x
Namun performa coding-nya lebih lemah, dan Gemini CLI masih belum punya kemampuan agen setara Claude Code
Pada akhirnya ini struktur yang menarik karena membuat pelanggan besar (whale) menghabiskan uang dengan cepat
Akan bagus kalau ada slow mode, yaitu fitur yang memungkinkan penjadwalan eksekusi memakai spot GPU berbiaya rendah
Saya sering menjalankan proses saat jam makan siang atau sebelum pulang kerja, jadi tidak harus dieksekusi segera. Cukup jika bisa berjalan murah di GPU yang sedang idle
Mode ini tidak bisa memanfaatkan sisa kuota dari paket langganan
Pemakaian fast mode selalu ditagih terpisah, dan biaya tambahan dikenakan sejak token pertama terlepas dari token yang sudah termasuk di paket
Saat ini ada event penggunaan tambahan gratis senilai $50
Jika dilihat dengan tool ccusage, berdasarkan API biayanya bisa mencapai $200 per hari. Dengan tarif 6x, $50 bisa habis dalam 20 menit
Sepertinya fitur ini tidak akan terlalu berguna bagi saya
Bottleneck-nya bukan model, melainkan kecepatan saya sendiri dalam memahami kode yang dihasilkan LLM
Dari dokumen “menentukan kapan memakai Fast mode”,
Tampaknya pemisahan seperti ini memang disengaja. Namun apakah struktur tarifnya masuk akal masih diragukan
Orang yang mengutamakan efisiensi biaya akan menyelesaikannya dengan eksekusi paralel
Workflow umum saya terbagi menjadi tahap perencanaan dan tahap implementasi
Fast mode tampaknya paling berguna pada tahap perencanaan
Selain “reset konteks lalu jalankan dengan fast mode”,
saya juga ingin ada opsi “reset konteks lalu jalankan dengan kecepatan biasa”
Agen eksploratif boleh saja lambat, tetapi jika rencana bisa diiterasikan dengan cepat, efisiensinya akan jauh lebih baik
Akun Pro biasa pada dasarnya adalah slow mode
Saya sedang menguji Kimi2.5 CLI sekarang, dan selain cepat juga menyediakan antarmuka web, jadi bisa dipakai jarak jauh bahkan di lingkungan VPN
Sekarang rasanya Hacker News bisa langsung di-CNAME menjadi blog marketing Claude
Saya penasaran apa penyebab peningkatan kecepatannya. Hanya dengan penyesuaian prioritas saja rasanya sulit
Bisa jadi ini hardware baru seperti Groq atau Cerebras. Ada kemungkinan karena hanya tersedia di cloud tertentu
Saya juga penasaran apakah ke depannya penyedia LLM akan memisahkan penetapan harga antara “kecepatan vs kecerdasan”
Jika batch diperbesar, paralelisme meningkat tetapi kecepatan tiap permintaan jadi melambat.
Jika melihat grafik SemiAnalysis InferenceMAX™, ada kurva Pareto antara throughput per GPU dan kecepatan token
Setelah melihat tulisan “Claude membuat compiler C”, saya jadi penasaran dengan kecepatan inferensi internal di lab seperti Anthropic dan OpenAI
Semakin cepat inferensinya, semakin menguntungkan untuk menguasai pasar software
Jika Anthropic mengumumkan kecepatan 2,5x, mungkin secara internal mereka memakai mode 5~10x lebih cepat
Di masa depan ketika agen saling bernegosiasi, daya komputasi tercepat akan menjadi pemenangnya
Ada kemungkinan beberapa server mengorbankan throughput keseluruhan demi meningkatkan kecepatan per permintaan.
Mungkin juga dijalankan di hardware generasi baru
Secara realistis, mereka hanya mendapatkan peningkatan kecepatan 2,5x lewat paralelisasi
"Task berikutnya enaknya apa?"
Sekali jalan langsung kena biaya tambahan $3.46, dan sepertinya ini tidak tercakup oleh model langganan.
Beberapa waktu lalu rasanya mereka memberi $50 supaya orang mencoba ini juga wkwk
Sekarang AI tampaknya makin menjadi sesuatu yang hanya dipakai orang-orang kaya ...