13 poin oleh xguru 2026-02-08 | 3 komentar | Bagikan ke WhatsApp
  • Tetap menggunakan model Opus 4.6 yang sama, tetapi mengubah konfigurasi API untuk meminimalkan latensi
  • Dioptimalkan untuk pekerjaan interaktif yang sensitif terhadap waktu, seperti iterasi cepat dan live debugging
  • Di CLI atau ekstensi VS Code, masukkan /fast untuk toggle on/off, atau aktifkan secara permanen di file pengaturan pengguna dengan "fastMode": true
  • Saat diaktifkan, otomatis beralih ke Opus 4.6 dan menampilkan pesan status serta ikon
  • Fast Mode membuat harga token lebih tinggi dibanding Opus 4.6 standar
    • Untuk konteks di bawah 200K, berlaku input $30/MTok dan output $150/MTok (standar: input $5, output $25)
    • Untuk konteks di atas 200K, berlaku input $60/MTok dan output $225/MTok (standar: input $10, output $37.5)
    • Diskon 50% berlaku hingga 16/2
  • Berlaku rate limit terpisah khusus Fast Mode, dan saat melewati batas atau kredit habis akan otomatis fallback ke mode standar
  • Fast Mode disediakan sebagai pratinjau riset, sehingga fitur dan harga dapat berubah

3 komentar

 
GN⁺ 2026-02-09
Komentar Hacker News
  • Kecepatannya meningkat 2,5x, tetapi harganya 6x
    Premiumnya cukup mahal. Terutama Gemini 3 Pro memiliki kecepatan token per detik 1,8x dibanding Opus 4.6, tetapi harganya hanya sekitar 0,45x
    Namun performa coding-nya lebih lemah, dan Gemini CLI masih belum punya kemampuan agen setara Claude Code

    • Jika harganya 6x per token, maka secara per detik jadinya 15x lebih mahal. Lagi pula ini berdasarkan API, dan paket langganan jauh lebih murah
      Pada akhirnya ini struktur yang menarik karena membuat pelanggan besar (whale) menghabiskan uang dengan cepat
    • Gemini cukup bagus untuk pekerjaan frontend
    • Sebagai pengganti Gemini CLI, bisa juga memakai OpenCode
  • Akan bagus kalau ada slow mode, yaitu fitur yang memungkinkan penjadwalan eksekusi memakai spot GPU berbiaya rendah
    Saya sering menjalankan proses saat jam makan siang atau sebelum pulang kerja, jadi tidak harus dieksekusi segera. Cukup jika bisa berjalan murah di GPU yang sedang idle

    • Batches API dijalankan dengan tarif 50% dibanding API standar
    • OpenAI juga dulu pernah menyediakan fitur batch processing serupa
    • Saya juga berpikir begitu. Akan bagus kalau bisa dijalankan malam hari dengan tarif 50%. Hanya saja, itu belum terintegrasi ke Claude Code
    • Paket MAX yang sudah didiskon pada dasarnya berfungsi sebagai slow mode
    • Jika tidak sensitif terhadap waktu, menjalankannya dengan CPU/RAM alih-alih GPU juga bisa jadi cara
  • Mode ini tidak bisa memanfaatkan sisa kuota dari paket langganan
    Pemakaian fast mode selalu ditagih terpisah, dan biaya tambahan dikenakan sejak token pertama terlepas dari token yang sudah termasuk di paket
    Saat ini ada event penggunaan tambahan gratis senilai $50

    • Pada akhirnya hampir tidak berguna. Bahkan kalau memakai Claude Max pun, saat TDD tetap perlu mengelola pemakaian
      Jika dilihat dengan tool ccusage, berdasarkan API biayanya bisa mencapai $200 per hari. Dengan tarif 6x, $50 bisa habis dalam 20 menit
  • Sepertinya fitur ini tidak akan terlalu berguna bagi saya
    Bottleneck-nya bukan model, melainkan kecepatan saya sendiri dalam memahami kode yang dihasilkan LLM

    • Banyak juga orang yang tidak benar-benar meninjau kode dengan teliti. Zaman sekarang memang menarik
    • Jika kecepatannya cukup tinggi, saya mungkin akan memakainya dengan cara melempar pertanyaan alih-alih membaca kodenya, tetapi saat ini belum sampai tahap itu
    • Orang yang menulis kode berdasarkan ‘feeling’ lebih fokus pada hasil daripada pemahaman
    • Jika test harness dan prosedur verifikasi disiapkan dengan baik, kodenya bisa dipercaya tanpa harus dilihat langsung
  • Dari dokumen “menentukan kapan memakai Fast mode”,

    • agen yang berjalan lama atau pekerjaan latar belakang memakai mode biasa
    • skenario dengan keterlibatan manusia memakai fast mode
      Tampaknya pemisahan seperti ini memang disengaja. Namun apakah struktur tarifnya masuk akal masih diragukan
    • Tarif API Opus sendiri juga sudah mahal, jadi pada akhirnya kemungkinan tetap menjadi layanan kelas mahal
      Orang yang mengutamakan efisiensi biaya akan menyelesaikannya dengan eksekusi paralel
  • Workflow umum saya terbagi menjadi tahap perencanaan dan tahap implementasi
    Fast mode tampaknya paling berguna pada tahap perencanaan
    Selain “reset konteks lalu jalankan dengan fast mode”,
    saya juga ingin ada opsi “reset konteks lalu jalankan dengan kecepatan biasa”
    Agen eksploratif boleh saja lambat, tetapi jika rencana bisa diiterasikan dengan cepat, efisiensinya akan jauh lebih baik

  • Akun Pro biasa pada dasarnya adalah slow mode
    Saya sedang menguji Kimi2.5 CLI sekarang, dan selain cepat juga menyediakan antarmuka web, jadi bisa dipakai jarak jauh bahkan di lingkungan VPN

  • Sekarang rasanya Hacker News bisa langsung di-CNAME menjadi blog marketing Claude

    • Kalau begitu, kita malah akan kehilangan posting promosi diri dari simonw
    • Sebenarnya posting terkait OpenAI jauh lebih banyak. Mungkin namanya malah lebih cocok diganti menjadi AINews
  • Saya penasaran apa penyebab peningkatan kecepatannya. Hanya dengan penyesuaian prioritas saja rasanya sulit
    Bisa jadi ini hardware baru seperti Groq atau Cerebras. Ada kemungkinan karena hanya tersedia di cloud tertentu
    Saya juga penasaran apakah ke depannya penyedia LLM akan memisahkan penetapan harga antara “kecepatan vs kecerdasan”

    • Caranya dengan meningkatkan batch processing dan multi-stream di GPU untuk menaikkan throughput token
      Jika batch diperbesar, paralelisme meningkat tetapi kecepatan tiap permintaan jadi melambat.
      Jika melihat grafik SemiAnalysis InferenceMAX™, ada kurva Pareto antara throughput per GPU dan kecepatan token
    • Selain upgrade hardware atau penyesuaian prioritas trafik, ada banyak penyesuaian lain yang mungkin, seperti mengurangi batch window atau mempertahankan KV cache di GPU
    • Bisa juga ini sekadar model berbasis prioritas yang melewati antrean. Karena itu cara yang paling mudah untuk menghasilkan lebih banyak uang
    • Mungkin awalnya diimplementasikan untuk penggunaan internal. Dalam praktiknya mungkin hanya penyesuaian prioritas sederhana, tetapi mereka menduga pelanggan eksternal tidak akan banyak
    • Atau mungkin juga memakai GPU baru seperti Nvidia GB300 (Blackwell)
  • Setelah melihat tulisan “Claude membuat compiler C”, saya jadi penasaran dengan kecepatan inferensi internal di lab seperti Anthropic dan OpenAI
    Semakin cepat inferensinya, semakin menguntungkan untuk menguasai pasar software
    Jika Anthropic mengumumkan kecepatan 2,5x, mungkin secara internal mereka memakai mode 5~10x lebih cepat
    Di masa depan ketika agen saling bernegosiasi, daya komputasi tercepat akan menjadi pemenangnya

    • Anthropic menyatakan bahwa mode 2,5x yang sebelumnya mereka pakai secara internal telah dirilis lewat API resmi
      Ada kemungkinan beberapa server mengorbankan throughput keseluruhan demi meningkatkan kecepatan per permintaan.
      Mungkin juga dijalankan di hardware generasi baru
    • Klaim bahwa mereka “menyembunyikan performa 10x” tidak masuk akal. Perusahaan SaaS yang sedang bersaing di pasar tidak punya kelonggaran untuk itu
      Secara realistis, mereka hanya mendapatkan peningkatan kecepatan 2,5x lewat paralelisasi
    • Ini juga terlihat seperti semacam model penyanderaan kecepatan, yang sengaja memperlambat kecepatan dasar agar orang mau membayar untuk fast mode
 
kimjoin2 2026-02-09

"Task berikutnya enaknya apa?"
Sekali jalan langsung kena biaya tambahan $3.46, dan sepertinya ini tidak tercakup oleh model langganan.
Beberapa waktu lalu rasanya mereka memberi $50 supaya orang mencoba ini juga wkwk

 
elbum 2026-02-08

Sekarang AI tampaknya makin menjadi sesuatu yang hanya dipakai orang-orang kaya ...