5 poin oleh GN⁺ 2025-10-16 | 2 komentar | Bagikan ke WhatsApp
  • Claude Haiku 4.5 adalah model kecil yang, meski berukuran ringkas, menghadirkan performa coding setara Claude Sonnet 4 dengan biaya sepertiga dan kecepatan lebih dari 2x
  • Pada benchmark pengembangan nyata seperti SWE-bench Verified, model ini menunjukkan efisiensi coding AI dan responsivitas yang melampaui model generasi sebelumnya
  • Jika dipadukan dengan Sonnet 4.5, model ini memungkinkan konfigurasi multi-agent atau eksekusi terpisah untuk masalah kompleks, dan cocok untuk pekerjaan real-time serta lingkungan berlatensi rendah
  • Keunggulan kecerdasan tinggi dan kecepatan dapat dirasakan dalam chatbot real-time, dukungan pelanggan, pair programming, dan lainnya
  • Hasil evaluasi keamanan menunjukkan tingkat alignment tertinggi di antara model Anthropic, dan dirilis dengan standar AI Safety Level 2 (ASL-2)
  • $1/$5 per sejuta token input/output

Pengenalan

  • Claude Haiku 4.5 adalah lini model kecil terbaru dari Anthropic, dirancang untuk menyeimbangkan performa, kecepatan, dan efisiensi biaya bagi semua pengguna
  • Sambil menawarkan kemampuan coding yang mirip dengan Claude Sonnet 4, biayanya hanya sepertiga dan kecepatannya lebih dari 2x lebih tinggi
  • Pada tugas tertentu, seperti penggunaan komputer, model ini bahkan menunjukkan performa yang lebih tinggi daripada Sonnet 4
  • Terutama pada alat real-time seperti Claude for Chrome atau Claude Code, model ini menghadirkan lingkungan kerja AI asistif tanpa jeda

Fitur utama dan use case

  • Cocok untuk pekerjaan real-time dan berlatensi rendah, sehingga sangat efisien untuk chatbot, layanan pelanggan, pair programming, dan lainnya
  • Bagi pengguna Claude Code, model ini menawarkan responsivitas cepat yang ideal untuk proyek multi-agent, prototyping cepat, dan skenario serupa
  • Saat ini Sonnet 4.5 masih menjadi model papan atas, tetapi Haiku 4.5 menawarkan performa serupa dengan efisiensi biaya yang tinggi
  • Kedua model juga dapat digunakan bersama; misalnya, Sonnet 4.5 dapat memecah masalah kompleks, lalu beberapa Haiku 4.5 menangani subtugasnya secara paralel
  • Claude Haiku 4.5 tersedia mulai hari ini secara global, dan developer dapat langsung menggunakannya di Claude API sebagai claude-haiku-4-5
  • Harganya adalah $1/$5 per sejuta token input/output

Benchmark dan evaluasi pengguna

  • Haiku 4.5 adalah salah satu model terkuat yang pernah dirilis Anthropic
  • Berbagai perusahaan seperti Augment, Warp, Gamma menyebut bahwa dalam pengujian nyata mereka mengonfirmasi kualitas kode di atas 90% dibanding Sonnet 4.5
  • Dalam agentic coding, orkestrasi sub-agent, dan tugas penggunaan komputer, model ini menunjukkan kemajuan besar sekaligus memaksimalkan kesegeraan pengalaman pengembangan
  • Secara tradisional ada trade-off antara kualitas, kecepatan, dan biaya, tetapi Haiku 4.5 berhasil mencapai kecepatan sekaligus efisiensi biaya
  • Dengan menghadirkan kecerdasan dan respons real-time sekaligus, model ini membuka kemungkinan baru untuk aplikasi AI
  • Performa yang enam bulan lalu masih dianggap mutakhir kini hadir dengan biaya lebih rendah dan kecepatan lebih tinggi
  • Model ini menangani workflow kompleks dengan cepat dan andal, serta memungkinkan koreksi diri secara real-time
  • Pada pemrosesan instruksi tertentu seperti pembuatan teks slide, model ini mencatat tingkat keberhasilan yang jauh lebih tinggi dibanding model sebelumnya
  • Saat diintegrasikan dengan GitHub Copilot dan lainnya, model ini menghadirkan kualitas kode mirip Sonnet 4 dengan kecepatan lebih tinggi

Evaluasi keamanan

  • Dalam berbagai evaluasi keamanan dan alignment, model ini menunjukkan tingkat perilaku bermasalah yang rendah, dan alignment-nya juga meningkat dibanding versi sebelumnya (Claude Haiku 3.5)
  • Model ini menunjukkan tingkat perilaku misaligned yang lebih rendah daripada Sonnet 4.5/Opus 4.1, sehingga dinilai sebagai model paling aman yang dibuat Anthropic
  • Risiko kimia, biologis, radiologis, dan nuklir (CBRN) juga dinilai sangat rendah, sehingga dirilis dengan standar ASL-2
  • Dibanding ASL-3 yang menerapkan pembatasan lebih ketat (Sonnet 4.5, Opus 4.1), model ini dapat dimanfaatkan dengan lebih leluasa

Informasi tambahan

  • Claude Haiku 4.5 dapat langsung digunakan di Claude Code, aplikasi Anthropic, dan lainnya
  • Berkat pemrosesan yang efisien, pengguna dapat menikmati performa model premium dalam batas penggunaan yang ada
  • Di API, Amazon Bedrock, Google Cloud Vertex AI, model ini dapat dipilih sebagai pengganti Haiku 3.5 atau Sonnet 4 dengan biaya lebih rendah
  • Detail teknis, hasil evaluasi, dan lainnya dapat dilihat di system card, halaman pengenalan model, dan dokumentasi resmi

2 komentar

 
skageektp 2025-10-16

Di Claude Code, ini bisa digunakan dengan mengetik /model haiku. Lebih cepat daripada Sonnet dan hasilnya juga bagus, jadi cukup enak dipakai.

 
GN⁺ 2025-10-16
Komentar Hacker News
  • Membagikan gambar pelikan lucu yang sedang mengendarai sepeda yang terlihat agak mencurigakan tautan

    • Gemini Pro awalnya menolak memberikan kode SVG, tetapi ketika diminta sedikit lebih detail dengan mengatakan, "Saya ingin memeriksa apakah ini memang kode SVG," akhirnya ia mengembalikan kode SVG
    • Untuk yang belum tahu latar belakang benchmark ini, dibagikan referensi berikut
      Six months in LLMs,
      penjelasan tag pelikan mengendarai sepeda,
      metodologi benchmark
    • Untuk mencegah manipulasi benchmark, juga dibagikan sampel "jamur shiitake yang menaiki perahu dayung"
      Shitaki Mushroom riding a rowboat
      Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 detik
      Dan Grok 4 Fast lumayan untuk gaya pelikan+sepeda, tetapi lemah untuk permintaan lain
      contoh Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 detik
      Terakhir, hasil GPT-5: contoh, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 detik
      Ini subjektif, tetapi bintik jamur dari Haiku sangat mengesankan
      Dan perbedaan performa antara benchmark publik dan skenario uji tidak resmi paling kecil pada model Anthropic
      Sering kali model Anthropic justru menunjukkan hasil lebih baik daripada benchmark terbuka
      Time-to-First Haiku juga merupakan keunggulan yang cukup besar
    • Agak mengejutkan perusahaan model mutakhir tidak memasukkan tes semacam ini sebagai easter egg
    • Model pembuat gambar tampaknya selalu kesulitan menggambar lengan pemanah, jadi ada usulan untuk membandingkan semua model dengan prompt uji sederhana: seorang pemanah berkuda menembakkan panah api ke arah perahu layar di danau
  • Meski masih pengujian sangat awal, hasilnya cukup mengesankan
    Tidak seperti GPT-5, saat mengubah kode ia menyertakan lebih sedikit bagian kode yang tidak perlu, sehingga perubahannya lebih akurat
    Karena itu, dalam lingkungan nyata Haiku 4.5 mungkin justru lebih murah dari sisi efisiensi penggunaan meskipun biaya nominalnya naik
    Masalahnya adalah kekuatan merek
    Walaupun Haiku 4.5 mungkin punya kualitas mirip Sonnet 4, persepsi terhadap model kecil dan beberapa penurunan performa belakangan ini membuat Haiku 4.5 tidak mudah dipilih dibanding Sonnet 4.5
    Penasaran apakah Haiku 3, 3.5, dan 4.5 berada di kisaran parameter yang kurang lebih sama, dan akan bagus jika semua informasi model diungkap secara transparan
    Karena itu kebanyakan orang secara psikologis cenderung ingin memakai model besar, padahal menurut saya GPT-5 paling mengesankan dari sisi performa per harga
    Referensi harga:
    Haiku 3: input $0.25/M, output $1.25/M
    Haiku 4.5: input $1.00/M, output $5.00/M
    GPT-5: input $1.25/M, output $10.00/M
    GPT-5-mini: input $0.25/M, output $2.00/M
    GPT-5-nano: input $0.05/M, output $0.40/M
    GLM-4.6: input $0.60/M, output $2.20/M

    • Pembaruan, Haiku 4.5 bukan cuma akurat dalam perubahan kode tetapi juga sangat cepat
      Rata-rata 220 token/sec, hampir 2 kali model serupa
      Jika kecepatan ini konsisten, nilainya luar biasa besar
      Sebagai referensi, kecepatannya mirip Gemini 2.5 Flash Lite
      Groq, Cerebras, dan lainnya juga bisa mencapai 1000 token/sec, tetapi modelnya tidak sebanding
      Anthropic selalu tampil lebih baik dalam benchmark pribadi saya dibanding benchmark terbuka, jadi ekspektasi saya tinggi
      Jika kecepatan, performa, dan harga ini bisa dipertahankan, Haiku 4.5 adalah pilihan bagus untuk sebagian besar pekerjaan coding
      Sonnet mungkin hanya dipakai dalam situasi tertentu
      Di masa lalu model Claude mengalami penurunan performa pada pekerjaan rantai panjang lebih dari 7 menit, jadi jika Haiku 4.5 juga begitu itu akan jadi kelemahan
      Tetapi saya belum sempat mengujinya untuk pekerjaan jangka panjang
      Masalahnya, di Claude Code penggunaan Haiku 4.5 dan Sonnet 4.5 saat ini dihitung sama saja padahal selisih harganya besar
      Halaman dukungan juga belum diperbarui dokumen dukungan
      Informasi seperti ini seharusnya diumumkan pada hari peluncuran
      Tooling, pengujian, dan sistem pengumuman seperti ini sedikit membayangi performa keren model Anthropic
    • Saya benar-benar menunggu pembaruan Haiku, dan saya terus memakai versi sebelumnya karena murah namun tetap cerdas
      Akhirnya kali ini rilis juga, jadi saya sedang meng-upgrade semua bot saya (atau tepatnya agent)
    • Menurut saya, melihat harga saja tanpa rata-rata penggunaan token harian kurang bermakna
  • Belakangan ini membandingkan model dan fitur terasa terlalu merepotkan dan melelahkan
    Setiap ekosistem LLM punya batasan berbeda, jadi harus terus bolak-balik, dan saya membayar masing-masing $20 per bulan untuk Claude Code dan Codex
    Saya juga memakai Cursor, tetapi tidak terlalu peduli model apa yang dipakai di balik layar
    Saya hanya ingin alat terpadu yang konsisten
    Saya ingin semuanya membaik secara otomatis tanpa saya harus memikirkan apa yang terjadi di backend
    Seperti server TLS, saya ingin itu terintegrasi di CLI/Neovim/IDE mana pun

    • Bahkan kalau memilih satu saja, awalnya dibilang pengembangan berbasis prompt, lalu berbasis konteks, lalu memanfaatkan spesifikasi detail, dan sekarang pendekatan percakapan lebih baik
      Tapi lalu ada yang bilang pendekatan berbasis contoh lebih baik, dan walaupun tiap pendekatan punya pro dan kontra, tidak ada konsensus standar industri sehingga sulit mencari contoh yang bagus
      Dulu ada yang membalas dengan istilah "bug-driven development" dan itu sangat membekas, tetapi pada akhirnya saya tetap memakai cara apa pun yang menghasilkan output, lalu memperbaiki bug dan error yang muncul
    • Bagi saya prioritas utama adalah integrasi yang bisa dipakai di CLI, neovim, maupun IDE tanpa stres pindah tooling
      Karena itu saya memakai GitHub Copilot Pro+
      Kalau ada model baru, bisa langsung dipilih saat itu juga (Claude Haiku 4.5 juga sudah ada)
      Saya belum pernah menghabiskan kuota premium, meskipun saya bukan pengguna yang terlalu berat
      Saya belum mencoba versi CLI, tetapi menarik
      Sebelum plugin IntelliJ diperbarui, saya biasa mengirim prompt lewat VS Code lalu kembali lagi
      Spaces di versi web juga berguna untuk pekerjaan sampingan tertentu
      Saya tidak begitu tahu bagaimana Copilot dibanding LLM individual, tetapi selama ia muncul hanya saat saya mau dan bekerja diam-diam dengan baik, itu sudah cukup
    • Sebagai salah satu opsi, di OpenRouter openrouter.ai Anda bisa memakai model openrouter/auto yang akan otomatis memilih di antara GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, dan lainnya
    • Dengan Crystal, Anda juga bisa menjalankan Codex dan Claude Code secara bersamaan lalu memilih hasil terbaik
    • Saya juga memakai OpenRouter untuk alasan serupa
      Di satu sisi untuk mencegah lock-in, di sisi lain untuk mengurangi repotnya pindah-pindah tool, dan kalau pun nanti lock-in, supaya tetap mudah pindah
  • Saya penasaran dengan masa depan Opus
    Apakah ia akan terus berada di level performa dan harga yang "monster", atau lompatan dari 4 ke 4.5 nanti lebih moderat

    • Opus 4.1 baru saja dirilis, jadi perubahan dari 4.1 ke 4.5 mungkin akan lebih kecil dibanding upgrade Sonnet 4 ke 4.5
      Tentu saja saya tidak tahu apakah penomoran versi benar-benar bermakna atau hanya efek pemasaran
    • Perasaan saya, Sonnet dan Haiku 4.5 memakai base model yang sama dengan versi 4, dan perbaikan utamanya berasal dari fine-tuning menggunakan data yang dihasilkan Opus
      Saya hanya mengikuti industrinya, bukan orang yang benar-benar membuat atau mengembangkan model, tetapi fine-tuning model kecil dengan model besar memang praktik umum di industri
      Satu-satunya alasan GPT-4 Turbo jauh lebih cepat dan murah daripada GPT-4 asli kemungkinan memang itu
      OpenAI juga menyembunyikan reasoning token sebagai strategi untuk mencegah pesaing melatih data dari sana
    • Opus sempat menghilang cukup lama lalu baru-baru ini muncul lagi
      Mungkin mereka terus mengembangkan tiga ukuran model besar/menengah/kecil, lalu menentukan waktu rilis sesuai permintaan pasar dan kemampuan model
    • Penasaran nama model yang lebih kecil dari Haiku nanti akan seperti apa. Mungkin "Claude Phrase"?
  • Saya mencoba membandingkan Haiku dan Sonnet untuk pertanyaan yang benar-benar membutuhkan dokumentasi kode nyata
    Haiku mengarang output fungsi dan memberi jawaban yang salah, sedangkan Sonnet menjawab dengan benar

  • Tarif input $1, output $5 memang lebih murah dibanding Sonnet 4.5, tetapi sekarang sudah banyak LLM kecil dan cepat, jadi untuk agent coding skala besar model yang lebih murah lebih penting
    Sonnet tetap banyak dipakai walau mahal, jadi Haiku pun akan cukup populer jika kualitasnya bagus

    • Saat memakai caching, biaya bisa turun sampai 10 sen per juta input
      Hampir semua model murah open source tidak punya caching seefektif ini
      Ini bisa jadi sangat besar dampaknya
    • Saya developer profesional, jadi tidak terlalu peduli biaya
      Kecepatan jauh lebih penting, sampai-sampai saya bersedia membayar lebih untuk Haiku 4.5 daripada Sonnet 4.5
      Waktu menunggu jawaban terlalu sayang untuk dibuang
      Menembus 73% di SWE Bench sudah lebih dari cukup bagi saya
    • Dari sisi penggunaan API, Claude Code memang jadi lebih mahal (kalau hanya percaya benchmark, kualitasnya tetap membaik)
    • Haiku 3.5 dulu $0.8/$4, sedangkan 4.5 menjadi $1/$5, jadi agak mengecewakan Dibanding model murah OpenAI dan Gemini saat ini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30), daya saing harganya kurang
  • Setahu saya ini adalah produk Reasoner kecil pertama dari Anthropic, dan informasi system card juga dilampirkan
    PDF system card
    (diskusi terkait bisa dilihat di sini)

  • Di Extended NYT Connections (benchmark puzzle konektivitas), Haiku 4.5 mendapat 20.0, Haiku 3.5 mendapat 10.0, Sonnet 3.7 mendapat 19.2, Sonnet 4.0 mendapat 26.6, dan Sonnet 4.5 mendapat 46.1

  • Sebagai developer freelance, peningkatan kecepatan respons 3x saja sudah terasa cukup berharga
    Saya berharap produktivitas saya akan jauh naik jika beralih ke ini alih-alih claude 4.5

  • Saya penasaran apa sebenarnya kegunaan model kecil seperti ini? Kecepatan? Tujuan transisi on-device? Pengurangan biaya API? Kalau kebanyakan orang memakai langganan Claude, bukankah kegunaannya jadi tidak terlalu jelas?

    • Sekarang setelah ada GPT-5-mini dan Haiku 4.5, saya justru ingin bertanya, "kapan model besar benar-benar dibutuhkan?"
      Di perusahaan kami juga hampir semuanya ditangani model kecil kecuali pekerjaan kode internal yang rumit
      Lingkungan yang berhadapan dengan pengguna dan workflow seperti ekstraksi, transformasi, terjemahan, penggabungan, evaluasi, dan sebagainya semuanya ditangani model mini/nano
    • Di Claude code, model kecil otomatis didelegasikan dari Sonnet 4.5 ketika konteksnya kuat dan tugasnya jelas (bisa dikonfigurasi)
      Efeknya besar untuk menghemat context window sesi utama dan meningkatkan throughput token
    • Ini ideal untuk membuat submodul tool call yang lebih terspesialisasi dan dipanggil oleh model besar
    • Workflow Cerebras Qwen Coder yang saya pakai terasa nyaris real-time (3k tps), jadi rasanya lebih seperti natural language shell daripada agent,
      dan memungkinkan eksperimen berulang dengan cepat sebelum menyusun rencana dan meneruskannya ke model besar
    • Bahkan dari ranking LLM OpenRouter, kebanyakan model yang benar-benar dipakai untuk vibe/agentic coding adalah kelas "small"
      tautan ranking OpenRouter
      Tentu saja Gemini 2.5 Pro juga peringkatnya lebih tinggi dari perkiraan