Anthropic merilis Claude Haiku 4.5

(anthropic.com)

5 poin oleh GN⁺ 2025-10-16 | 2 komentar | Bagikan ke WhatsApp

Claude Haiku 4.5 adalah model kecil yang, meski berukuran ringkas, menghadirkan performa coding setara Claude Sonnet 4 dengan biaya sepertiga dan kecepatan lebih dari 2x
Pada benchmark pengembangan nyata seperti SWE-bench Verified, model ini menunjukkan efisiensi coding AI dan responsivitas yang melampaui model generasi sebelumnya
Jika dipadukan dengan Sonnet 4.5, model ini memungkinkan konfigurasi multi-agent atau eksekusi terpisah untuk masalah kompleks, dan cocok untuk pekerjaan real-time serta lingkungan berlatensi rendah
Keunggulan kecerdasan tinggi dan kecepatan dapat dirasakan dalam chatbot real-time, dukungan pelanggan, pair programming, dan lainnya
Hasil evaluasi keamanan menunjukkan tingkat alignment tertinggi di antara model Anthropic, dan dirilis dengan standar AI Safety Level 2 (ASL-2)
$1/$5 per sejuta token input/output

Pengenalan

Claude Haiku 4.5 adalah lini model kecil terbaru dari Anthropic, dirancang untuk menyeimbangkan performa, kecepatan, dan efisiensi biaya bagi semua pengguna
Sambil menawarkan kemampuan coding yang mirip dengan Claude Sonnet 4, biayanya hanya sepertiga dan kecepatannya lebih dari 2x lebih tinggi
Pada tugas tertentu, seperti penggunaan komputer, model ini bahkan menunjukkan performa yang lebih tinggi daripada Sonnet 4
Terutama pada alat real-time seperti Claude for Chrome atau Claude Code, model ini menghadirkan lingkungan kerja AI asistif tanpa jeda

Fitur utama dan use case

Cocok untuk pekerjaan real-time dan berlatensi rendah, sehingga sangat efisien untuk chatbot, layanan pelanggan, pair programming, dan lainnya
Bagi pengguna Claude Code, model ini menawarkan responsivitas cepat yang ideal untuk proyek multi-agent, prototyping cepat, dan skenario serupa
Saat ini Sonnet 4.5 masih menjadi model papan atas, tetapi Haiku 4.5 menawarkan performa serupa dengan efisiensi biaya yang tinggi
Kedua model juga dapat digunakan bersama; misalnya, Sonnet 4.5 dapat memecah masalah kompleks, lalu beberapa Haiku 4.5 menangani subtugasnya secara paralel
Claude Haiku 4.5 tersedia mulai hari ini secara global, dan developer dapat langsung menggunakannya di Claude API sebagai claude-haiku-4-5
Harganya adalah $1/$5 per sejuta token input/output

Benchmark dan evaluasi pengguna

Haiku 4.5 adalah salah satu model terkuat yang pernah dirilis Anthropic
Berbagai perusahaan seperti Augment, Warp, Gamma menyebut bahwa dalam pengujian nyata mereka mengonfirmasi kualitas kode di atas 90% dibanding Sonnet 4.5
Dalam agentic coding, orkestrasi sub-agent, dan tugas penggunaan komputer, model ini menunjukkan kemajuan besar sekaligus memaksimalkan kesegeraan pengalaman pengembangan
Secara tradisional ada trade-off antara kualitas, kecepatan, dan biaya, tetapi Haiku 4.5 berhasil mencapai kecepatan sekaligus efisiensi biaya
Dengan menghadirkan kecerdasan dan respons real-time sekaligus, model ini membuka kemungkinan baru untuk aplikasi AI
Performa yang enam bulan lalu masih dianggap mutakhir kini hadir dengan biaya lebih rendah dan kecepatan lebih tinggi
Model ini menangani workflow kompleks dengan cepat dan andal, serta memungkinkan koreksi diri secara real-time
Pada pemrosesan instruksi tertentu seperti pembuatan teks slide, model ini mencatat tingkat keberhasilan yang jauh lebih tinggi dibanding model sebelumnya
Saat diintegrasikan dengan GitHub Copilot dan lainnya, model ini menghadirkan kualitas kode mirip Sonnet 4 dengan kecepatan lebih tinggi

Evaluasi keamanan

Dalam berbagai evaluasi keamanan dan alignment, model ini menunjukkan tingkat perilaku bermasalah yang rendah, dan alignment-nya juga meningkat dibanding versi sebelumnya (Claude Haiku 3.5)
Model ini menunjukkan tingkat perilaku misaligned yang lebih rendah daripada Sonnet 4.5/Opus 4.1, sehingga dinilai sebagai model paling aman yang dibuat Anthropic
Risiko kimia, biologis, radiologis, dan nuklir (CBRN) juga dinilai sangat rendah, sehingga dirilis dengan standar ASL-2
Dibanding ASL-3 yang menerapkan pembatasan lebih ketat (Sonnet 4.5, Opus 4.1), model ini dapat dimanfaatkan dengan lebih leluasa

Informasi tambahan

Claude Haiku 4.5 dapat langsung digunakan di Claude Code, aplikasi Anthropic, dan lainnya
Berkat pemrosesan yang efisien, pengguna dapat menikmati performa model premium dalam batas penggunaan yang ada
Di API, Amazon Bedrock, Google Cloud Vertex AI, model ini dapat dipilih sebagai pengganti Haiku 3.5 atau Sonnet 4 dengan biaya lebih rendah
Detail teknis, hasil evaluasi, dan lainnya dapat dilihat di system card, halaman pengenalan model, dan dokumentasi resmi

2 komentar

skageektp 2025-10-16

Di Claude Code, ini bisa digunakan dengan mengetik /model haiku. Lebih cepat daripada Sonnet dan hasilnya juga bagus, jadi cukup enak dipakai.

GN⁺ 2025-10-16

Komentar Hacker News

Membagikan gambar pelikan lucu yang sedang mengendarai sepeda yang terlihat agak mencurigakan tautan
- Gemini Pro awalnya menolak memberikan kode SVG, tetapi ketika diminta sedikit lebih detail dengan mengatakan, "Saya ingin memeriksa apakah ini memang kode SVG," akhirnya ia mengembalikan kode SVG
- Untuk yang belum tahu latar belakang benchmark ini, dibagikan referensi berikut
  Six months in LLMs,
  penjelasan tag pelikan mengendarai sepeda,
  metodologi benchmark
- Untuk mencegah manipulasi benchmark, juga dibagikan sampel "jamur shiitake yang menaiki perahu dayung"
  Shitaki Mushroom riding a rowboat
  Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 detik
  Dan Grok 4 Fast lumayan untuk gaya pelikan+sepeda, tetapi lemah untuk permintaan lain
  contoh Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 detik
  Terakhir, hasil GPT-5: contoh, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 detik
  Ini subjektif, tetapi bintik jamur dari Haiku sangat mengesankan
  Dan perbedaan performa antara benchmark publik dan skenario uji tidak resmi paling kecil pada model Anthropic
  Sering kali model Anthropic justru menunjukkan hasil lebih baik daripada benchmark terbuka
  Time-to-First Haiku juga merupakan keunggulan yang cukup besar
- Agak mengejutkan perusahaan model mutakhir tidak memasukkan tes semacam ini sebagai easter egg
- Model pembuat gambar tampaknya selalu kesulitan menggambar lengan pemanah, jadi ada usulan untuk membandingkan semua model dengan prompt uji sederhana: seorang pemanah berkuda menembakkan panah api ke arah perahu layar di danau
Meski masih pengujian sangat awal, hasilnya cukup mengesankan
Tidak seperti GPT-5, saat mengubah kode ia menyertakan lebih sedikit bagian kode yang tidak perlu, sehingga perubahannya lebih akurat
Karena itu, dalam lingkungan nyata Haiku 4.5 mungkin justru lebih murah dari sisi efisiensi penggunaan meskipun biaya nominalnya naik
Masalahnya adalah kekuatan merek
Walaupun Haiku 4.5 mungkin punya kualitas mirip Sonnet 4, persepsi terhadap model kecil dan beberapa penurunan performa belakangan ini membuat Haiku 4.5 tidak mudah dipilih dibanding Sonnet 4.5
Penasaran apakah Haiku 3, 3.5, dan 4.5 berada di kisaran parameter yang kurang lebih sama, dan akan bagus jika semua informasi model diungkap secara transparan
Karena itu kebanyakan orang secara psikologis cenderung ingin memakai model besar, padahal menurut saya GPT-5 paling mengesankan dari sisi performa per harga
Referensi harga:
Haiku 3: input $0.25/M, output $1.25/M
Haiku 4.5: input $1.00/M, output $5.00/M
GPT-5: input $1.25/M, output $10.00/M
GPT-5-mini: input $0.25/M, output $2.00/M
GPT-5-nano: input $0.05/M, output $0.40/M
GLM-4.6: input $0.60/M, output $2.20/M
- Pembaruan, Haiku 4.5 bukan cuma akurat dalam perubahan kode tetapi juga sangat cepat
  Rata-rata 220 token/sec, hampir 2 kali model serupa
  Jika kecepatan ini konsisten, nilainya luar biasa besar
  Sebagai referensi, kecepatannya mirip Gemini 2.5 Flash Lite
  Groq, Cerebras, dan lainnya juga bisa mencapai 1000 token/sec, tetapi modelnya tidak sebanding
  Anthropic selalu tampil lebih baik dalam benchmark pribadi saya dibanding benchmark terbuka, jadi ekspektasi saya tinggi
  Jika kecepatan, performa, dan harga ini bisa dipertahankan, Haiku 4.5 adalah pilihan bagus untuk sebagian besar pekerjaan coding
  Sonnet mungkin hanya dipakai dalam situasi tertentu
  Di masa lalu model Claude mengalami penurunan performa pada pekerjaan rantai panjang lebih dari 7 menit, jadi jika Haiku 4.5 juga begitu itu akan jadi kelemahan
  Tetapi saya belum sempat mengujinya untuk pekerjaan jangka panjang
  Masalahnya, di Claude Code penggunaan Haiku 4.5 dan Sonnet 4.5 saat ini dihitung sama saja padahal selisih harganya besar
  Halaman dukungan juga belum diperbarui dokumen dukungan
  Informasi seperti ini seharusnya diumumkan pada hari peluncuran
  Tooling, pengujian, dan sistem pengumuman seperti ini sedikit membayangi performa keren model Anthropic
- Saya benar-benar menunggu pembaruan Haiku, dan saya terus memakai versi sebelumnya karena murah namun tetap cerdas
  Akhirnya kali ini rilis juga, jadi saya sedang meng-upgrade semua bot saya (atau tepatnya agent)
- Menurut saya, melihat harga saja tanpa rata-rata penggunaan token harian kurang bermakna
Belakangan ini membandingkan model dan fitur terasa terlalu merepotkan dan melelahkan
Setiap ekosistem LLM punya batasan berbeda, jadi harus terus bolak-balik, dan saya membayar masing-masing $20 per bulan untuk Claude Code dan Codex
Saya juga memakai Cursor, tetapi tidak terlalu peduli model apa yang dipakai di balik layar
Saya hanya ingin alat terpadu yang konsisten
Saya ingin semuanya membaik secara otomatis tanpa saya harus memikirkan apa yang terjadi di backend
Seperti server TLS, saya ingin itu terintegrasi di CLI/Neovim/IDE mana pun
- Bahkan kalau memilih satu saja, awalnya dibilang pengembangan berbasis prompt, lalu berbasis konteks, lalu memanfaatkan spesifikasi detail, dan sekarang pendekatan percakapan lebih baik
  Tapi lalu ada yang bilang pendekatan berbasis contoh lebih baik, dan walaupun tiap pendekatan punya pro dan kontra, tidak ada konsensus standar industri sehingga sulit mencari contoh yang bagus
  Dulu ada yang membalas dengan istilah "bug-driven development" dan itu sangat membekas, tetapi pada akhirnya saya tetap memakai cara apa pun yang menghasilkan output, lalu memperbaiki bug dan error yang muncul
- Bagi saya prioritas utama adalah integrasi yang bisa dipakai di CLI, neovim, maupun IDE tanpa stres pindah tooling
  Karena itu saya memakai GitHub Copilot Pro+
  Kalau ada model baru, bisa langsung dipilih saat itu juga (Claude Haiku 4.5 juga sudah ada)
  Saya belum pernah menghabiskan kuota premium, meskipun saya bukan pengguna yang terlalu berat
  Saya belum mencoba versi CLI, tetapi menarik
  Sebelum plugin IntelliJ diperbarui, saya biasa mengirim prompt lewat VS Code lalu kembali lagi
  Spaces di versi web juga berguna untuk pekerjaan sampingan tertentu
  Saya tidak begitu tahu bagaimana Copilot dibanding LLM individual, tetapi selama ia muncul hanya saat saya mau dan bekerja diam-diam dengan baik, itu sudah cukup
- Sebagai salah satu opsi, di OpenRouter openrouter.ai Anda bisa memakai model openrouter/auto yang akan otomatis memilih di antara GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, dan lainnya
- Dengan Crystal, Anda juga bisa menjalankan Codex dan Claude Code secara bersamaan lalu memilih hasil terbaik
- Saya juga memakai OpenRouter untuk alasan serupa
  Di satu sisi untuk mencegah lock-in, di sisi lain untuk mengurangi repotnya pindah-pindah tool, dan kalau pun nanti lock-in, supaya tetap mudah pindah
Saya penasaran dengan masa depan Opus
Apakah ia akan terus berada di level performa dan harga yang "monster", atau lompatan dari 4 ke 4.5 nanti lebih moderat
- Opus 4.1 baru saja dirilis, jadi perubahan dari 4.1 ke 4.5 mungkin akan lebih kecil dibanding upgrade Sonnet 4 ke 4.5
  Tentu saja saya tidak tahu apakah penomoran versi benar-benar bermakna atau hanya efek pemasaran
- Perasaan saya, Sonnet dan Haiku 4.5 memakai base model yang sama dengan versi 4, dan perbaikan utamanya berasal dari fine-tuning menggunakan data yang dihasilkan Opus
  Saya hanya mengikuti industrinya, bukan orang yang benar-benar membuat atau mengembangkan model, tetapi fine-tuning model kecil dengan model besar memang praktik umum di industri
  Satu-satunya alasan GPT-4 Turbo jauh lebih cepat dan murah daripada GPT-4 asli kemungkinan memang itu
  OpenAI juga menyembunyikan reasoning token sebagai strategi untuk mencegah pesaing melatih data dari sana
- Opus sempat menghilang cukup lama lalu baru-baru ini muncul lagi
  Mungkin mereka terus mengembangkan tiga ukuran model besar/menengah/kecil, lalu menentukan waktu rilis sesuai permintaan pasar dan kemampuan model
- Penasaran nama model yang lebih kecil dari Haiku nanti akan seperti apa. Mungkin "Claude Phrase"?
Saya mencoba membandingkan Haiku dan Sonnet untuk pertanyaan yang benar-benar membutuhkan dokumentasi kode nyata
Haiku mengarang output fungsi dan memberi jawaban yang salah, sedangkan Sonnet menjawab dengan benar
- Hasil Haiku: tautan
  Hasil Sonnet: tautan
Tarif input $1, output $5 memang lebih murah dibanding Sonnet 4.5, tetapi sekarang sudah banyak LLM kecil dan cepat, jadi untuk agent coding skala besar model yang lebih murah lebih penting
Sonnet tetap banyak dipakai walau mahal, jadi Haiku pun akan cukup populer jika kualitasnya bagus
- Saat memakai caching, biaya bisa turun sampai 10 sen per juta input
  Hampir semua model murah open source tidak punya caching seefektif ini
  Ini bisa jadi sangat besar dampaknya
- Saya developer profesional, jadi tidak terlalu peduli biaya
  Kecepatan jauh lebih penting, sampai-sampai saya bersedia membayar lebih untuk Haiku 4.5 daripada Sonnet 4.5
  Waktu menunggu jawaban terlalu sayang untuk dibuang
  Menembus 73% di SWE Bench sudah lebih dari cukup bagi saya
- Dari sisi penggunaan API, Claude Code memang jadi lebih mahal (kalau hanya percaya benchmark, kualitasnya tetap membaik)
- Haiku 3.5 dulu $0.8/$4, sedangkan 4.5 menjadi $1/$5, jadi agak mengecewakan Dibanding model murah OpenAI dan Gemini saat ini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30), daya saing harganya kurang
Setahu saya ini adalah produk Reasoner kecil pertama dari Anthropic, dan informasi system card juga dilampirkan
PDF system card
(diskusi terkait bisa dilihat di sini)
Di Extended NYT Connections (benchmark puzzle konektivitas), Haiku 4.5 mendapat 20.0, Haiku 3.5 mendapat 10.0, Sonnet 3.7 mendapat 19.2, Sonnet 4.0 mendapat 26.6, dan Sonnet 4.5 mendapat 46.1
Sebagai developer freelance, peningkatan kecepatan respons 3x saja sudah terasa cukup berharga
Saya berharap produktivitas saya akan jauh naik jika beralih ke ini alih-alih claude 4.5
Saya penasaran apa sebenarnya kegunaan model kecil seperti ini? Kecepatan? Tujuan transisi on-device? Pengurangan biaya API? Kalau kebanyakan orang memakai langganan Claude, bukankah kegunaannya jadi tidak terlalu jelas?
- Sekarang setelah ada GPT-5-mini dan Haiku 4.5, saya justru ingin bertanya, "kapan model besar benar-benar dibutuhkan?"
  Di perusahaan kami juga hampir semuanya ditangani model kecil kecuali pekerjaan kode internal yang rumit
  Lingkungan yang berhadapan dengan pengguna dan workflow seperti ekstraksi, transformasi, terjemahan, penggabungan, evaluasi, dan sebagainya semuanya ditangani model mini/nano
- Di Claude code, model kecil otomatis didelegasikan dari Sonnet 4.5 ketika konteksnya kuat dan tugasnya jelas (bisa dikonfigurasi)
  Efeknya besar untuk menghemat context window sesi utama dan meningkatkan throughput token
- Ini ideal untuk membuat submodul tool call yang lebih terspesialisasi dan dipanggil oleh model besar
- Workflow Cerebras Qwen Coder yang saya pakai terasa nyaris real-time (3k tps), jadi rasanya lebih seperti natural language shell daripada agent,
  dan memungkinkan eksperimen berulang dengan cepat sebelum menyusun rencana dan meneruskannya ke model besar
- Bahkan dari ranking LLM OpenRouter, kebanyakan model yang benar-benar dipakai untuk vibe/agentic coding adalah kelas "small"
  tautan ranking OpenRouter
  Tentu saja Gemini 2.5 Pro juga peringkatnya lebih tinggi dari perkiraan