- Claude Haiku 4.5 adalah model kecil yang, meski berukuran ringkas, menghadirkan performa coding setara Claude Sonnet 4 dengan biaya sepertiga dan kecepatan lebih dari 2x
- Pada benchmark pengembangan nyata seperti SWE-bench Verified, model ini menunjukkan efisiensi coding AI dan responsivitas yang melampaui model generasi sebelumnya
- Jika dipadukan dengan Sonnet 4.5, model ini memungkinkan konfigurasi multi-agent atau eksekusi terpisah untuk masalah kompleks, dan cocok untuk pekerjaan real-time serta lingkungan berlatensi rendah
- Keunggulan kecerdasan tinggi dan kecepatan dapat dirasakan dalam chatbot real-time, dukungan pelanggan, pair programming, dan lainnya
- Hasil evaluasi keamanan menunjukkan tingkat alignment tertinggi di antara model Anthropic, dan dirilis dengan standar AI Safety Level 2 (ASL-2)
- $1/$5 per sejuta token input/output
Pengenalan
- Claude Haiku 4.5 adalah lini model kecil terbaru dari Anthropic, dirancang untuk menyeimbangkan performa, kecepatan, dan efisiensi biaya bagi semua pengguna
- Sambil menawarkan kemampuan coding yang mirip dengan Claude Sonnet 4, biayanya hanya sepertiga dan kecepatannya lebih dari 2x lebih tinggi
- Pada tugas tertentu, seperti penggunaan komputer, model ini bahkan menunjukkan performa yang lebih tinggi daripada Sonnet 4
- Terutama pada alat real-time seperti Claude for Chrome atau Claude Code, model ini menghadirkan lingkungan kerja AI asistif tanpa jeda
Fitur utama dan use case
- Cocok untuk pekerjaan real-time dan berlatensi rendah, sehingga sangat efisien untuk chatbot, layanan pelanggan, pair programming, dan lainnya
- Bagi pengguna Claude Code, model ini menawarkan responsivitas cepat yang ideal untuk proyek multi-agent, prototyping cepat, dan skenario serupa
- Saat ini Sonnet 4.5 masih menjadi model papan atas, tetapi Haiku 4.5 menawarkan performa serupa dengan efisiensi biaya yang tinggi
- Kedua model juga dapat digunakan bersama; misalnya, Sonnet 4.5 dapat memecah masalah kompleks, lalu beberapa Haiku 4.5 menangani subtugasnya secara paralel
- Claude Haiku 4.5 tersedia mulai hari ini secara global, dan developer dapat langsung menggunakannya di Claude API sebagai
claude-haiku-4-5
- Harganya adalah $1/$5 per sejuta token input/output
Benchmark dan evaluasi pengguna
- Haiku 4.5 adalah salah satu model terkuat yang pernah dirilis Anthropic
- Berbagai perusahaan seperti Augment, Warp, Gamma menyebut bahwa dalam pengujian nyata mereka mengonfirmasi kualitas kode di atas 90% dibanding Sonnet 4.5
- Dalam agentic coding, orkestrasi sub-agent, dan tugas penggunaan komputer, model ini menunjukkan kemajuan besar sekaligus memaksimalkan kesegeraan pengalaman pengembangan
- Secara tradisional ada trade-off antara kualitas, kecepatan, dan biaya, tetapi Haiku 4.5 berhasil mencapai kecepatan sekaligus efisiensi biaya
- Dengan menghadirkan kecerdasan dan respons real-time sekaligus, model ini membuka kemungkinan baru untuk aplikasi AI
- Performa yang enam bulan lalu masih dianggap mutakhir kini hadir dengan biaya lebih rendah dan kecepatan lebih tinggi
- Model ini menangani workflow kompleks dengan cepat dan andal, serta memungkinkan koreksi diri secara real-time
- Pada pemrosesan instruksi tertentu seperti pembuatan teks slide, model ini mencatat tingkat keberhasilan yang jauh lebih tinggi dibanding model sebelumnya
- Saat diintegrasikan dengan GitHub Copilot dan lainnya, model ini menghadirkan kualitas kode mirip Sonnet 4 dengan kecepatan lebih tinggi
Evaluasi keamanan
- Dalam berbagai evaluasi keamanan dan alignment, model ini menunjukkan tingkat perilaku bermasalah yang rendah, dan alignment-nya juga meningkat dibanding versi sebelumnya (Claude Haiku 3.5)
- Model ini menunjukkan tingkat perilaku misaligned yang lebih rendah daripada Sonnet 4.5/Opus 4.1, sehingga dinilai sebagai model paling aman yang dibuat Anthropic
- Risiko kimia, biologis, radiologis, dan nuklir (CBRN) juga dinilai sangat rendah, sehingga dirilis dengan standar ASL-2
- Dibanding ASL-3 yang menerapkan pembatasan lebih ketat (Sonnet 4.5, Opus 4.1), model ini dapat dimanfaatkan dengan lebih leluasa
Informasi tambahan
- Claude Haiku 4.5 dapat langsung digunakan di Claude Code, aplikasi Anthropic, dan lainnya
- Berkat pemrosesan yang efisien, pengguna dapat menikmati performa model premium dalam batas penggunaan yang ada
- Di API, Amazon Bedrock, Google Cloud Vertex AI, model ini dapat dipilih sebagai pengganti Haiku 3.5 atau Sonnet 4 dengan biaya lebih rendah
- Detail teknis, hasil evaluasi, dan lainnya dapat dilihat di system card, halaman pengenalan model, dan dokumentasi resmi
2 komentar
Di Claude Code, ini bisa digunakan dengan mengetik
/model haiku. Lebih cepat daripada Sonnet dan hasilnya juga bagus, jadi cukup enak dipakai.Komentar Hacker News
Membagikan gambar pelikan lucu yang sedang mengendarai sepeda yang terlihat agak mencurigakan tautan
Six months in LLMs,
penjelasan tag pelikan mengendarai sepeda,
metodologi benchmark
Shitaki Mushroom riding a rowboat
Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 detik
Dan Grok 4 Fast lumayan untuk gaya pelikan+sepeda, tetapi lemah untuk permintaan lain
contoh Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 detik
Terakhir, hasil GPT-5: contoh, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 detik
Ini subjektif, tetapi bintik jamur dari Haiku sangat mengesankan
Dan perbedaan performa antara benchmark publik dan skenario uji tidak resmi paling kecil pada model Anthropic
Sering kali model Anthropic justru menunjukkan hasil lebih baik daripada benchmark terbuka
Time-to-First Haiku juga merupakan keunggulan yang cukup besar
Meski masih pengujian sangat awal, hasilnya cukup mengesankan
Tidak seperti GPT-5, saat mengubah kode ia menyertakan lebih sedikit bagian kode yang tidak perlu, sehingga perubahannya lebih akurat
Karena itu, dalam lingkungan nyata Haiku 4.5 mungkin justru lebih murah dari sisi efisiensi penggunaan meskipun biaya nominalnya naik
Masalahnya adalah kekuatan merek
Walaupun Haiku 4.5 mungkin punya kualitas mirip Sonnet 4, persepsi terhadap model kecil dan beberapa penurunan performa belakangan ini membuat Haiku 4.5 tidak mudah dipilih dibanding Sonnet 4.5
Penasaran apakah Haiku 3, 3.5, dan 4.5 berada di kisaran parameter yang kurang lebih sama, dan akan bagus jika semua informasi model diungkap secara transparan
Karena itu kebanyakan orang secara psikologis cenderung ingin memakai model besar, padahal menurut saya GPT-5 paling mengesankan dari sisi performa per harga
Referensi harga:
Haiku 3: input $0.25/M, output $1.25/M
Haiku 4.5: input $1.00/M, output $5.00/M
GPT-5: input $1.25/M, output $10.00/M
GPT-5-mini: input $0.25/M, output $2.00/M
GPT-5-nano: input $0.05/M, output $0.40/M
GLM-4.6: input $0.60/M, output $2.20/M
Rata-rata 220 token/sec, hampir 2 kali model serupa
Jika kecepatan ini konsisten, nilainya luar biasa besar
Sebagai referensi, kecepatannya mirip Gemini 2.5 Flash Lite
Groq, Cerebras, dan lainnya juga bisa mencapai 1000 token/sec, tetapi modelnya tidak sebanding
Anthropic selalu tampil lebih baik dalam benchmark pribadi saya dibanding benchmark terbuka, jadi ekspektasi saya tinggi
Jika kecepatan, performa, dan harga ini bisa dipertahankan, Haiku 4.5 adalah pilihan bagus untuk sebagian besar pekerjaan coding
Sonnet mungkin hanya dipakai dalam situasi tertentu
Di masa lalu model Claude mengalami penurunan performa pada pekerjaan rantai panjang lebih dari 7 menit, jadi jika Haiku 4.5 juga begitu itu akan jadi kelemahan
Tetapi saya belum sempat mengujinya untuk pekerjaan jangka panjang
Masalahnya, di Claude Code penggunaan Haiku 4.5 dan Sonnet 4.5 saat ini dihitung sama saja padahal selisih harganya besar
Halaman dukungan juga belum diperbarui dokumen dukungan
Informasi seperti ini seharusnya diumumkan pada hari peluncuran
Tooling, pengujian, dan sistem pengumuman seperti ini sedikit membayangi performa keren model Anthropic
Akhirnya kali ini rilis juga, jadi saya sedang meng-upgrade semua bot saya (atau tepatnya agent)
Belakangan ini membandingkan model dan fitur terasa terlalu merepotkan dan melelahkan
Setiap ekosistem LLM punya batasan berbeda, jadi harus terus bolak-balik, dan saya membayar masing-masing $20 per bulan untuk Claude Code dan Codex
Saya juga memakai Cursor, tetapi tidak terlalu peduli model apa yang dipakai di balik layar
Saya hanya ingin alat terpadu yang konsisten
Saya ingin semuanya membaik secara otomatis tanpa saya harus memikirkan apa yang terjadi di backend
Seperti server TLS, saya ingin itu terintegrasi di CLI/Neovim/IDE mana pun
Tapi lalu ada yang bilang pendekatan berbasis contoh lebih baik, dan walaupun tiap pendekatan punya pro dan kontra, tidak ada konsensus standar industri sehingga sulit mencari contoh yang bagus
Dulu ada yang membalas dengan istilah "bug-driven development" dan itu sangat membekas, tetapi pada akhirnya saya tetap memakai cara apa pun yang menghasilkan output, lalu memperbaiki bug dan error yang muncul
Karena itu saya memakai GitHub Copilot Pro+
Kalau ada model baru, bisa langsung dipilih saat itu juga (Claude Haiku 4.5 juga sudah ada)
Saya belum pernah menghabiskan kuota premium, meskipun saya bukan pengguna yang terlalu berat
Saya belum mencoba versi CLI, tetapi menarik
Sebelum plugin IntelliJ diperbarui, saya biasa mengirim prompt lewat VS Code lalu kembali lagi
Spacesdi versi web juga berguna untuk pekerjaan sampingan tertentuSaya tidak begitu tahu bagaimana Copilot dibanding LLM individual, tetapi selama ia muncul hanya saat saya mau dan bekerja diam-diam dengan baik, itu sudah cukup
Di satu sisi untuk mencegah lock-in, di sisi lain untuk mengurangi repotnya pindah-pindah tool, dan kalau pun nanti lock-in, supaya tetap mudah pindah
Saya penasaran dengan masa depan Opus
Apakah ia akan terus berada di level performa dan harga yang "monster", atau lompatan dari 4 ke 4.5 nanti lebih moderat
Tentu saja saya tidak tahu apakah penomoran versi benar-benar bermakna atau hanya efek pemasaran
Saya hanya mengikuti industrinya, bukan orang yang benar-benar membuat atau mengembangkan model, tetapi fine-tuning model kecil dengan model besar memang praktik umum di industri
Satu-satunya alasan GPT-4 Turbo jauh lebih cepat dan murah daripada GPT-4 asli kemungkinan memang itu
OpenAI juga menyembunyikan reasoning token sebagai strategi untuk mencegah pesaing melatih data dari sana
Mungkin mereka terus mengembangkan tiga ukuran model besar/menengah/kecil, lalu menentukan waktu rilis sesuai permintaan pasar dan kemampuan model
Saya mencoba membandingkan Haiku dan Sonnet untuk pertanyaan yang benar-benar membutuhkan dokumentasi kode nyata
Haiku mengarang output fungsi dan memberi jawaban yang salah, sedangkan Sonnet menjawab dengan benar
Hasil Sonnet: tautan
Tarif input $1, output $5 memang lebih murah dibanding Sonnet 4.5, tetapi sekarang sudah banyak LLM kecil dan cepat, jadi untuk agent coding skala besar model yang lebih murah lebih penting
Sonnet tetap banyak dipakai walau mahal, jadi Haiku pun akan cukup populer jika kualitasnya bagus
Hampir semua model murah open source tidak punya caching seefektif ini
Ini bisa jadi sangat besar dampaknya
Kecepatan jauh lebih penting, sampai-sampai saya bersedia membayar lebih untuk Haiku 4.5 daripada Sonnet 4.5
Waktu menunggu jawaban terlalu sayang untuk dibuang
Menembus 73% di SWE Bench sudah lebih dari cukup bagi saya
Setahu saya ini adalah produk Reasoner kecil pertama dari Anthropic, dan informasi system card juga dilampirkan
PDF system card
(diskusi terkait bisa dilihat di sini)
Di Extended NYT Connections (benchmark puzzle konektivitas), Haiku 4.5 mendapat 20.0, Haiku 3.5 mendapat 10.0, Sonnet 3.7 mendapat 19.2, Sonnet 4.0 mendapat 26.6, dan Sonnet 4.5 mendapat 46.1
Sebagai developer freelance, peningkatan kecepatan respons 3x saja sudah terasa cukup berharga
Saya berharap produktivitas saya akan jauh naik jika beralih ke ini alih-alih claude 4.5
Saya penasaran apa sebenarnya kegunaan model kecil seperti ini? Kecepatan? Tujuan transisi on-device? Pengurangan biaya API? Kalau kebanyakan orang memakai langganan Claude, bukankah kegunaannya jadi tidak terlalu jelas?
Di perusahaan kami juga hampir semuanya ditangani model kecil kecuali pekerjaan kode internal yang rumit
Lingkungan yang berhadapan dengan pengguna dan workflow seperti ekstraksi, transformasi, terjemahan, penggabungan, evaluasi, dan sebagainya semuanya ditangani model mini/nano
Efeknya besar untuk menghemat context window sesi utama dan meningkatkan throughput token
dan memungkinkan eksperimen berulang dengan cepat sebelum menyusun rencana dan meneruskannya ke model besar
tautan ranking OpenRouter
Tentu saja Gemini 2.5 Pro juga peringkatnya lebih tinggi dari perkiraan