Step 3.5 Flash – LLM open-source untuk inferensi berkecepatan tinggi

(static.stepfun.com)

20 poin oleh GN⁺ 2026-02-20 | 2 komentar | Bagikan ke WhatsApp

Dengan arsitektur sparse Mixture of Experts yang hanya mengaktifkan 11B dari total 196B parameter, model ini mendukung inferensi cepat dan interaksi real-time
Mencapai kecepatan generasi hingga 350 token per detik dan jendela konteks 256K
Dengan SWE-bench Verified 74.4%, model ini menunjukkan performa stabil pada benchmark coding dan agent, serta dapat dijalankan juga di lingkungan lokal (Mac Studio M4 Max, NVIDIA DGX Spark)
Melalui tool-augmented reasoning dan orkestrasi multi-agent, model ini membuktikan reliabilitas dan kemampuan eksekusi tinggi dalam skenario kerja nyata seperti keuangan, analisis data, dan otomatisasi riset
Dengan teknik optimisasi MIS-PO berbasis reinforcement learning, model ini menjaga stabilitas inferensi jangka panjang dan memberikan kemampuan inferensi serta tindakan kelas frontier dengan biaya lebih rendah dibanding model berkinerja tinggi

Gambaran model dan performa

Step 3.5 Flash adalah foundation model berbasis open-source yang menggabungkan inferensi cepat dan kemampuan agent, dengan skor benchmark rata-rata 81.0
- Skor rata-ratanya lebih tinggi daripada model utama seperti GLM-4.7(78.5), DeepSeek V3.2(77.3), dan Kimi K2.5(80.5)
Dengan arsitektur sparse MoE, hanya 11B dari 196B parameter yang diaktifkan, sehingga memungkinkan komputasi efisien dan respons real-time
Berbasis MTP-3, model ini mencapai kecepatan generasi 100~300 tok/s untuk penggunaan umum, dan hingga 350 tok/s untuk tugas coding
Dengan SWE-bench Verified 74.4% dan Terminal-Bench 2.0 51.0%, model ini menunjukkan performa stabil pada tugas kode dan agent jangka panjang
Jendela konteks 256K diimplementasikan dengan struktur SWA 3:1, sehingga efisiensi biaya tetap terjaga pada konteks panjang

Contoh penggunaan nyata dan pemanfaatan tool

Melalui tool-augmented reasoning, performa meningkat pada matematika, coding, dan analisis data
- Saat integrasi eksekusi Python digunakan, model ini mencatat peningkatan skor pada AIME 2025(99.8), HMMT 2025(98.0), dan IMOAnswerBench(86.7)
Dalam skenario investasi saham, model ini menggabungkan lebih dari 80 tool MCP untuk mengotomatisasi pengumpulan data, analisis, dan notifikasi
Autonomous Business Intelligence Engine mengotomatisasi proses dari pemrosesan CSV hingga prediksi, serta mengidentifikasi kesenjangan kualitas data (1.6x)
Large-Scale Repository Architect menganalisis codebase berskala besar untuk membuat wiki khusus yang menghubungkan pola desain dan detail implementasi

Riset dan performa agent

Pada benchmark ResearchRubrics, model ini meraih 65.3%, lebih tinggi daripada Gemini DeepResearch(63.7) dan OpenAI DeepResearch(60.7)
- Dalam satu loop berbasis ReAct, model ini menjalankan proses perencanaan, pencarian, verifikasi, dan penulisan
Di lingkungan Claude Code, model ini mencapai 39.6% pada benchmark analisis data, sedikit unggul atas GPT-5.2(39.3)
Melalui Multi-Agent Framework, Master Agent mengoordinasikan agent pencarian, verifikasi, dan ringkasan untuk menghasilkan keluaran terstruktur
Dengan Cloud-Device Synergy, saat terhubung dengan Step-GUI model ini mencatat skor 57 pada benchmark AndroidDaily Hard (dibanding 40 saat berjalan sendiri)

Arsitektur dan karakteristik teknis

Dengan backbone Sparse MoE, kapasitas global (196B) dan komputasi per token (11B) dipisahkan untuk mengoptimalkan biaya dan kecepatan inferensi
Struktur Sliding-Window Attention + Full Attention(3:1) menjaga efisiensi saat memproses konteks panjang
Head-wise Gated Attention mengontrol aliran informasi secara dinamis untuk memastikan stabilitas numerik
Throughput decoding 350 tok/s dicapai pada GPU NVIDIA Hopper
Melalui model kuantisasi INT4 GGUF, model ini mendukung inferensi lokal (20 tok/s, konteks 256K)

Framework reinforcement learning

Mengadopsi Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO)
- Menghapus sampel yang tidak stabil dengan binary filtering alih-alih importance sampling
- Menstabilkan inferensi jangka panjang melalui truncation-aware value bootstrapping dan routing confidence monitoring
Struktur ini memungkinkan self-improvement berkelanjutan di matematika, coding, dan pemanfaatan tool secara umum

Perbandingan benchmark

Step 3.5 Flash menunjukkan performa papan atas yang seimbang pada tiga area: Reasoning, Coding, dan Agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
Biaya decoding pada konteks 128K adalah 1.0x, lebih efisien dibanding DeepSeek V3.2(6.0x) dan Kimi K2.5(18.9x)

Keterbatasan dan arah ke depan

Efisiensi token: membutuhkan generasi yang lebih panjang untuk kualitas yang sama dibanding Gemini 3.0 Pro
Integrasi keahlian: riset on-policy distillation sedang berlangsung untuk menggabungkan generalisasi dan spesialisasi secara efisien
Ekspansi agentic RL: penerapan RL akan diperluas ke tugas yang lebih kompleks pada level kerja profesional dan riset
Stabilitas operasional: masih ada kemungkinan inferensi berulang dan keluaran campuran bahasa saat percakapan panjang atau perpindahan domain

Distribusi dan aksesibilitas

Terintegrasi dengan platform OpenClaw sehingga dapat digunakan melalui instalasi sederhana dan registrasi model
Dapat diakses melalui platform API (Inggris/Tionghoa) serta aplikasi web dan mobile(iOS/Android)
Update dan dukungan tersedia melalui komunitas Discord

2 komentar

sftblw 2026-02-20

Model ini lumayan bagus.
Bagi yang punya kondisi memungkinkan dan ingin menjalankannya dengan llama.cpp, Anda perlu menerapkan prompt yang ada di komentar pada utas berikut secara terpisah. Jika tidak, akan muncul masalah di mana hanya satu </think> yang muncul sendirian di tengah tanpa <think> pembuka.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  opsi dihilangkan \  
  --jinja \  
  --chat-template-file path/step3p5_flash_chat_template.jinja

GN⁺ 2026-02-20

Komentar Hacker News

Menurut saya ini salah satu rilis yang paling diremehkan di antara LLM yang keluar dalam beberapa bulan terakhir
Saya mengujinya secara lokal dengan versi quant 4-bit (Step-3.5-Flash-GGUF), dan hasilnya lebih baik daripada Minimax 2.5 maupun GLM-4.7 (GLM hanya bisa dipakai dalam 2-bit)
Fitur utamanya sebagai berikut
- Efisiensi konteks sangat tinggi. Di Mac 128GB, bisa menjalankan seluruh konteks 256k atau dua stream 128k secara bersamaan
- Kecepatannya juga bagus di M1 Ultra (36 t/s tg, 300 t/s pp), dan penurunan performa saat konteks membesar cukup landai
- Dioptimalkan untuk agentic coding, dan tampaknya dilatih agar kompatibel dengan Claude Code. Hanya Codex yang jadi pengecualian karena masalah pada alat pengeditan patch
  Ini adalah model lokal pertama di kelas parameter 200B yang benar-benar layak dipakai di CLI harness. Saya memakainya bersama pi.dev dan pengalamannya adalah yang terbaik
  Kekurangannya, ada bug loop penalaran tak berujung (isu terkait)
  StepFun tampaknya juga perusahaan yang membuat ACEStep (model pembuat musik), dan ini juga disebut di dokumentasi ComfyUI
- Saya juga mencoba Qwen3 Coder Next bersama OpenCode dan hasilnya cukup baik
  Kadang panggilan tool-nya keliru, tetapi dengan setelan temperature=1 yang disarankan Qwen, modelnya tidak macet
  Nemotron 3 Nano kurang bagus dalam penggunaan tool sehingga cenderung hanya memakai shell tool hampir sepanjang waktu
  Secara umum, model open weight yang agentic cenderung tidak pandai memanggil tool yang belum familier
- Saya penasaran apakah menjalankan model OSS di M3 Ultra (RAM 512GB) akan lebih hemat daripada berlangganan Claude atau Codex
  Ingin tahu apakah ada yang pernah menghitungnya
- Saya penasaran apakah masalah loop penalaran tak berujung bisa diselesaikan dengan mengganti inference engine
  Menurut saya sepertinya ini masalah yang harus diperbaiki di bobot model itu sendiri
- Penasaran apakah ada yang sudah menjalankannya dalam versi MLX. Secara teori harusnya lebih cepat, tetapi saya ragu mengunduh banyak versi
- gpt-oss 120b dan 20b juga bekerja baik dengan Codex
Belakangan saya tertarik membaca proses reasoning dari trik “Walk or drive to the carwash”
Tautan terkait: gist, percakapan stepfun.ai
Katanya model ini mendapat skor 51.0% di Terminal-Bench 2.0, tetapi saya ragu apakah itu benar-benar menjamin ‘kemampuan menangani tugas jangka panjang yang stabil’
- Angka 51% saja tidak terlalu bermakna. Benchmark seperti ini memakai skor absolut, jadi 100% tidak berarti setara manusia
  Jika melihat leaderboard, skor tertingginya 75%, jadi 51% itu sekitar ⅔ dari level SOTA
- Skor itu mirip Gemini 3 Flash, tetapi dalam praktiknya tampaknya konfigurasi agen lebih berpengaruh terhadap skor daripada modelnya sendiri
- Meski namanya TerminalBench, benchmark ini sebenarnya hampir tidak ada hubungannya dengan terminal dan lebih mirip tes sintaks tool acak
  Bisa jadi modelnya sekadar menghafal flag perintah
Setelah saya uji, halusinasi-nya cukup parah. Bahkan pada pertanyaan sederhana seperti “tolong carikan deck champion Pokemon”, jawabannya tidak akurat
Opus 4.6, Deepseek, dan Kimi bekerja baik seperti yang diduga
- Untuk eksekusi, saya rasa lebih baik memakai model ukuran menengah
- Model seperti Gemini mungkin bisa lebih cepat dan akurat karena aktif memanfaatkan fitur pencarian
Ini model yang baru dirilis, menggunakan arsitektur Mixture of Experts (MoE), sehingga dari 196B hanya 11B yang aktif per token
Unggul atas Kimi K2.5 dan GLM 4.7 di lebih banyak benchmark
Bahkan bisa dijalankan di mesin 128GB dengan versi quant 4-bit (tautan referensi)
- Saya ragu apakah keunggulan benchmark itu benar-benar berarti. Bagi saya, mengikuti instruksi, penalaran konteks panjang, dan minim halusinasi lebih penting
- Saya penasaran mana yang lebih baik di antara Q4_K_S(116GB), IQ4_NL(112GB), dan Q4_0(113GB)
  Lihat halaman model
Model-model terbaru belakangan ini punya skor benchmark tinggi, tetapi disertai lonjakan penggunaan token
Untuk inovasi yang sesungguhnya, masalah efisiensi daya harus diselesaikan
- Bukan cuma jumlah token, efisiensi energi per token (tokens/joule) juga penting
  Pemanfaatan arsitektur MoE yang efisien memengaruhi tokens/joule dan tokens/sec sekaligus
SWE-bench Verified lumayan, tetapi kita butuh benchmark SWE yang lebih baik
Untuk membuat benchmark yang adil, biaya menjalankannya secara berkelanjutan sangat besar
Konsep “live benchmark” bagus, tetapi belum cukup mencerminkan model-model terbaru
- Ada ajakan untuk ikut berpartisipasi dalam pengembangan Terminal Bench 3.0
  Tautan dokumen
Menurut saya, metrik yang lebih penting daripada jumlah parameter adalah tokens per dollar/sec
Karena model-model papan atas tidak mendukung inference lokal
- Jika modelnya open source, jumlah parameter juga penting bagi orang yang mempertimbangkan self-hosting
- Jumlah parameter tetap merupakan indikator kasar performa model
  Misalnya Qwen3 0.6b punya tok/dollar yang sangat bagus, tetapi kurang memadai untuk kebanyakan penggunaan
- Model ini berarti karena bisa dijalankan secara lokal bahkan di mesin di bawah $3.000
Dari beberapa pengujian sederhana, saya mencatat beberapa hal
1. Trace output sangat panjang dan paragrafnya pendek seperti gaya LinkedIn
2. Kecepatan output token pada versi hosted sangat tinggi
3. Kepatuhan terhadap instruksi dan kualitas output lebih baik daripada model-model utama seperti Opus 4.5
Sumbu x pada grafik dibalik, jadi membingungkan
- Saya juga berpikir begitu. Tidak paham kenapa dibuat seperti itu
- Mungkin supaya grafiknya terlihat lebih bagus, tetapi kenyataannya tidak begitu