- Dengan arsitektur sparse Mixture of Experts yang hanya mengaktifkan 11B dari total 196B parameter, model ini mendukung inferensi cepat dan interaksi real-time
- Mencapai kecepatan generasi hingga 350 token per detik dan jendela konteks 256K
- Dengan SWE-bench Verified 74.4%, model ini menunjukkan performa stabil pada benchmark coding dan agent, serta dapat dijalankan juga di lingkungan lokal (Mac Studio M4 Max, NVIDIA DGX Spark)
- Melalui tool-augmented reasoning dan orkestrasi multi-agent, model ini membuktikan reliabilitas dan kemampuan eksekusi tinggi dalam skenario kerja nyata seperti keuangan, analisis data, dan otomatisasi riset
- Dengan teknik optimisasi MIS-PO berbasis reinforcement learning, model ini menjaga stabilitas inferensi jangka panjang dan memberikan kemampuan inferensi serta tindakan kelas frontier dengan biaya lebih rendah dibanding model berkinerja tinggi
Gambaran model dan performa
- Step 3.5 Flash adalah foundation model berbasis open-source yang menggabungkan inferensi cepat dan kemampuan agent, dengan skor benchmark rata-rata 81.0
- Skor rata-ratanya lebih tinggi daripada model utama seperti GLM-4.7(78.5), DeepSeek V3.2(77.3), dan Kimi K2.5(80.5)
- Dengan arsitektur sparse MoE, hanya 11B dari 196B parameter yang diaktifkan, sehingga memungkinkan komputasi efisien dan respons real-time
- Berbasis MTP-3, model ini mencapai kecepatan generasi 100~300 tok/s untuk penggunaan umum, dan hingga 350 tok/s untuk tugas coding
- Dengan SWE-bench Verified 74.4% dan Terminal-Bench 2.0 51.0%, model ini menunjukkan performa stabil pada tugas kode dan agent jangka panjang
- Jendela konteks 256K diimplementasikan dengan struktur SWA 3:1, sehingga efisiensi biaya tetap terjaga pada konteks panjang
Contoh penggunaan nyata dan pemanfaatan tool
- Melalui tool-augmented reasoning, performa meningkat pada matematika, coding, dan analisis data
- Saat integrasi eksekusi Python digunakan, model ini mencatat peningkatan skor pada AIME 2025(99.8), HMMT 2025(98.0), dan IMOAnswerBench(86.7)
- Dalam skenario investasi saham, model ini menggabungkan lebih dari 80 tool MCP untuk mengotomatisasi pengumpulan data, analisis, dan notifikasi
- Autonomous Business Intelligence Engine mengotomatisasi proses dari pemrosesan CSV hingga prediksi, serta mengidentifikasi kesenjangan kualitas data (1.6x)
- Large-Scale Repository Architect menganalisis codebase berskala besar untuk membuat wiki khusus yang menghubungkan pola desain dan detail implementasi
Riset dan performa agent
- Pada benchmark ResearchRubrics, model ini meraih 65.3%, lebih tinggi daripada Gemini DeepResearch(63.7) dan OpenAI DeepResearch(60.7)
- Dalam satu loop berbasis ReAct, model ini menjalankan proses perencanaan, pencarian, verifikasi, dan penulisan
- Di lingkungan Claude Code, model ini mencapai 39.6% pada benchmark analisis data, sedikit unggul atas GPT-5.2(39.3)
- Melalui Multi-Agent Framework, Master Agent mengoordinasikan agent pencarian, verifikasi, dan ringkasan untuk menghasilkan keluaran terstruktur
- Dengan Cloud-Device Synergy, saat terhubung dengan Step-GUI model ini mencatat skor 57 pada benchmark AndroidDaily Hard (dibanding 40 saat berjalan sendiri)
Arsitektur dan karakteristik teknis
- Dengan backbone Sparse MoE, kapasitas global (196B) dan komputasi per token (11B) dipisahkan untuk mengoptimalkan biaya dan kecepatan inferensi
- Struktur Sliding-Window Attention + Full Attention(3:1) menjaga efisiensi saat memproses konteks panjang
- Head-wise Gated Attention mengontrol aliran informasi secara dinamis untuk memastikan stabilitas numerik
- Throughput decoding 350 tok/s dicapai pada GPU NVIDIA Hopper
- Melalui model kuantisasi INT4 GGUF, model ini mendukung inferensi lokal (20 tok/s, konteks 256K)
Framework reinforcement learning
- Mengadopsi Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO)
- Menghapus sampel yang tidak stabil dengan binary filtering alih-alih importance sampling
- Menstabilkan inferensi jangka panjang melalui truncation-aware value bootstrapping dan routing confidence monitoring
- Struktur ini memungkinkan self-improvement berkelanjutan di matematika, coding, dan pemanfaatan tool secara umum
Perbandingan benchmark
- Step 3.5 Flash menunjukkan performa papan atas yang seimbang pada tiga area: Reasoning, Coding, dan Agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- Biaya decoding pada konteks 128K adalah 1.0x, lebih efisien dibanding DeepSeek V3.2(6.0x) dan Kimi K2.5(18.9x)
Keterbatasan dan arah ke depan
- Efisiensi token: membutuhkan generasi yang lebih panjang untuk kualitas yang sama dibanding Gemini 3.0 Pro
- Integrasi keahlian: riset on-policy distillation sedang berlangsung untuk menggabungkan generalisasi dan spesialisasi secara efisien
- Ekspansi agentic RL: penerapan RL akan diperluas ke tugas yang lebih kompleks pada level kerja profesional dan riset
- Stabilitas operasional: masih ada kemungkinan inferensi berulang dan keluaran campuran bahasa saat percakapan panjang atau perpindahan domain
Distribusi dan aksesibilitas
- Terintegrasi dengan platform OpenClaw sehingga dapat digunakan melalui instalasi sederhana dan registrasi model
- Dapat diakses melalui platform API (Inggris/Tionghoa) serta aplikasi web dan mobile(iOS/Android)
- Update dan dukungan tersedia melalui komunitas Discord
2 komentar
Model ini lumayan bagus.
Bagi yang punya kondisi memungkinkan dan ingin menjalankannya dengan
llama.cpp, Anda perlu menerapkan prompt yang ada di komentar pada utas berikut secara terpisah. Jika tidak, akan muncul masalah di mana hanya satu</think>yang muncul sendirian di tengah tanpa<think>pembuka.https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…
Komentar Hacker News
Menurut saya ini salah satu rilis yang paling diremehkan di antara LLM yang keluar dalam beberapa bulan terakhir
Saya mengujinya secara lokal dengan versi quant 4-bit (Step-3.5-Flash-GGUF), dan hasilnya lebih baik daripada Minimax 2.5 maupun GLM-4.7 (GLM hanya bisa dipakai dalam 2-bit)
Fitur utamanya sebagai berikut
Ini adalah model lokal pertama di kelas parameter 200B yang benar-benar layak dipakai di CLI harness. Saya memakainya bersama pi.dev dan pengalamannya adalah yang terbaik
Kekurangannya, ada bug loop penalaran tak berujung (isu terkait)
StepFun tampaknya juga perusahaan yang membuat ACEStep (model pembuat musik), dan ini juga disebut di dokumentasi ComfyUI
Kadang panggilan tool-nya keliru, tetapi dengan setelan temperature=1 yang disarankan Qwen, modelnya tidak macet
Nemotron 3 Nano kurang bagus dalam penggunaan tool sehingga cenderung hanya memakai shell tool hampir sepanjang waktu
Secara umum, model open weight yang agentic cenderung tidak pandai memanggil tool yang belum familier
Ingin tahu apakah ada yang pernah menghitungnya
Menurut saya sepertinya ini masalah yang harus diperbaiki di bobot model itu sendiri
Belakangan saya tertarik membaca proses reasoning dari trik “Walk or drive to the carwash”
Tautan terkait: gist, percakapan stepfun.ai
Katanya model ini mendapat skor 51.0% di Terminal-Bench 2.0, tetapi saya ragu apakah itu benar-benar menjamin ‘kemampuan menangani tugas jangka panjang yang stabil’
Jika melihat leaderboard, skor tertingginya 75%, jadi 51% itu sekitar ⅔ dari level SOTA
Bisa jadi modelnya sekadar menghafal flag perintah
Setelah saya uji, halusinasi-nya cukup parah. Bahkan pada pertanyaan sederhana seperti “tolong carikan deck champion Pokemon”, jawabannya tidak akurat
Opus 4.6, Deepseek, dan Kimi bekerja baik seperti yang diduga
Ini model yang baru dirilis, menggunakan arsitektur Mixture of Experts (MoE), sehingga dari 196B hanya 11B yang aktif per token
Unggul atas Kimi K2.5 dan GLM 4.7 di lebih banyak benchmark
Bahkan bisa dijalankan di mesin 128GB dengan versi quant 4-bit (tautan referensi)
Lihat halaman model
Model-model terbaru belakangan ini punya skor benchmark tinggi, tetapi disertai lonjakan penggunaan token
Untuk inovasi yang sesungguhnya, masalah efisiensi daya harus diselesaikan
Pemanfaatan arsitektur MoE yang efisien memengaruhi tokens/joule dan tokens/sec sekaligus
SWE-bench Verified lumayan, tetapi kita butuh benchmark SWE yang lebih baik
Untuk membuat benchmark yang adil, biaya menjalankannya secara berkelanjutan sangat besar
Konsep “live benchmark” bagus, tetapi belum cukup mencerminkan model-model terbaru
Tautan dokumen
Menurut saya, metrik yang lebih penting daripada jumlah parameter adalah tokens per dollar/sec
Karena model-model papan atas tidak mendukung inference lokal
Misalnya Qwen3 0.6b punya tok/dollar yang sangat bagus, tetapi kurang memadai untuk kebanyakan penggunaan
Dari beberapa pengujian sederhana, saya mencatat beberapa hal
Sumbu x pada grafik dibalik, jadi membingungkan