Grok 4 Fast

(x.ai)

4 poin oleh GN⁺ 2025-09-21 | 2 komentar | Bagikan ke WhatsApp

Grok 4 Fast yang diumumkan xAI adalah model penalaran generasi berikutnya yang memaksimalkan efisiensi biaya dan kecepatan berdasarkan hasil pelatihan Grok 4 yang sudah ada
Model ini memiliki jendela konteks 2M token, fitur pencarian web dan X, serta arsitektur terpadu reasoning / non-reasoning, sehingga cocok untuk penggunaan real-time
Dalam benchmark, model ini menunjukkan performa yang mirip dengan Grok 4 sambil menggunakan rata-rata 40% lebih sedikit token, sehingga dapat mencapai kinerja yang sama dengan biaya jauh lebih rendah
Selain itu, melalui reinforcement learning untuk penggunaan alat, model ini menunjukkan performa tinggi dalam eksekusi kode, penjelajahan web, dan lainnya, serta meraih peringkat 1 di LMArena Search Arena

Kemajuan kecerdasan yang efisien biaya

Grok 4 Fast menunjukkan performa lebih baik daripada Grok 3 Mini sambil secara signifikan menurunkan biaya token
- Rata-rata mencapai performa serupa dengan Grok 4 dengan menggunakan 40% lebih sedikit 'Thinking Tokens'
- Contoh skor benchmark (pass@1):
  - Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
  - Hasil setara atau lebih baik dibanding model pesaing (GPT-5, dll.)
Pada berbagai benchmark penalaran seperti GPQA, AIME, HMMT, dan LiveCodeBench, model ini menunjukkan hasil yang mendekati Grok 4
Bersamaan dengan peningkatan efisiensi token Grok 4 Fast sebesar 40%, harga per token juga diturunkan secara signifikan
Untuk mencapai performa yang sama, biayanya 98% lebih rendah dibanding Grok 4, mencatat 'rasio harga-terhadap-kecerdasan terbaik (SOTA Price-to-Intelligence Ratio)' di antara model yang dipublikasikan
- Hasil ini juga diverifikasi melalui penilaian kuat dalam evaluasi eksternal Artificial Analysis Intelligence Index, sebuah lembaga independen

Pemanfaatan alat native dan pencarian SOTA

Dilatih dengan reinforcement learning (RL) untuk penggunaan alat, sehingga dapat otomatis menjalankan eksekusi kode atau browsing web saat diperlukan
Memiliki kemampuan pencarian agentic yang dapat menjelajahi web dan X secara real-time untuk melakukan pencarian multi-hop serta menangani media (gambar, video)
Pada berbagai benchmark seperti BrowseComp, SimpleQA, dan X Bench Deepsearch(zh), model ini mencapai performa yang melampaui Grok 4

Hasil post-training domain umum

Di Search Arena milik LMArena, Grok 4 Fast(menlo) meraih peringkat 1 dengan Elo 1163, unggul 17 poin dari model pesaing
Di Text Arena, grok-4-fast (codename tahoe) berada di peringkat 8, jauh lebih unggul dibanding model lain sekelasnya (peringkat 18 ke bawah)
Dalam tugas pencarian dan teks nyata, model ini menunjukkan efisiensi yang melampaui model besar

Model terpadu Reasoning dan Non-Reasoning

Mode reasoning / non-reasoning yang sebelumnya memerlukan model terpisah kini diintegrasikan dalam arsitektur tunggal
- Mode reasoning (pemikiran mendalam) dan non-reasoning (jawaban cepat) dapat dialihkan hanya dengan system prompt
- Penurunan latensi end-to-end dan biaya token membuatnya cocok untuk aplikasi real-time
Di xAI API, developer dapat mengatur kecepatan/kedalaman secara lebih rinci

Distribusi dan kebijakan harga

Grok 4 Fast sudah dapat langsung digunakan, dan tersedia gratis untuk sementara di OpenRouter dan Vercel AI Gateway
Di xAI API, model ini juga tersedia dalam dua versi, grok-4-fast-reasoning dan grok-4-fast-non-reasoning, dengan dukungan jendela konteks 2M token
Harga dimulai dari token input $0.20/1M dan token output $0.50/1M, dengan tarif 2x berlaku untuk penggunaan di atas 128k token
Token input cache tersedia di $0.05/1M, membantu penghematan biaya

Rencana ke depan

Model akan terus ditingkatkan dengan mencerminkan masukan pengguna
Fitur multimodal dan penguatan karakteristik agentic menjadi target utama pembaruan berikutnya
Model card dan detail tambahan dapat dilihat melalui Grok 4 Fast model card (PDF)

2 komentar

kuber 2025-09-21

Kelihatannya lebih mahal dan lebih lambat daripada gpt-oss, jadi saya penasaran kenapa banyak orang memakainya..

GN⁺ 2025-09-21

Komentar Hacker News

Saya tidak ingin menggunakan produk Musk berapa pun bayaran yang ditawarkan, terlebih jika perannya adalah memfilter, mentransformasi, dan mensintesis informasi; mungkin ada gunanya, tetapi saya tidak percaya dan tidak ingin menambah kekayaan Musk
- Bahkan kalaupun tidak punya sentimen buruk terhadap Musk secara pribadi, saya sudah beberapa kali melihat ia campur tangan langsung pada cara kerja Grok agar menghasilkan keluaran yang sesuai dengan ideologinya; kalau begitu saya rasa produk itu tidak bisa dipakai, mungkin ada juga yang sejalan dengan pandangan Musk, tetapi nilai produk AI justru terletak pada kemampuannya menghasilkan jawaban dengan memanfaatkan beragam data dan algoritme, bukan sekadar mereproduksi opini seseorang
- Saya dengar sebelum Grok memberi jawaban, ia mencari opini Musk di Twitter; saya penasaran apakah ini berlaku untuk semua versi Grok atau hanya versi embed Twitter saja
- Alternatifnya benar-benar banyak, jadi saya rasa sama sekali tidak ada alasan untuk memakai Grok
- Ada kasus ketika Musk langsung mengutak-atik Grok karena katanya propaganda Fox News terkait pembunuhan Kirk tidak muncul contoh 1, dan hal seperti ini sudah berkali-kali terjadi artikel NYT; Grok adalah teknologi yang diliputi kontroversi propaganda, jadi membahasnya seolah ini layanan teknologi biasa terasa tidak masuk akal
Namanya model "Fast", tetapi saya penasaran kenapa kecepatan pemrosesan token tidak dipublikasikan; apakah "fast" berarti hal lain, atau memang performanya terlalu fluktuatif
- Menurut saya ini pada dasarnya cuma “grok 4 mini”; mungkin karena kalau disebut ‘mini’ orang jadi kurang tertarik memakainya, maka diberi nama ‘fast’, karena itu memberi alasan untuk memilihnya
- Berdasarkan OpenRouter, saat ini kecepatannya sekitar 160 token per detik sumber
- Sepertinya diposisikan sebagai model yang cepat dengan fokus pada ‘efisiensi token’, yakni menggunakan lebih sedikit token untuk menghasilkan hasil lebih cepat
Grok 4 ada di peringkat atas leaderboard extended NYT Connections tautan
- Baru-baru ini saya sempat berpikir Sonoma sky Alpha yang mendapat umpan balik di OpenRouter mungkin model ini; saya cukup sering memakainya karena gratis, tetapi menurut saya hasilnya lebih buruk daripada grok 4 yang lama, jadi mungkin bukan
Saya belakangan sering memakai model grok-code-fast-1, jadi agak disayangkan produk baru kali ini tidak menyebutnya; saya berharap mungkin ada versi yang lebih baik, grok-code-fast-1 memang sedikit di bawah Gemini 2.5 Pro, tetapi untuk kecepatan iterasi itu yang terbaik
- Meski modelnya agak sederhana, pengalaman saya untuk kebutuhan pribadi justru lebih baik daripada somnet
Saya tidak paham bagaimana versi yang lebih cepat bisa unggul di banyak benchmark dibanding versi yang lebih lambat; apakah model ini cuma terus dilatih khusus untuk mengerjakan tes benchmark
- Bukan berarti unggul di semua benchmark; Grok 4 Fast lebih lemah daripada Grok 4 pada GPQA Diamond, HLE, dan area berbasis fakta dalam jumlah besar lainnya; model yang besar (=lambat) memang lebih baik di area seperti ini, sebaliknya pada benchmark yang menitikberatkan penalaran atau penggunaan tool, kemampuan transisi token lebih penting sehingga model yang lebih kecil dan cepat juga bisa kompetitif, kemungkinan data latihnya sendiri disetel agar lebih condong ke task tertentu, dan hasil nyatanya pun tampak dipromosikan dengan memilih benchmark seperti itu; sebaliknya saya rasa orang juga bisa membuat ‘materi promosi tandingan’ dengan hanya memilih benchmark memori fakta lalu menekankan performanya yang rendah
- Secara teknis bisa saja berbeda karena perubahan arsitektur, data yang lebih banyak, RL, dan sebagainya; belakangan ini mereka memang tampak melaju jauh dibanding model terbuka dalam pemanfaatan RL
- Sebenarnya ini cuma dua model dengan nama yang mirip; hubungan Grok 4 Fast dan Grok 4 bukan seperti versi cepat dari model yang sama, melainkan sepenuhnya berbeda seperti hubungan gpt-4 dan gpt-4o
- Kemungkinan besar Grok 4 Fast adalah versi dari model Grok 4 yang memangkas bagian-bagian yang hampir tidak pernah dipakai di lingkungan produksi nyata, sehingga menjadi lebih ringan dan lebih fokus; jadi struktur logikanya mungkin sama, tetapi hasilnya lebih efisien karena difokuskan pada tujuan tertentu
Belakangan model besar dilatih dengan ukuran yang mirip dan data yang serupa; yang berbeda hanya kebijakan harga… grok tampaknya menonjol karena menghapus filter atau guardrail, dan benchmark sendiri juga punya banyak kelemahan sehingga mudah dimanipulasi; orang-orang di industri terkait sebenarnya sudah sama-sama tahu soal ini
Performa benchmark dibanding harganya terlihat bagus; saya penasaran bagaimana hasilnya dalam pengujian pengguna nyata
- Kalau ini memang sonoma-dusk yang dulu sempat tersedia sebagai preview di OpenRouter, model itu cukup berguna; saya mengujinya pada tugas reverse engineering kode, dan kecepatan maupun performanya mirip atau bahkan lebih baik daripada gpt5-mini, sanggup bertahan cukup baik sampai 110 ribu~130 ribu token, dan setelah itu mulai cenderung mengklaim sudah selesai meski kondisinya belum cukup terpenuhi (misalnya: xx dari 400 tes lolos, sisanya bisa nanti)
Kita semua menginginkan model yang cepat dan akurat, tetapi saya penasaran apakah model ini benar-benar bisa sampai ke taraf ‘akurasi’; kalau memang sangat akurat, saya rela menunggu beberapa detik lebih lama
- Satu-satunya cara yang benar-benar pasti untuk mencapai itu adalah dengan memanfaatkan tool
Tautan referensi tabel perbandingan model besar
Secara pribadi saya memakai frontend kustom, jadi tidak seperti Qwen3 coder, saya cukup kecewa karena grok4 fast tidak punya uji API gratis; tool-tool yang diajak bermitra juga bukan yang biasa saya pakai
- Tautan uji coba gratis grok-4-fast