- Grok 4 dari xAI menempati peringkat 1 model AI di benchmark utama
- Di AAI Index, Grok 4 meraih skor 73, mengungguli OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64), dan DeepSeek R1 0528 (68)
- Grok 4 juga mencatat skor tertinggi di benchmark terkait coding dan matematika, serta mencetak rekor baru di GPQA Diamond (88%) dan Humanity’s Last Exam (24%)
- Harganya sama dengan Grok 3, dan harga per token setara dengan Claude 4 Sonnet, sedikit lebih mahal dibanding Gemini 2.5 Pro atau o3
- Menyediakan fitur utama seperti context window 256k token, input teks/gambar, function calling, dan structured output
Grok 4 naik menjadi model andalan xAI
- Dengan skor 73 di Artificial Analysis Intelligence Index, Grok 4 menempati posisi pertama di benchmark utama
- Dengan skor lebih tinggi daripada OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64), dan DeepSeek R1 0528 (68), ini menjadi kasus pertama xAI merebut posisi terdepan AI
- Grok 3 sebelumnya juga kompetitif, tetapi Grok 4 adalah model pertama yang membawa xAI ke posisi puncak
Benchmark dan hasil evaluasi
- Mencatat peringkat 1 di indeks coding (LiveCodeBench & SciCode) dan indeks matematika (AIME24 & MATH-500)
- Dengan GPQA Diamond 88%, Grok 4 memecahkan rekor sebelumnya milik Gemini 2.5 Pro (84%)
- Humanity’s Last Exam 24%, melampaui rekor Gemini 2.5 Pro sebelumnya (21%)
- MMLU-Pro 87% dan AIME 2024 94% juga mencatat skor tertinggi bersama
- Kecepatan output 75 token/detik, lebih lambat daripada o3 (188), Gemini 2.5 Pro (142), dan Claude 4 Sonnet Thinking (85), tetapi lebih cepat daripada Claude 4 Opus Thinking (66)
Informasi penting lainnya
- Menyediakan context window 256k token (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k, sehingga masih termasuk papan atas)
- Mendukung input teks dan gambar
- Mendukung function calling dan structured output
- Kebijakan harga: sama dengan Grok 3, yaitu $3/$15 per 1M token input/output, dan $0.75 per token input cache
- Sama dengan Claude 4 Sonnet, sedikit lebih mahal daripada Gemini 2.5 Pro dan o3
- Grok 4 dijadwalkan tersedia melalui xAI API, chatbot Grok (X/Twitter), dan Microsoft Azure AI Foundry
Ringkasan
- Grok 4 adalah model AI pertama yang membawa xAI ke posisi terdepan, mengungguli semua model pesaing utama dalam benchmark dan angka performa
- Dengan kemampuan penalaran yang kuat, beragam mode input/output, dan dukungan konteks besar, Grok 4 menunjukkan kepemimpinan di industri
- Detail implementasi model untuk X/Twitter dan untuk API di dunia nyata dapat berbeda
5 komentar
Untuk sementara, aku belum percaya sampai dirilis gratis. Grok bahkan harganya 30 dolar, jadi takut buat langganan...
Sepertinya ini bisa dianggap sebagai performa model dengan proses alignment yang lebih sedikit, tetapi kemungkinan besar nanti akan kena sensor dan performanya turun.
Saat memakai gemini cli, berkat konteks 1M pengalaman penggunanya terasa di level yang berbeda.
Bisa memasukkan seluruh codebase ke dalam konteks itu benar-benar game changer.
Saya penasaran seberapa besar ukuran konteks memengaruhi penggunaan model, tetapi sampai sekarang masih bicara soal apa yang nomor 1 hanya lewat benchmark dan tampilan luarnya saja—apa bedanya itu dengan viral marketing kepada orang-orang yang tidak tahu?
Opini Hacker News