5 poin oleh GN⁺ 2025-07-11 | 5 komentar | Bagikan ke WhatsApp
  • Grok 4 dari xAI menempati peringkat 1 model AI di benchmark utama
  • Di AAI Index, Grok 4 meraih skor 73, mengungguli OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64), dan DeepSeek R1 0528 (68)
  • Grok 4 juga mencatat skor tertinggi di benchmark terkait coding dan matematika, serta mencetak rekor baru di GPQA Diamond (88%) dan Humanity’s Last Exam (24%)
  • Harganya sama dengan Grok 3, dan harga per token setara dengan Claude 4 Sonnet, sedikit lebih mahal dibanding Gemini 2.5 Pro atau o3
  • Menyediakan fitur utama seperti context window 256k token, input teks/gambar, function calling, dan structured output

Grok 4 naik menjadi model andalan xAI

  • Dengan skor 73 di Artificial Analysis Intelligence Index, Grok 4 menempati posisi pertama di benchmark utama
  • Dengan skor lebih tinggi daripada OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64), dan DeepSeek R1 0528 (68), ini menjadi kasus pertama xAI merebut posisi terdepan AI
  • Grok 3 sebelumnya juga kompetitif, tetapi Grok 4 adalah model pertama yang membawa xAI ke posisi puncak

Benchmark dan hasil evaluasi

  • Mencatat peringkat 1 di indeks coding (LiveCodeBench & SciCode) dan indeks matematika (AIME24 & MATH-500)
  • Dengan GPQA Diamond 88%, Grok 4 memecahkan rekor sebelumnya milik Gemini 2.5 Pro (84%)
  • Humanity’s Last Exam 24%, melampaui rekor Gemini 2.5 Pro sebelumnya (21%)
  • MMLU-Pro 87% dan AIME 2024 94% juga mencatat skor tertinggi bersama
  • Kecepatan output 75 token/detik, lebih lambat daripada o3 (188), Gemini 2.5 Pro (142), dan Claude 4 Sonnet Thinking (85), tetapi lebih cepat daripada Claude 4 Opus Thinking (66)

Informasi penting lainnya

  • Menyediakan context window 256k token (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k, sehingga masih termasuk papan atas)
  • Mendukung input teks dan gambar
  • Mendukung function calling dan structured output
  • Kebijakan harga: sama dengan Grok 3, yaitu $3/$15 per 1M token input/output, dan $0.75 per token input cache
    • Sama dengan Claude 4 Sonnet, sedikit lebih mahal daripada Gemini 2.5 Pro dan o3
  • Grok 4 dijadwalkan tersedia melalui xAI API, chatbot Grok (X/Twitter), dan Microsoft Azure AI Foundry

Ringkasan

  • Grok 4 adalah model AI pertama yang membawa xAI ke posisi terdepan, mengungguli semua model pesaing utama dalam benchmark dan angka performa
  • Dengan kemampuan penalaran yang kuat, beragam mode input/output, dan dukungan konteks besar, Grok 4 menunjukkan kepemimpinan di industri
  • Detail implementasi model untuk X/Twitter dan untuk API di dunia nyata dapat berbeda

5 komentar

 
slowandsnow 2025-07-11

Untuk sementara, aku belum percaya sampai dirilis gratis. Grok bahkan harganya 30 dolar, jadi takut buat langganan...

 
paruaa 2025-07-11

Sepertinya ini bisa dianggap sebagai performa model dengan proses alignment yang lebih sedikit, tetapi kemungkinan besar nanti akan kena sensor dan performanya turun.

 
click 2025-07-11

Saat memakai gemini cli, berkat konteks 1M pengalaman penggunanya terasa di level yang berbeda.
Bisa memasukkan seluruh codebase ke dalam konteks itu benar-benar game changer.

 
koolgu 2025-07-11

Saya penasaran seberapa besar ukuran konteks memengaruhi penggunaan model, tetapi sampai sekarang masih bicara soal apa yang nomor 1 hanya lewat benchmark dan tampilan luarnya saja—apa bedanya itu dengan viral marketing kepada orang-orang yang tidak tahu?

 
GN⁺ 2025-07-11
Opini Hacker News
  • Sulit membayangkan siapa yang mau membayar untuk memakai Grok, apalagi belakangan ini sepertinya benar-benar bermasalah, valuasi xAI cuma ilusi belaka
    • Saya membayar untuk memakai Grok, sudah beberapa bulan memakainya alih-alih Google, sangat berguna karena bisa mengakses graph X dan punya banyak informasi terbaru, semoga bisa dipakai juga di Cline atau Cursor
    • Saya penasaran apakah Anda tahu bahwa yang bikin masalah itu bukan model Grok, melainkan bot @grok di X, versi API Grok tidak tiba-tiba meniru Hitler tanpa alasan (kecuali jika diminta secara langsung)
  • Mencatat performa 4x o3 dan 2x opus 4 di ARC-AGI2… benchmark independen lainnya juga sangat kuat, tren siklus singkat di mana tiap model mengklaim sebagai "yang terbaik di dunia" selama sebulan terus berputar, dengan harga seperti ini bagus untuk konsumen, dataset pelatihan model terbuka juga makin beragam jadi sama-sama untung, menyedihkan melihat orang memutar alasan yang melelahkan karena perang emosi terhadap tokoh terkenal, banyak orang butuh detoks media, dulu LLM disebut "burung beo stokastik", tetapi melihat thread ini dan Reddit sekarang, justru manusialah yang mengulang hal-hal bodoh dan penuh kebencian seperti burung beo, kita harus jadi lebih baik
  • Saya penasaran apakah respons terkait Hitler akan terus muncul di kode saya ke depannya, edit: saya merasa bodoh karena tidak menyadari bahwa ini ternyata satu lagi langkah pemasaran yang "jenius"