Peluncuran Grok 4
(twitter.com/xai)- Grok 4 adalah model AI terbaru yang dirilis xAI setelah sekitar 2 tahun, dengan kecerdasan dan kemampuan penalaran yang diklaim melampaui mahasiswa pascasarjana di semua bidang
- Skala pelatihan dan sumber daya komputasi meningkat lebih dari 100 kali lipat, berkembang dengan fokus pada reinforcement learning (RL), dan menunjukkan kemampuan pemecahan masalah yang melampaui level manusia
- Mencapai skor ARC-AGI 15.9%, mencatat hasil unggul pada evaluasi penalaran abstrak dan kecerdasan umum yang termasuk level tertinggi di antara AI yang ada saat ini
- Dalam berbagai benchmark seperti Humanity’s Last Exam (HLE), menunjukkan hasil terobosan sebesar 26.9% tanpa alat eksternal, dan 41~50.7% saat menggunakan alat
- Dengan hadirnya native voice mode, Grok 4 menghadirkan interaksi mirip manusia seperti percakapan real-time, ekspresi emosi, dan respons latensi rendah
Grok 4
- xAI yang didirikan Elon Musk memperkenalkan Grok 4 setelah sekitar 2 tahun, sambil menegaskan bahwa ini adalah “model AI terbaik di dunia”
- Meraih skor sempurna pada ujian standar seperti SAT dan GRE, serta menunjukkan performa yang belum pernah ada sebelumnya pada soal setingkat pascasarjana dan doktoral di semua disiplin ilmu
> "Untuk pertanyaan akademik, Grok 4 lebih pintar daripada mahasiswa pascasarjana di semua mata pelajaran" - Grok 2 berfokus sebagai model konsep, Grok 3 menitikberatkan pada pretraining berbasis beragam sumber data, dan Grok 4 dilatih dengan sumber daya komputasi dan data 100 kali lebih besar dibanding 2, serta 10 kali lebih besar dibanding 3
- Dilatih di superkomputer Colossus (200 ribu GPU) dengan fokus pada pretraining dan RL
- Berfokus pada reinforcement learning (RL), mengadopsi struktur koreksi kesalahan mandiri di mana model menerima umpan balik selama proses pemecahan masalah dan secara bertahap meningkatkan performa
- Menekankan bahwa kemajuan terbesar dapat dicapai dalam waktu singkat berdasarkan kemampuan pemecahan masalah logis dan pola pikir “first principles”
2 versi model
- Model dasar Grok 4 dan versi peningkatan performa Grok 4 Heavy
- Grok 4 Heavy mewujudkan kecerdasan kolektif melalui pendekatan multi-agent, di mana beberapa agen memecahkan masalah secara bersamaan lalu membandingkan hasil untuk menemukan jawaban terbaik
- Tersedia melalui layanan langganan SuperGrok Heavy (300 dolar per bulan)
Terobosan skor AGI
- Grok 4 mencatat skor 15.9% pada tes ARC-AGI, sebuah nilai yang termasuk tertinggi di industri
- ARC-AGI mengevaluasi kecerdasan umum model dan kemampuan pemecahan masalah abstrak, dengan fokus pada pengenalan pola visual dan kemampuan menerapkan ke skenario baru
Hasil Humanity's Last Exam (HLE)
-
Humanity’s Last Exam(HLE) yang diperkenalkan pada Januari 2025 adalah benchmark super sulit yang terdiri dari lebih dari 100 bidang dan 2.500 soal, termasuk matematika, biologi, ilmu sosial, fisika, AI, teknik, dan kimia
-
Nilai Grok 4: “pada level yang tidak bisa dijangkau manusia nyata maupun AI yang ada saat ini”
- Tanpa penggunaan alat: 26.9%
- Menggunakan alat (Grok 4 Heavy): 41%
- Dengan komputasi tambahan saat pengujian (32x): mencapai hingga 50.7%
-
Tanpa penggunaan alat berarti menyelesaikan soal hanya dengan kemampuan bahasa/penalaran bawaan, sedangkan penggunaan alat berarti dikombinasikan dengan sistem multi-agent seperti eksekusi kode, pencarian web, dan pemanfaatan data eksternal
-
Training compute menggunakan superkomputer Colossus berbasis 200 ribu GPU untuk melatih pengetahuan model dan kemampuan penggunaan alat, sedangkan test-time compute menjalankan beberapa model secara paralel saat pemecahan soal, termasuk proses verifikasi hasil
> “Grok 4 berada di level PhD atau lebih di semua bidang”
> "Dalam waktu dekat, bahkan penemuan teknologi baru/fisika baru pun diharapkan"
Nilai benchmark AI utama
- AIME: kemampuan menyelesaikan soal matematika kompleks tingkat sekolah menengah
- GPQA: evaluasi penalaran ilmiah tingkat pascasarjana seperti fisika
- LiveCodeBench: pengukuran kemampuan coding berbasis tantangan pemrograman Python
- MMLU-Pro: kemampuan menyelesaikan soal pilihan ganda tingkat tinggi di berbagai bidang profesional
- LOFT: evaluasi kemampuan mengekstrak informasi yang dibutuhkan untuk kueri kompleks dari teks panjang
Kasus penggunaan praktis dan penerapan di dunia nyata
- Dalam simulasi bisnis (VendingBench), Grok 4 menunjukkan hasil lebih dari 2 kali lipat dibanding model sebelumnya serta konsistensi yang lebih baik, membuktikan kemampuan menjalankan strategi jangka panjang
- Di laboratorium ilmu hayati dan tempat lain, Grok 4 digunakan untuk analisis log eksperimen skala besar, penyusunan hipotesis, dan interpretasi citra medis, membuktikan efisiensi kerja nyata
- Dalam pengembangan game, Grok 4 mendukung pengumpulan aset game otomatis hingga pembuatan kode, sehingga satu developer saja dapat menyelesaikan game 3D dengan cepat
Inovasi native voice mode
- Grok 4 mendukung percakapan suara real-time, interupsi yang alami di tengah percakapan, pemahaman/reproduksi intonasi emosional, dan respons ultra-rendah latensi, menghadirkan interaksi humanoid yang melampaui sistem TTS yang ada
- Penambahan berbagai jenis suara (aksen British, gaya trailer, dll.) serta demo langsung menunjukkan kelancaran, kecepatan, dan beragam kegunaan percakapan real-time
API dan perluasan ekosistem
- Grok 4 juga dirilis lewat API, sehingga siapa pun dapat melakukan benchmark test dan penerapan bisnis
- Mitra dari berbagai bidang seperti keuangan, sains, dan hiburan sudah mulai mengadopsinya, memperbesar dampak di dunia nyata
- Menyediakan 256k context length untuk memperkuat kemampuan menangani pekerjaan panjang dan kompleks
Keterbatasan dan pengembangan berikutnya
- Saat ini, kelemahan terbesar Grok 4 adalah kurangnya kemampuan pemahaman/generasi multimodal seperti gambar dan video
- Dengan foundation model v7 yang segera menyelesaikan pelatihan dan RL yang lebih diperkuat, peningkatan menyeluruh untuk vision, video, dan audio direncanakan
- Pengembangan dan perilisan model video generation (menggunakan 100,000+ GPU GB200) juga telah diumumkan
Roadmap xAI ke depan
- Agustus 2025: model coding dijadwalkan rilis
- September 2025: agen multimodal akan diperkenalkan
- Oktober 2025: model video generation direncanakan diumumkan
- Performa alat dan model akan terus diperkuat
Kesimpulan dan implikasi
- Grok 4 membuktikan dirinya secara nyata mampu bersaing atau bahkan melampaui AI terbaik saat ini dalam hal kemampuan penalaran dan pemecahan masalah akademik
- Kecerdasan dan penalaran yang belum pernah ada sebelumnya, interaksi suara real-time, penggunaan alat, dan struktur multi-agent menghadirkan titik balik nyata menuju AGI generasi berikutnya
- Bersamaan dengan potensi ekspansi ke berbagai bidang seperti kerja nyata/bisnis/game/riset/hiburan, xAI diposisikan sebagai perusahaan AGI tercepat
- Siklus pengembangan xAI yang cepat dan langkah agresifnya menunjukkan bahwa persaingan industri AI terus semakin dipercepat
6 komentar
Grok 4 kini menjadi model AI terdepan
Ulasan Simon Willison tentang Grok 4
Grok mencari apa yang dikatakan Elon Musk di X tentang isu Israel-Palestina
Yah, memang harus dicoba langsung baru tahu, tapi dengan 200 ribu GPU dan kumpulan talenta sebesar itu, pertumbuhan seagresif ini ternyata memang mungkin.
Kalau Colossus nanti jadi 1 juta GPU, kira-kira bakal seberapa jauh lagi peningkatannya.
Kalau H100 dihitung 50 juta won per unit, harga GPU saja sudah 50 triliun won. Membangun data center dan menyiapkan pasokan listrik di sekitarnya katanya butuh tambahan sekitar 20 triliun won, jadi totalnya 70 triliun won. AI rasanya makin lama makin jadi ajang adu uang.
Kenapa tiba-tiba bawa-bawa mahasiswa pascasarjana lalu dihajar gitu sih wkwk
Wkwkwk mahasiswa pascasarjana yang tiba-tiba kena hantam jadi bengong ..
Saya paham Grok 4 memang luar biasa, tetapi ungkapan yang khas dunia berbahasa Inggris seperti “dalam waktu dekat bahkan diharapkan bisa menemukan teknologi baru/fisika baru” itu cukup lucu. Kalau sebentar lagi bisa membuktikan atau menyangkal hipotesis Riemann, tentu benchmark macam apa pun tidak akan diperlukan lagi, bukan?
Opini Hacker News
inference time). Pada akhirnya, kesenjangan antara yang mampu dan yang tidak mampu mengakses AI akan makin besar. Sebagian besar dunia tidak sanggup membayar biaya langganan ratusan dolaruserData(perintah#!/bin/bash), ia bahkan melakukanwgetke alamat GitHub yang tepat untuk artifact software terbaru. Benar-benar hebatlldbdari Python. Ada perbedaan antara Docker dan environment Linux lokal saya, dan penyebabnya ternyata address sanitizer bekerja berbeda tergantung environment. O3 tidak berhasil menangkap hal ini, tetapi Grok 4 bisa menunjukkannya dengan tepat, jadi saya sangat terkesan