7 poin oleh GN⁺ 2025-07-11 | 6 komentar | Bagikan ke WhatsApp
  • Grok 4 adalah model AI terbaru yang dirilis xAI setelah sekitar 2 tahun, dengan kecerdasan dan kemampuan penalaran yang diklaim melampaui mahasiswa pascasarjana di semua bidang
  • Skala pelatihan dan sumber daya komputasi meningkat lebih dari 100 kali lipat, berkembang dengan fokus pada reinforcement learning (RL), dan menunjukkan kemampuan pemecahan masalah yang melampaui level manusia
  • Mencapai skor ARC-AGI 15.9%, mencatat hasil unggul pada evaluasi penalaran abstrak dan kecerdasan umum yang termasuk level tertinggi di antara AI yang ada saat ini
  • Dalam berbagai benchmark seperti Humanity’s Last Exam (HLE), menunjukkan hasil terobosan sebesar 26.9% tanpa alat eksternal, dan 41~50.7% saat menggunakan alat
  • Dengan hadirnya native voice mode, Grok 4 menghadirkan interaksi mirip manusia seperti percakapan real-time, ekspresi emosi, dan respons latensi rendah

Grok 4

  • xAI yang didirikan Elon Musk memperkenalkan Grok 4 setelah sekitar 2 tahun, sambil menegaskan bahwa ini adalah “model AI terbaik di dunia”
  • Meraih skor sempurna pada ujian standar seperti SAT dan GRE, serta menunjukkan performa yang belum pernah ada sebelumnya pada soal setingkat pascasarjana dan doktoral di semua disiplin ilmu
    > "Untuk pertanyaan akademik, Grok 4 lebih pintar daripada mahasiswa pascasarjana di semua mata pelajaran"
  • Grok 2 berfokus sebagai model konsep, Grok 3 menitikberatkan pada pretraining berbasis beragam sumber data, dan Grok 4 dilatih dengan sumber daya komputasi dan data 100 kali lebih besar dibanding 2, serta 10 kali lebih besar dibanding 3
  • Dilatih di superkomputer Colossus (200 ribu GPU) dengan fokus pada pretraining dan RL
    • Berfokus pada reinforcement learning (RL), mengadopsi struktur koreksi kesalahan mandiri di mana model menerima umpan balik selama proses pemecahan masalah dan secara bertahap meningkatkan performa
    • Menekankan bahwa kemajuan terbesar dapat dicapai dalam waktu singkat berdasarkan kemampuan pemecahan masalah logis dan pola pikir “first principles”

2 versi model

  • Model dasar Grok 4 dan versi peningkatan performa Grok 4 Heavy
  • Grok 4 Heavy mewujudkan kecerdasan kolektif melalui pendekatan multi-agent, di mana beberapa agen memecahkan masalah secara bersamaan lalu membandingkan hasil untuk menemukan jawaban terbaik
    • Tersedia melalui layanan langganan SuperGrok Heavy (300 dolar per bulan)

Terobosan skor AGI

  • Grok 4 mencatat skor 15.9% pada tes ARC-AGI, sebuah nilai yang termasuk tertinggi di industri
  • ARC-AGI mengevaluasi kecerdasan umum model dan kemampuan pemecahan masalah abstrak, dengan fokus pada pengenalan pola visual dan kemampuan menerapkan ke skenario baru

Hasil Humanity's Last Exam (HLE)

  • Humanity’s Last Exam(HLE) yang diperkenalkan pada Januari 2025 adalah benchmark super sulit yang terdiri dari lebih dari 100 bidang dan 2.500 soal, termasuk matematika, biologi, ilmu sosial, fisika, AI, teknik, dan kimia

  • Nilai Grok 4: “pada level yang tidak bisa dijangkau manusia nyata maupun AI yang ada saat ini”

    • Tanpa penggunaan alat: 26.9%
    • Menggunakan alat (Grok 4 Heavy): 41%
    • Dengan komputasi tambahan saat pengujian (32x): mencapai hingga 50.7%
  • Tanpa penggunaan alat berarti menyelesaikan soal hanya dengan kemampuan bahasa/penalaran bawaan, sedangkan penggunaan alat berarti dikombinasikan dengan sistem multi-agent seperti eksekusi kode, pencarian web, dan pemanfaatan data eksternal

  • Training compute menggunakan superkomputer Colossus berbasis 200 ribu GPU untuk melatih pengetahuan model dan kemampuan penggunaan alat, sedangkan test-time compute menjalankan beberapa model secara paralel saat pemecahan soal, termasuk proses verifikasi hasil

    > “Grok 4 berada di level PhD atau lebih di semua bidang”
    > "Dalam waktu dekat, bahkan penemuan teknologi baru/fisika baru pun diharapkan"

Nilai benchmark AI utama

  • AIME: kemampuan menyelesaikan soal matematika kompleks tingkat sekolah menengah
  • GPQA: evaluasi penalaran ilmiah tingkat pascasarjana seperti fisika
  • LiveCodeBench: pengukuran kemampuan coding berbasis tantangan pemrograman Python
  • MMLU-Pro: kemampuan menyelesaikan soal pilihan ganda tingkat tinggi di berbagai bidang profesional
  • LOFT: evaluasi kemampuan mengekstrak informasi yang dibutuhkan untuk kueri kompleks dari teks panjang

Kasus penggunaan praktis dan penerapan di dunia nyata

  • Dalam simulasi bisnis (VendingBench), Grok 4 menunjukkan hasil lebih dari 2 kali lipat dibanding model sebelumnya serta konsistensi yang lebih baik, membuktikan kemampuan menjalankan strategi jangka panjang
  • Di laboratorium ilmu hayati dan tempat lain, Grok 4 digunakan untuk analisis log eksperimen skala besar, penyusunan hipotesis, dan interpretasi citra medis, membuktikan efisiensi kerja nyata
  • Dalam pengembangan game, Grok 4 mendukung pengumpulan aset game otomatis hingga pembuatan kode, sehingga satu developer saja dapat menyelesaikan game 3D dengan cepat

Inovasi native voice mode

  • Grok 4 mendukung percakapan suara real-time, interupsi yang alami di tengah percakapan, pemahaman/reproduksi intonasi emosional, dan respons ultra-rendah latensi, menghadirkan interaksi humanoid yang melampaui sistem TTS yang ada
  • Penambahan berbagai jenis suara (aksen British, gaya trailer, dll.) serta demo langsung menunjukkan kelancaran, kecepatan, dan beragam kegunaan percakapan real-time

API dan perluasan ekosistem

  • Grok 4 juga dirilis lewat API, sehingga siapa pun dapat melakukan benchmark test dan penerapan bisnis
  • Mitra dari berbagai bidang seperti keuangan, sains, dan hiburan sudah mulai mengadopsinya, memperbesar dampak di dunia nyata
  • Menyediakan 256k context length untuk memperkuat kemampuan menangani pekerjaan panjang dan kompleks

Keterbatasan dan pengembangan berikutnya

  • Saat ini, kelemahan terbesar Grok 4 adalah kurangnya kemampuan pemahaman/generasi multimodal seperti gambar dan video
  • Dengan foundation model v7 yang segera menyelesaikan pelatihan dan RL yang lebih diperkuat, peningkatan menyeluruh untuk vision, video, dan audio direncanakan
  • Pengembangan dan perilisan model video generation (menggunakan 100,000+ GPU GB200) juga telah diumumkan

Roadmap xAI ke depan

  • Agustus 2025: model coding dijadwalkan rilis
  • September 2025: agen multimodal akan diperkenalkan
  • Oktober 2025: model video generation direncanakan diumumkan
  • Performa alat dan model akan terus diperkuat

Kesimpulan dan implikasi

  • Grok 4 membuktikan dirinya secara nyata mampu bersaing atau bahkan melampaui AI terbaik saat ini dalam hal kemampuan penalaran dan pemecahan masalah akademik
  • Kecerdasan dan penalaran yang belum pernah ada sebelumnya, interaksi suara real-time, penggunaan alat, dan struktur multi-agent menghadirkan titik balik nyata menuju AGI generasi berikutnya
  • Bersamaan dengan potensi ekspansi ke berbagai bidang seperti kerja nyata/bisnis/game/riset/hiburan, xAI diposisikan sebagai perusahaan AGI tercepat
  • Siklus pengembangan xAI yang cepat dan langkah agresifnya menunjukkan bahwa persaingan industri AI terus semakin dipercepat

6 komentar

 
xguru 2025-07-11

Yah, memang harus dicoba langsung baru tahu, tapi dengan 200 ribu GPU dan kumpulan talenta sebesar itu, pertumbuhan seagresif ini ternyata memang mungkin.
Kalau Colossus nanti jadi 1 juta GPU, kira-kira bakal seberapa jauh lagi peningkatannya.

Kalau H100 dihitung 50 juta won per unit, harga GPU saja sudah 50 triliun won. Membangun data center dan menyiapkan pasokan listrik di sekitarnya katanya butuh tambahan sekitar 20 triliun won, jadi totalnya 70 triliun won. AI rasanya makin lama makin jadi ajang adu uang.

 
jujumilk3 2025-07-11

Kenapa tiba-tiba bawa-bawa mahasiswa pascasarjana lalu dihajar gitu sih wkwk

 
sknah 2025-07-11

Wkwkwk mahasiswa pascasarjana yang tiba-tiba kena hantam jadi bengong ..

 
lcanon 2025-07-11

Saya paham Grok 4 memang luar biasa, tetapi ungkapan yang khas dunia berbahasa Inggris seperti “dalam waktu dekat bahkan diharapkan bisa menemukan teknologi baru/fisika baru” itu cukup lucu. Kalau sebentar lagi bisa membuktikan atau menyangkal hipotesis Riemann, tentu benchmark macam apa pun tidak akan diperlukan lagi, bukan?

 
GN⁺ 2025-07-11
Opini Hacker News
  • Model "Heavy" harganya 300 dolar per bulan, rasanya harga terus naik; dulu sepertinya kita dijanjikan harga akan terus turun. Mungkin ini terjadi karena banyak perusahaan kekurangan GPU; vendor seperti Google tampaknya tidak mengalami masalah ini. Gemini 2.5 Pro saja sudah bisa dipakai gratis di AI Studio, bahkan sampai setelan 32k pun sama sekali tidak dikenai biaya. Mungkin saja Gemini 3.0 nanti juga akan dirilis gratis
    • Rasanya tidak pernah ada yang benar-benar menjanjikan bahwa model berperforma tinggi akan selalu murah. Untuk tingkat performa dan jumlah token yang sama, harga justru sedang turun. Mirip seperti Hukum Moore: chip makin kompleks, tetapi performa per unit jadi lebih murah
    • Ini mirip Ferrari yang lebih mahal daripada Model T, atau komputer termahal saat ini yang jauh lebih mahal daripada PC pertama. Yang benar-benar turun harganya itu level entry atau lini dengan performa yang sama dipertahankan. Wajar kalau rentang harga keseluruhan justru makin melebar. Saya melihat ini sebagai tanda bahwa industri ini mulai matang. Bedanya kali ini, level entry sempat dibuat artifisial menjadi 0 atau sangat murah karena pendanaan VC
    • Penting juga untuk melihat bahwa harga Gemini juga terus naik, tautan terkait
    • Ini fenomena scaling biaya yang muncul karena waktu penalaran (inference time). Pada akhirnya, kesenjangan antara yang mampu dan yang tidak mampu mengakses AI akan makin besar. Sebagian besar dunia tidak sanggup membayar biaya langganan ratusan dolar
    • O3 baru-baru ini menurunkan harga 80%, Grok 4 juga belum lama dirilis dan performanya bagus sambil tetap cukup masuk akal harganya. Kalau bukan versi heavy, harga per token-nya juga sama dengan Grok 3. Google sepertinya rela menanggung biaya demi memperbesar pengaruhnya, jadi saya kurang paham dengan keluhan di komentar awal
  • Sepertinya ini memang SOTA (State of the Art, model terbaik terbaru) yang baru. Dibanding o3, Gemini, dan Claude, skornya naik signifikan di Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1, 2, dan lainnya. Model coding khusus juga dijadwalkan rilis dalam beberapa minggu ke depan. Perlu dicatat, hari ini mereka tidak banyak membahas performa coding
    • Setuju. Dalam simulasi World Series hari ini, saya merasa ada nuansa penalaran yang agak goyah. Model itu mengambil angka dari Polymarket lalu menjawab seolah-olah itu datanya sendiri. Tentu saya bisa saja salah karena tidak melihat terlalu detail, tetapi contoh seperti ini kembali membuat saya merasa tim keselamatan untuk model pelopor memang perlu diisi orang yang punya sudut pandang skeptis. Meski begitu, ini tetap kemajuan yang luar biasa. Kalau benchmark-nya memang tidak terkontaminasi, rasanya ini akan meledak populer sebagai daily driver. Untuk coding, satu-satunya kekurangan hanya konteks 256k; saya berharap di v7 ada peningkatan konteks yang lebih panjang, terutama terkait video. Bagaimanapun juga, saya ingin cepat mencobanya
    • Saya harap model coding-nya tersedia untuk agen coding. Saya tidak bisa menemukannya di mana pun
    • Sudah cukup lama terbukti bahwa ketika model disensor, skornya turun drastis. Misalnya, tentu cara membuat bom harus diblokir, tetapi Grok 3 tetap mempertahankan posisi progresif secara konsisten sambil mengakses data yang paling buruk sekalipun (mengingat latar sponsor-nya)
    • Bahkan kalaupun Anda tidak menyukai Elon Musk, tetap mengejutkan bahwa Grok berhasil menyusul tiga besar—Google, OpenAI, Anthropic—sampai setara. Sekarang levelnya nyaris sama
  • Saya baru saja mencoba Grok 4 dan hasilnya luar biasa. Ia membuat kode deployment EC2 1000 baris dalam Java CDK sekali jalan, termasuk VPC dan Security Groups, tanpa satu pun error sintaks. Yang paling mengesankan, saat membuat userData (perintah #!/bin/bash), ia bahkan melakukan wget ke alamat GitHub yang tepat untuk artifact software terbaru. Benar-benar hebat
    • Kalau bisa membagikan hasilnya, saya benar-benar ingin melihatnya. Kalau kode sebanyak itu keluar sekali jadi tanpa error, itu memang sangat mengesankan. Saya penasaran apakah Grok juga menjalankan tool untuk query seperti ini (linter, eksekusi sandbox, web search, dll.)
    • Sebagai kode sekali pakai, ini hebat. Tetapi untuk kode yang bisa dipelihara, dengan tuntutan source control, kolaborasi, kepatuhan pada SDLC standar, immutability, dan pengelolaan riwayat perubahan state, ini masih jauh dari cukup. Kalau ada intern menulis kode deployment EC2 seperti ini, saya rasa saya perlu berdiskusi panjang soal setiap keputusan yang diambil
    • Saya penasaran kenapa Anda memakai Java untuk CDK alih-alih TypeScript. Apakah karena ingin menyatukan semua environment dalam satu bahasa?
  • Trik inti Grok Heavy adalah menjalankan beberapa agen secara paralel lalu membandingkan hasilnya. Secara keseluruhan ini hasil benchmark yang sangat mengesankan. Sudah pasti mahal dan lambat, tetapi ini memang alur logis desain agen generasi berikutnya. Saya benar-benar ingin mencobanya. Sebagai catatan, API-nya juga sudah dibuka. Sepertinya xAI memang berhasil melakukan sesuatu
    • Saya paham cara kerjanya, tetapi tetap terasa seperti semacam "hack". LLM itu sendiri rasanya tidak lagi mengalami lompatan besar yang jelas, melainkan hanya memperluas skala dari sisi kedalaman, panjang, lebar, dan sebagainya. Pada akhirnya pertumbuhannya tampak datang dari menambahkan tool atau logika "non-AI" di sekelilingnya. Sama seperti solusi jaringan saraf mentah dulu pada dasarnya menunggu pertumbuhan performa hardware secara eksponensial, mungkin arah ini memang solusinya
    • Memang mahal dan lambat, tetapi kalau ingin melatih model SOTA generasi berikutnya, pada akhirnya metode seperti ini juga akan dipakai untuk rejection sampling dan pemanfaatan data sintetis yang bagus. Menagih pengguna 300 dolar untuk pengalaman seperti ini terasa cukup masuk akal
    • Mirip dengan llm-consortium, hanya saja variasi modelnya kurang. Bisa lihat tweet karpathy dan open-source llm-consortium
    • Secara pribadi, saya justru lebih berharap teknik seperti ini diimplementasikan oleh pihak lain, bukan oleh "perusahaan bermasalah" seperti ini. Saya ingin tetap memegang prinsip saya
    • Saya rasa o3 pro mungkin juga bekerja dengan cara seperti itu
  • Kalau tidak sempat menonton video peluncurannya, saya sudah membuat versi klipnya. Intinya benar-benar mengesankan, dan persaingan AI makin memanas, Lihat Short Clips
  • Dengan Grok 4 saya berhasil menyelesaikan masalah perilaku tidak konsisten saat menjalankan lldb dari Python. Ada perbedaan antara Docker dan environment Linux lokal saya, dan penyebabnya ternyata address sanitizer bekerja berbeda tergantung environment. O3 tidak berhasil menangkap hal ini, tetapi Grok 4 bisa menunjukkannya dengan tepat, jadi saya sangat terkesan
  • "Grok 4 (Thinking)" mencapai 15.9% di ARC-AGI-2, hampir menggandakan SOTA komersial sebelumnya, dan bahkan memperbarui rekor tertinggi kompetisi Kaggle saat ini, detail lengkap
  • Sangat mengesankan, tetapi saya sangat ragu apakah perusahaan akan mudah memilih model yang telah dipost-training sesuai kecenderungan pribadi Elon sebagai penyedia API. Secara teknis memang unggul, tetapi secara bisnis tampak ada batasannya
  • Untuk deep research, Grok selalu termasuk yang terbaik ketika dipakai tanpa API. Grok 4 tampaknya memperbesar potensi itu
    • Integrasi Grok dengan Twitter sejauh ini adalah use case nyata terbaiknya. Bisa langsung bertanya soal konteks atau arti istilah di dalam tweet secara real-time, dan itu terasa sangat berguna
    • Bagi saya OpenAI jelas lebih baik daripada semua pesaingnya (meski saya juga tidak bisa bilang saya menyukainya), tetapi benar bahwa Grok terasa paling unggul untuk update real-time atau pertanyaan dukungan TI
    • Bisa dijelaskan sedikit lebih spesifik apa yang dimaksud dengan <deep research>?
  • Saya penasaran apakah ada yang sudah mengintegrasikan Grok. Saya sudah sangat banyak mengintegrasikan LLM sejauh ini, tetapi belum pernah melihat kasus penggunaan Grok yang benar-benar dipakai. Kalau ini tidak diatasi, tidak ada yang akan percaya pada model ini. Perusahaan tidak akan memakainya sebelum ia benar-benar menunjukkan kapabilitas yang serius. Suasananya juga belum terasa seperti perusahaan yang matang
    • Grok 3 sudah tersedia di Azure AI Foundry, dan integrasi dengan Telegram juga sudah diumumkan, walaupun sebenarnya struktur deal-nya adalah pihak Grok membayar Telegram 300 juta dolar. Tautan: Grok 3 dan mini hadir di Azure Foundry, artikel BBC. Bagaimanapun, saya menganggap memilih Grok sebagai risiko reputasi yang serius
    • Saya justru lebih penasaran dari mana dan bagaimana Grok merekrut talenta. Di bidang ini uang sangat melimpah dan lab bagus juga banyak, jadi sekarang rasanya sulit pindah kerja tanpa ideologi atau keyakinan yang cukup kuat. Saya ragu ada begitu banyak peneliti AI yang benar-benar ingin melihat Elon sebagai semacam raja
    • Saya memakai Grok untuk menganalisis visual gambar makanan, dan hasilnya bagus. Ia mengenali merek dengan baik, juga bisa memahami foto yang diambil pengguna dengan cara aneh. API-nya juga sangat mudah dipakai
    • Mengintegrasikan model yang minggu lalu menyebut dirinya sendiri sebagai "Mecha Hitler" ke layanan nyata menurut saya pilihan yang tidak waras. Saya penggemar Musk, tetapi saya tetap ingin menegaskan bahwa sambil mengkritik Sama, dia sendiri sedang merilis AI yang sama kuatnya namun sama lemahnya dalam kontrol