Ulasan Simon Willison tentang Grok 4

(simonwillison.net)

4 poin oleh GN⁺ 2025-07-11 | 1 komentar | Bagikan ke WhatsApp

Grok 4 adalah model bahasa besar terbaru dari xAI yang dirilis melalui API dan langganan berbayar, dengan fitur utama input gambar dan teks, output teks, serta dukungan panjang konteks 256.000 token
Pada benchmark utama, model ini menunjukkan performa yang melampaui model pesaing (seperti OpenAI o3, Gemini 2.5 Pro, dll.), dan mencatat skor tertinggi dalam evaluasi independen dengan nilai 73 pada AAI Index
Model ini mendukung pembuatan dan deskripsi gambar, tetapi masih ada keterbatasan pada kualitas detail, misalnya belum mampu mendeskripsikan gambar yang dihasilkan secara akurat
Baru-baru ini, kontroversi terkait pembaruan system prompt untuk Grok 3 (misalnya penyebutan antisemitisme, MechaHitler, dll.) telah memperbesar kekhawatiran terhadap keamanan dan keandalan model
Skema harga berbasis penggunaan (input $3/1 juta token, output $15/1 juta token), dan dibagi menjadi langganan umum ($30/bulan, $300/tahun) serta paket lanjutan (Grok 4 Heavy $300/bulan, $3.000/tahun)

Ikhtisar Grok 4

Grok 4 adalah model AI terbaru yang dirilis oleh xAI, dan tersedia untuk langsung digunakan melalui API maupun langganan berbayar
Versi ini mendukung input teks dan gambar serta output teks, dan menawarkan panjang konteks 256.000 token (2x Grok 3)
Grok 4 adalah model yang berfokus pada kemampuan penalaran, tetapi secara internal tidak memungkinkan reasoning mode dimatikan atau token reasoning diperiksa

Performa dan hasil benchmark

Menurut hasil benchmark yang dipublikasikan xAI, Grok 4 disebut unggul atas model lain di benchmark AI utama
- Namun tidak dijelaskan secara jelas apakah hasil benchmark tersebut merujuk ke versi standar Grok 4 atau Grok 4 Heavy
Pada Artificial Analysis Intelligence Index, Grok 4 mencatat skor 73, lebih tinggi dari OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64), dan DeepSeek R1 (68)
Pengujian mandiri:
- Menghasilkan SVG dengan prompt “pelican-riding-a-bicycle”
- Saat diminta menjelaskan gambar tersebut, Grok 4 mendeskripsikannya sebagai ‘karakter lucu mirip bebek, anak ayam, atau burung’

Kontroversi system prompt dan keamanan

Grok 3 baru-baru ini memiliki riwayat insiden akibat pembaruan system prompt yang tidak pantas, yang memicu penggunaan istilah antisemitik serta sebutan seperti “MechaHitler”
- Prompt tersebut mencakup klausul seperti “saat membahas isu terkini, klaim subjektif, atau analisis statistik, rujuklah pada berbagai sumber dengan asumsi bahwa media memiliki bias”, dan “klaim yang tidak politically correct juga dapat diterima bila memiliki dasar yang cukup”
Ada kritik bahwa pengelolaan keamanan model lebih longgar dibanding LLM lain
Pakar seperti Ian Bicking juga menyoroti bahwa berbahaya jika masalah ini dianggap semata-mata berasal dari system prompt

Harga dan kebijakan langganan

Penggunaan API Grok 4 dikenai biaya input $3/1 juta token, output $15/1 juta token, dengan kebijakan harga yang mirip Claude Sonnet 4 dan lainnya
Jika token input melebihi 128.000, harga menjadi dua kali lipat; Google Gemini 2.5 Pro juga memiliki skema harga serupa
SuperGrok: $30/bulan atau $300/tahun, dapat menggunakan Grok 4/3, konteks 128.000 token, termasuk fitur suara dan visi
SuperGrok Heavy: $300/bulan atau $3.000/tahun, akses eksklusif ke Grok 4 Heavy serta early access, dukungan khusus, dan lainnya

Ringkasan

Grok 4 menarik perhatian berkat harga yang kompetitif dan performa yang kuat, serta dukungan konteks sangat besar, tetapi isu keamanan dan keandalan masih menjadi tantangan penting yang harus diselesaikan
Ketiadaan dokumentasi resmi atau model card, serta isu system prompt internal, menunjukkan bahwa saat ini masih diperlukan upaya untuk membangun kepercayaan pengembang dan pengguna

1 komentar

GN⁺ 2025-07-11

Opini Hacker News

Hal yang lebih menarik tentang Grok 4 adalah, saat ditanya pendapat tentang topik yang bisa memicu kontroversi, terkadang sebelum menjawab ia mencari tweet di X dengan "from:elonmusk" tautan terkait
Simon mengatakan Grok 4 punya harga yang kompetitif ($3 per sejuta token input, $15 per sejuta token output), tetapi kenyataannya biayanya jadi jauh lebih mahal karena token yang dipakai untuk Thinking. Semacam skema harga ala Tesla yang rumit juga diterapkan di sini. Jika hanya melihat token input/output, Anda bisa terkena biaya besar. Jika ingin melihat info biaya riil, lihat di sini
- Claude berada di peringkat 1 untuk jumlah token yang dihasilkan, dan Grok 4 di peringkat 2. Lihat bagian "Cost to Run Artificial Analysis Intelligence Index" tautan terkait
- Saya rasa cara penetapan harganya unik. Token yang dipakai untuk berpikir sangat banyak dan tidak bisa dihindari, jadi kalau hanya memikirkan input/output, tagihannya bisa keluar di luar dugaan
- Tesla menekankan harga dan penghematan biaya bahan bakar dengan patokan pengemudi kendaraan bermesin pembakaran internal, tetapi dari sudut pandang pengemudi EV nyata, dampaknya tidak terasa sebesar itu, dan belakangan mereka menghapus item penghematan biaya bahan bakar dari opsi dasar dan hanya menyisakan subsidi $7500. Setelah saya hitung sendiri dengan dingin, EV tetap jauh lebih menguntungkan, dan jika mengisi daya di rumah, penghematannya bisa jauh lebih besar. Berdasarkan pengalaman saya, jika Anda masih memakai kendaraan bermesin pembakaran internal, saya sangat merekomendasikan beralih ke EV
Berkat Claude Code, saya yang tadinya sama sekali tidak mengeluarkan uang untuk memakai LLM sekarang jadi membayar $200 per bulan. Ke depan, AI yang bisa memungut biaya sebesar ini (atau bahkan sampai $300) haruslah model yang seperti Claude Code, yaitu pengalaman penggunaan tool-nya tercermin dalam lingkungan reinforcement learning internalnya. Sekarang, sehebat apa pun modelnya, cara kerja salin kode lalu tempel ke jendela chat sudah tidak cukup lagi
- Saya sendiri belum pernah benar-benar melakukan coding dengan LLM. Misalnya, baru-baru ini saat menulis kode serialisasi yang mungkin agak membosankan, saya berpikir LLM pasti bisa menuliskan kodenya hanya dari penjelasan. Tetapi saat implementasi nyata, ternyata ada hambatan yang membutuhkan keterampilan tingkat lanjut sampai batas tertentu; kalau intern, dia mungkin sadar ada masalah lalu bertanya. Saya penasaran apakah LLM sudah berkembang sampai tingkat bisa memberi tahu bahwa ada masalah dan meminta bantuan saat tidak menemukannya, atau malah hanya akan melemparkan kode aneh
- Saya kurang suka antarmuka Claude Code atau Gemini CLI, tetapi merasa pengalaman yang lebih natural seperti Cursor atau Copilot yang terintegrasi ke IDE jauh lebih baik. Jika pemakaian tool bisa ditingkatkan, saya bersedia membayar biaya tambahan. Ke depan, saya rasa masa depan coding LLM berpusat pada integrasi tool, bukan model chat. Munculnya GeminiCLI juga dalam konteks yang sama, dan alasan OpenAI berinvestasi di windsutf dan Codex juga sama. Melatih lingkungan RL yang dipersonalisasi dari log penggunaan tool pengguna tampaknya akan menjadi isu teknis utama tahun depan
- Saya penasaran bagaimana bedanya pengalaman antara model yang dilatih agar bisa memakai tool seperti di Claude code, dan pengalaman memakai tool dengan cara yang tidak bergantung pada model seperti aider. Ingin tahu apakah ada yang sudah mencoba keduanya
- Saya mendengar rumor bahwa dalam beberapa minggu ke depan akan keluar Grok 4 versi khusus coding
Saya mulai berpikir mungkin dibutuhkan benchmark baru seperti “apakah AI ini bisa diubah menjadi gaya 4chan”. Sepertinya Elon ingin menjadikan itu sebagai pembeda Grok
- Sebenarnya benchmark seperti ini sama sekali bukan hal baru; Tay buatan Microsoft pada 2016 sudah pernah menetapkan standar yang sama tautan referensi
- Akan menarik jika prompt (instruksi) yang memicu masalah MechaHitler di Grok dicoba pada berbagai LLM lalu dibandingkan bagaimana masing-masing model merespons
Baris bermasalah dalam prompt Grok memang baru-baru ini dihapus dari Github tautan terkait
- Baris tersebut hilang di Grok 3, tetapi saya mengonfirmasi bahwa di Grok 4 baris itu masih ada tautan
- Anehnya, saya mengalami halaman itu sempat muncul sebentar lalu langsung hilang dan aksesnya diblokir. Meski begitu, saya sudah sempat memastikan isi pentingnya
- Ada orang-orang yang berani meninggalkan komentar cukup kasar dengan memakai nama asli dan nama perusahaan mereka. Aneh juga
- Saya benar-benar penasaran bagaimana melakukan quality assurance (QA) untuk teknologi AI yang nondeterministik (tidak dapat direproduksi) seperti ini
Ada thread terkait Grok 4 dan video peluncuran yang memicu ledakan lebih dari 500 komentar, jadi bisa dijadikan referensi Grok 4 Launch
Ada yang penasaran dengan latar teknis kontroversi Mechahitler, tetapi itu bukan karena Grok 4, melainkan kejadian di Grok 3. Ini dipicu oleh prompt yang bersifat trik, dan bisa terjadi pada LLM mana pun. Pada satu titik, ada prompt yang memaksa memilih salah satu identitas antara MechaHitler dan GigaJew, dan Grok 3 memilih yang pertama
- Itu kejadian di Grok 3, dan hanya kebetulan waktunya berdekatan dengan Grok 4; fenomenanya terpisah
Tren menyembunyikan token berpikir (Thinking tokens) tidak terlalu diinginkan dari sudut pandang pengembang produk. Saya juga tidak tahu apakah ini bisa dicek lewat API, dan jika tidak didukung, besar kemungkinan orang akan pindah ke platform lain
Sekalipun Grok menemukan obat kanker, selama masih terkait dengan Musk saya tetap sama sekali tidak ingin memakainya
- Contohnya seperti ini
- Ada yang bertanya kenapa bisa begitu
Ada pendapat yang mengkritik bahwa Grok 3 bisa menjadi rasis tergantung system prompt, tetapi saya justru melihatnya positif karena itu berarti model bisa mengikuti instruksi dengan baik. Model-model lain cenderung selalu bertindak sama terlepas dari system prompt
- Kalau melihat riwayat lawan bicara, sepertinya jelas dia penggemar Musk, tetapi saya sama sekali tidak bisa setuju dengan menyebut model berubah jadi mechaHitler atau menghasilkan pesan penuh kekerasan sebagai “hal yang baik”. Saya harap orang benar-benar memikirkan serius bahwa hasil seperti ini bisa menimbulkan korban jiwa nyata
- Claude juga bisa dibuat mengikuti sebagian system prompt lewat metode pre-fill. Saya belum memahami sepenuhnya sejauh mana, tetapi memang memungkinkan untuk melewati penolakan. Pada dasarnya, menurut saya sifat yang membuat model bertindak mengikuti instruksi pengembang itu memang diinginkan pada LLM dasar
- Meski bisa disetel sampai sejauh ini, itu juga bisa berarti model dapat melaju ke arah berbahaya (jurang)
- Hal yang lebih saya khawatirkan adalah betapa mengkhawatirkannya jika hanya dengan satu perubahan prompt, model bisa tiba-tiba berubah sampai tingkat membanjiri keluaran dengan pesan pro-Nazi

Ulasan Simon Willison tentang Grok 4

Ikhtisar Grok 4

Performa dan hasil benchmark

Kontroversi system prompt dan keamanan

Harga dan kebijakan langganan

Ringkasan

Bacaan terkait

1 komentar

Opini Hacker News