xAI Merilis Grok 4.3

(docs.x.ai)

5 poin oleh GN⁺ 2026-05-02 | 1 komentar | Bagikan ke WhatsApp

Menyediakan fitur API berfokus pada pengembang seperti jendela konteks 1 juta token, penalaran, pemanggilan fungsi, dan output terstruktur
Berbeda dari Grok 4.20 sebelumnya, penalaran selalu aktif, secara otomatis menjalankan proses berpikir sebelum merespons semua kueri
Harga token input turun sekitar 40%, dan harga token output turun sekitar 60%, sehingga biaya jauh lebih hemat dibanding model sebelumnya
- Harga: input $1.25/1M token, input cache $0.20/1M, output $2.50/1M
- Termasuk yang paling murah di antara model dengan tingkat kecerdasan serupa
Kinerja tugas agentic meningkat drastis — mencatat ELO 1500 pada benchmark GDPval-AA, naik 321 poin dibanding Grok 4.20 dan melampaui Gemini 3.1 Pro Preview, Muse Spark, GPT-5.4 mini, dan lainnya
Untuk pertama kalinya pada model xAI API, mendukung input video native, dengan pemrosesan langsung frame video melalui vision encoder
Mencatat peringkat 1 di bidang penalaran hukum (akurasi CaseLaw v2 79.3%) dan peringkat 1 di bidang keuangan korporat (CorpFin), dengan lonjakan 25 poin dalam penalaran hukum dibanding Grok 4.20
Di dalam antarmuka chat, kini bisa langsung membuat slide presentasi, serta menghasilkan file PDF, Excel, dan PowerPoint secara real-time selama percakapan untuk diunduh
Menyediakan lingkungan eksekusi kode bawaan yang menangani penulisan kode, eksekusi, hingga pembuatan file di dalam model
Speech-to-Text API (25 bahasa, mendukung pemisahan pembicara) dan Text-to-Speech API juga resmi dirilis bersamaan
Dengan skor 53 pada Artificial Analysis Intelligence Index, melampaui Muse Spark dan Claude Sonnet 4.6, serta berada di Pareto frontier untuk kecerdasan per biaya
Rate limit per menit 1.800 permintaan / 10 juta token, dengan biaya terpisah untuk penggunaan di atas 200K
Nama modelnya adalah grok-4.3, dan region yang didukung ada dua: us-east-1 dan eu-west-1

1 komentar

GN⁺ 2026-05-02

Komentar Hacker News

Sebagai penutur bahasa Inggris sebagai bahasa kedua, menurut saya Grok sangat unggul dalam menangkap nada dan tingkat formalitas tulisan lalu mereproduksinya apa adanya
Rasanya ia lebih memahami nuansa manusiawi yang halus dalam bahasa dibanding penyedia besar lain; ChatGPT sering jadi terlalu kaku dan formal, atau malah jatuh ke gaya informal aneh ala “aye guvnor”. Claude kadang lebih baik, tapi tidak selalu
Secara umum Grok terasa lebih “manusiawi” dengan cara yang sulit dijelaskan. Misalnya kalau ditanya, “apakah pesan ini sudah tersampaikan kira-kira sebaik mungkin untuk panjang segini?”, ia menjawab seperti manusia dengan ya/tidak atau usulan revisi sambil menjaga nada dan panjangnya, sedangkan ChatGPT masih cenderung menulis esai panjang yang tidak jelas
Belakangan saya juga merasa dikte suara Grok cukup bagus. Pada fitur tanya dengan menekan mikrofon, ChatGPT menurut aksen saya akurat sekitar 90~95%, input suara Android Gboard sekitar 75%, sementara Grok mengejutkan karena bisa mencapai sekitar 98%
- Saya sempat menilai cepat Grok 4.3, Opus 4.7, dan GPT 4.1, dan kenyataannya mereka tampak cukup mirip: https://ofw640g9re.evvl.io/
  Ketiganya bagus untuk nada yang lebih formal, tetapi untuk nada kasual, satu-satunya yang tidak terasa cringe adalah GPT-4.1
  Sebagai catatan, Grok paling cepat dan paling murah, sedangkan Claude paling lambat dan paling mahal
- Saat berbicara dengan Grok dalam bahasa ibu saya pun terasa nadanya lebih alami dibanding model lain
  Saya rasa ini karena keunggulan dari banyak dilatih dengan data Twitter. Tapi karena konten buatan AI di Twitter makin banyak, saya khawatir kalau terus dilatih begitu, kealamiannya bisa menurun
- Saya hanya memakai Grok lewat persona “Gork” milik Tesla, dan jawabannya cukup membumi, sering benar-benar lucu, dan kadang juga berguna
- Kalau “bahasa Inggris adalah bahasa kedua”, saya penasaran bagaimana Anda tahu bahwa itu benar-benar lebih baik
  Bukan meremehkan, tapi ini kelihatannya lebih seperti perasaan
- Teman saya memakainya untuk persiapan D&D, dan katanya itu sangat bagus untuk penggunaan tersebut karena kemampuannya menyesuaikan suasana dan gaya yang diinginkan
  Untuk hal lain dia lebih memilih ChatGPT
Grok adalah model favorit saya untuk chat, dan saya juga paling suka mode suara-nya
Ini tampaknya satu-satunya mode suara yang tidak diarahkan ke model super murah seperti Haiku, dan kualitasnya paling tinggi di kelas frontier
Kalau berlangganan SuperGrok, kita bisa membuat “council” berisi agen-agen dengan system prompt masing-masing; saat ditanya, semuanya akan ditanya secara paralel lalu menyimpulkan hasilnya
Tapi saya berharap mereka lebih berinvestasi di aplikasi. Satu-satunya alasan yang benar-benar menghalangi saya berlangganan SuperGrok adalah aplikasinya
Tidak ada dukungan MCP/aplikasi terhubung, dan meski sudah diumumkan, sampai sekarang masih belum bisa dipakai. Karena Grok tidak bisa dihubungkan ke apa pun, sulit memakainya untuk pekerjaan serius
Project juga masih belum didukung di aplikasi, jadi begitu sesuatu dipindahkan ke project, semuanya hilang dari semua aplikasi native
Tidak ada cara menambahkan artefak seperti dokumen Markdown yang dihasilkan langsung ke project, jadi harus diekspor dulu sebagai PDF/Markdown lalu diimpor lagi. Bahkan ekspor artefak pun tidak ada. Sulit mengembangkan project secara dinamis dengan informasi baru, jadi merepotkan untuk kerja project yang serius
Juga tidak ada memori dan kita tidak bisa menelusuri chat lain, jadi setiap chat benar-benar dimulai dari nol
Di dalam project juga sama sekali tidak ada mode suara
Kalau ada orang xAI yang membaca ini, akan bagus kalau setidaknya beberapa hal ini ditambahkan
- Ketiadaan fitur memori justru mulai saya sukai
  Claude ingat saya punya grill, jadi bahkan di percakapan yang sama sekali tidak terkait atau cuma soal makanan, ia suka menyelipkan bahwa ini mungkin cocok untuk BBQ
- Mode suara di aplikasi Gemini memakai model yang relatif baru, bukan model kecil yang dilemahkan, jadi cukup mumpuni
  Personanya juga oke dan jauh lebih alami daripada chat web Gemini. Satu-satunya keluhan saya adalah ia terus mencoba menyarankan “langkah berikutnya”, tapi sepertinya semua model begini
  Saya tidak tahu apakah “langkah berikutnya” ini untuk menaikkan biaya, atau mereka memang belum belajar pola percakapan alami untuk membedakan pertanyaan yang cukup dijawab singkat lalu selesai dari percakapan eksploratif yang panjang. Tetap saja, kalau diminta jangan memberi arahan seperti itu, seharusnya mereka menurut
- Saya rasa Grok akan sangat diuntungkan kalau paket $300 per bulan bernama “SuperGrok Heavy” bisa dipakai sebagai usage yang sudah termasuk di coding harness
  Sekarang mereka memang memberi sedikit kredit API di paket Heavy sehingga Grok bisa dipakai sampai tingkat tertentu untuk coding, tapi rasanya belum pantas disebut bernilai 300 dolar
  Maksud saya bukan harus membuat harness grok-code sendiri, cukup biarkan bisa dipakai di alat yang sudah ada, itu saja sudah berguna. Mungkin akuisisi Cursor nantinya akan mengarah ke sana
- Menurut saya semua masalah yang disebutkan tadi adalah alasan di balik transaksi Cursor
- Saya kurang paham apakah kalau berlangganan SuperGrok itu bisa dipakai di Pi agent atau Opencode
  Tidak jelas apakah struktur SuperGrok memang memberi API key
Dalam pengujian kami, Grok 4.3 adalah model yang unik
Ini salah satu model tercepat, dan dibanding model lain dengan performa serupa, responsnya jauh lebih ringkas dengan kepadatan token lebih tinggi
Namun kemampuan penalaran coding secara keseluruhan tidak kompetitif dengan model rilis besar pada April, dan baik Grok 4.20 maupun Grok 4.3 tidak benar-benar mendorong jauh garis depan kecerdasan sejak Grok 4
Grok 4.3 lebih baik untuk tugas agenik, dan cukup adil kalau dibilang kemampuannya kira-kira setara GPT 5.1 / Gemini 3 Pro Preview, tetapi jauh lebih cepat dan murah. Jadi sebagai rilis, ini jelas cukup bagus dengan caranya sendiri
Di antara model bobot terbuka yang dirilis belakangan, ada banyak yang lebih pintar tetapi lebih lambat
Benchmark lengkap ada di https://gertlabs.com/rankings
- Saya penasaran apakah ada trade-off tertentu yang dilakukan agar model tampak bekerja baik untuk informasi setelah knowledge cutoff
  Itu tampaknya penggunaan utama Grok, dan saya juga penasaran apakah ada benchmark terkait hal itu
Belakangan Grok menjadi mesin pencari saya
Rasanya ini satu-satunya AI yang bisa mengakses postingan X, dan di luar itu pun secara umum terasa lebih “mencari” dibanding model bahasa besar lain
- Untuk mencari berita soal kejadian yang sedang berkembang, saya paling sering memakai Grok dan Gemini
  Saat ada kejadian terkait Iran, saya ingin memahami situasinya segera setelah mulai diberitakan, dan keduanya cukup bagus
- Saya justru penasaran kenapa dari awal orang ingin mencari di Twitter
Kalau melihat peta saat ini, Claude itu untuk perusahaan dan pemerintah, Codex untuk developer, lalu Grok ini untuk apa saya tidak tahu
Di sekitar saya, yang terdengar terkait Grok cuma roleplay dan rasisme
- Menariknya, saya tahu satu contoh organisasi amal yang menangani perdagangan manusia memakai Grok
  Tugas klasifikasi sekali jalan yang ditolak semua model lain, justru rela dilakukan oleh Grok
  Saya rasa ternyata ada cukup banyak use case abu-abu yang benar-benar berguna untuk model semi-frontier yang guardrail-nya sedikit lebih longgar seperti ini. Model grok-fast juga murah
- Sejauh yang saya tahu, Grok justru tidak banyak dipakai untuk roleplay
  Ia dianggap tidak konsisten dan agak kacau
  Orang biasanya memakai GLM dan DeepSeek lewat API, dan secara lokal memakai model fine-tune Gemma4 dan Mistral
  Pasar roleplay sudah relatif lama dan matang, jadi para pengguna tampaknya sadar biaya dan ingin model mengikuti alur kerja serta preferensi mereka. Karena itu, model seperti Opus disukai karena pintar, tetapi dianggap terlalu mahal dan terlalu keras kepala
  Ini mungkin data point menarik untuk melihat bagaimana pasar lain akan berkembang ke depan
- Kalau perlu bertanya soal apa yang sedang dibicarakan orang di Twitter, Grok jelas sangat bagus
  Saya selalu memakainya untuk pertanyaan seperti, “window manager tiling apa yang sekarang dibilang paling keren oleh anak-anak hip di Twitter?”
  Dan untuk pertanyaan yang agak mencurigakan pun Grok biasanya tetap menjawab. Misalnya, “carikan situs lisensi Windows gray market”
- Saya paham bahwa menampilkan lewat tulisan dan ucapan bahwa kita selaras dengan nilai-nilai zaman itu dianggap sangat penting, tetapi saya tidak merasa tujuan laboratorium AI seharusnya adalah membuat model bahasa yang secara struktural tidak mungkin menyinggung ras/suku/kasta tertentu
  Model bahasa hanyalah sistem, dan saya juga kurang paham kenapa pengguna tidak dianggap bertanggung jawab atas bagaimana mereka memakai output-nya. Sama seperti kita tidak menganggap pena sebagai alat “rasisme” yang tidak berguna hanya karena seseorang bisa menulis hal buruk di sekat toilet
  Mungkin Anda tinggal di tempat di mana pelecehan adalah tindak pidana, dan mungkin juga ada aturan terkait ujaran. Bukankah itu sudah cukup? Saya ragu semua upaya semua orang di bumi harus diselaraskan dengan tren etika yang berubah tiap beberapa tahun
- Sekitar 2~3 bulan lalu ada diskusi meja bundar AI di halaman depan HN, dan seseorang melakukan analisis outlier lalu mengunggahnya ke GitHub
  Tinggal tebak model bahasa besar mana yang paling menjadi outlier, dan untuk jenis pertanyaan apa ia berbeda pendapat dari semua model lain
Saya sungguh penasaran apakah orang benar-benar memakai Grok untuk hal lain selain memahami meme Twitter atau tweet
- Ya, untuk beberapa tugas memang sangat berguna
  Ia tidak seprotektif model-model lain. Saya sering mencari materi berhak cipta yang yatim dan sudah puluhan tahun tidak lagi dicetak, dan model-model utama menolak sambil menguliahi saya karena mencoba mencari materi berhak cipta. Grok melakukannya [0]
  [0] Kadang saya harus melakukan jailbreak ringan atau menjalankan ulang prompt. Karena sifatnya non-deterministik, terkadang tetap menolak
- Tentu. Pengguna memakainya untuk macam-macam: https://arstechnica.com/tech-policy/2026/03/elon-musks-xai-s...
- Grok punya mode suara yang paling berguna
  Mode suara ChatGPT sangat bodoh, sedangkan Grok tampaknya memakai model yang sama dengan chat utama. Jadi kalau ingin dipakai dengan suara, saya pakai Grok
  Saya juga memakainya untuk topik yang tidak rumit. Ia memberi jawaban singkat, tepat, dan tanpa basa-basi, jadi terasa sangat menyegarkan
- Saya penasaran seberapa banyak dari itu yang berasal dari data pelatihan Twitter
  Berguna untuk meme dan tren, tapi untuk hal lain sangat buruk
- Saya paling sering memakai Grok untuk pencarian, DIY, keuangan pribadi, dan AI harian secara umum
  Kalau nanti untuk coding sudah sebagus Kimi K2.6, mungkin saya hanya akan memakai Grok. Sejauh ini ini benar-benar AI percakapan terbaik yang pernah saya coba
  Ini membantu saya memperbaiki kulkas rusak dan oven listrik rusak, dan tahun ini saja sudah menghemat setidaknya 4.000 dolar
  Saya juga mengurus pelaporan pajak dengan Grok dan hemat 600 dolar. H&R Block selesai sudah
  Ternyata sekarang ia sudah sepintar Kimi K2.6. Saatnya saya mengujinya lagi
Saya heran tidak ada yang membicarakan betapa murahnya ini dibanding Opus 4.x dan GPT-5.5
Harganya 1,25 dolar per 1 juta token input dan 2,50 dolar per 1 juta token output
Saya tidak tahu apakah ini karena modelnya lebih kecil dan kurang kuat, atau ada hal lain yang saya lewatkan
- Harga per token memang lebih murah, tapi sepertinya model ini melakukan penalaran jauh lebih banyak, jadi biayanya akhirnya mirip 4.20 sementara performanya lebih baik
  Secara keseluruhan ini model terbaik mereka sejauh ini, dan saya suka bahwa mereka termasuk sedikit pihak yang justru menurunkan harga token
  [0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
- Biaya output memang diturunkan, tetapi biaya input relatif tinggi
  Ini tren belakangan, dan saya juga melihatnya di DeepSeek 4 Pro
- Di tempat kerja saya, ada penolakan moral yang kuat di antara rekan-rekan terhadap apa pun yang berkaitan dengan Elon Musk dan data pelatihan
  Kalau lihat komentarnya, di sini juga begitu. Reaksi seperti, “Claude untuk perusahaan dan pemerintah, Codex untuk developer, lalu Grok untuk apa, roleplay dan rasisme? Di sekitar saya, cuma dua itu yang pernah saya dengar terkait Grok.”
- Ya, karena ini memang model yang jauh kurang kuat
- Grok terhubung dengan Elon Musk
  Kalau memakai margin laba $TSLA sebagai indikator proksi, tampaknya tidak setinggi dulu. Mungkin ada faktor lain juga, tetapi bisa jadi ada penjelasan yang hilang antara hal itu dan harga Grok yang rendah
Grok 4.3 sudah selesai sebelum CEO-nya sempat belajar tentang dokumen keamanan yang umum
Ketika ditanya apakah ia tahu “safety card” milik OpenAI, Musk tertawa dan menjawab, “Safety card? Kenapa harus card?”
https://www.axios.com/2026/04/30/musk-openai-safety-grok
Terlepas dari ukuran klaster atau penggunaan generator sementara untuk beberapa waktu, ini tampaknya tidak terlalu relevan
Dalam kesaksian berikutnya, ketika ditanya soal klaimnya musim panas lalu bahwa xAI akan segera jauh melampaui semua perusahaan selain Google, Musk justru menyebut penyedia AI terdepan dunia berurutan sebagai Anthropic, OpenAI, Google, lalu model open-source China, dan menjelaskan bahwa xAI adalah perusahaan yang jauh lebih kecil dengan hanya beberapa ratus karyawan
https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
Saya tidak terkait dengan perusahaan AI mana pun, tetapi saya membaca ini kemarin dan terkejut. Mengkhawatirkan bagaimana Elon bisa tidak tahu soal model card, dan ini juga menunjukkan bahwa uang tidak selalu bisa membeli kesuksesan
- Kalau serius, saya memang bertanya-tanya kenapa disebut model “card”, safety “card”
  Setelah saya cari, istilah itu berasal dari HuggingFace yang mendefinisikan README repositori model secara agak ambigu. Ini istilah yang terlalu khusus, jadi saya rasa hanya kelompok kecil sekali yang tahu, bukan cuma pengguna atau eksekutif
  Saya tidak suka Musk ataupun Grok, tetapi saya tidak menganggap tidak tahu apa itu safety card sebagai sebuah sinyal apa pun
- Elon selama ini memang secara terbuka mengatakan bahwa ia sangat peduli pada keselamatan
  Ia bilang hanya model yang paling selaras dengan kebenaran di dunia nyata yang aman, dan xAI tetap berada di jalur itu karena dalam benchmark mereka memiliki halusinasi paling sedikit atau hampir paling sedikit
  Kalau membaca lagi ucapannya, maksudnya adalah, “bagaimana mungkin keamanan bisa dikuantifikasi dengan sebuah kartu?”
Grok sangat bagus untuk menjaga percakapan hipotetis tetap menyenangkan
Untuk hasil paling lucu, bagus kalau sejak awal dibilang bahwa “izin sudah diberikan”
Ia juga sangat bagus membuat lirik rap. Kalau “dipriming” dulu seperti kamus kata-kata dan ungkapan kasar yang bisa dipakai dengan mengambil lirik lagu lain, lalu diberi topik seperti “web development”, hasilnya lucu
Namanya sih masih terasa seandainya dipilih yang lain, tapi ini tampaknya rilis yang lumayan bagus, jadi selamat untuk timnya
Dibanding model pesaing yang serupa, harganya juga cukup mengejutkan. Mungkin mereka punya kapasitas sangat besar atau ingin menarik lebih banyak pengguna
- Saya penasaran apakah Anda memang tidak suka semua referensi fiksi ilmiah, atau hanya sangat tidak suka Heinlein khususnya

xAI Merilis Grok 4.3

Bacaan terkait

1 komentar

Komentar Hacker News