5 poin oleh GN⁺ 2026-05-02 | 1 komentar | Bagikan ke WhatsApp
  • Menyediakan fitur API berfokus pada pengembang seperti jendela konteks 1 juta token, penalaran, pemanggilan fungsi, dan output terstruktur
  • Berbeda dari Grok 4.20 sebelumnya, penalaran selalu aktif, secara otomatis menjalankan proses berpikir sebelum merespons semua kueri
  • Harga token input turun sekitar 40%, dan harga token output turun sekitar 60%, sehingga biaya jauh lebih hemat dibanding model sebelumnya
    • Harga: input $1.25/1M token, input cache $0.20/1M, output $2.50/1M
    • Termasuk yang paling murah di antara model dengan tingkat kecerdasan serupa
  • Kinerja tugas agentic meningkat drastis — mencatat ELO 1500 pada benchmark GDPval-AA, naik 321 poin dibanding Grok 4.20 dan melampaui Gemini 3.1 Pro Preview, Muse Spark, GPT-5.4 mini, dan lainnya
  • Untuk pertama kalinya pada model xAI API, mendukung input video native, dengan pemrosesan langsung frame video melalui vision encoder
  • Mencatat peringkat 1 di bidang penalaran hukum (akurasi CaseLaw v2 79.3%) dan peringkat 1 di bidang keuangan korporat (CorpFin), dengan lonjakan 25 poin dalam penalaran hukum dibanding Grok 4.20
  • Di dalam antarmuka chat, kini bisa langsung membuat slide presentasi, serta menghasilkan file PDF, Excel, dan PowerPoint secara real-time selama percakapan untuk diunduh
  • Menyediakan lingkungan eksekusi kode bawaan yang menangani penulisan kode, eksekusi, hingga pembuatan file di dalam model
  • Speech-to-Text API (25 bahasa, mendukung pemisahan pembicara) dan Text-to-Speech API juga resmi dirilis bersamaan
  • Dengan skor 53 pada Artificial Analysis Intelligence Index, melampaui Muse Spark dan Claude Sonnet 4.6, serta berada di Pareto frontier untuk kecerdasan per biaya
  • Rate limit per menit 1.800 permintaan / 10 juta token, dengan biaya terpisah untuk penggunaan di atas 200K
  • Nama modelnya adalah grok-4.3, dan region yang didukung ada dua: us-east-1 dan eu-west-1

1 komentar

 
GN⁺ 2026-05-02
Komentar Hacker News
  • Sebagai penutur bahasa Inggris sebagai bahasa kedua, menurut saya Grok sangat unggul dalam menangkap nada dan tingkat formalitas tulisan lalu mereproduksinya apa adanya
    Rasanya ia lebih memahami nuansa manusiawi yang halus dalam bahasa dibanding penyedia besar lain; ChatGPT sering jadi terlalu kaku dan formal, atau malah jatuh ke gaya informal aneh ala “aye guvnor”. Claude kadang lebih baik, tapi tidak selalu
    Secara umum Grok terasa lebih “manusiawi” dengan cara yang sulit dijelaskan. Misalnya kalau ditanya, “apakah pesan ini sudah tersampaikan kira-kira sebaik mungkin untuk panjang segini?”, ia menjawab seperti manusia dengan ya/tidak atau usulan revisi sambil menjaga nada dan panjangnya, sedangkan ChatGPT masih cenderung menulis esai panjang yang tidak jelas
    Belakangan saya juga merasa dikte suara Grok cukup bagus. Pada fitur tanya dengan menekan mikrofon, ChatGPT menurut aksen saya akurat sekitar 90~95%, input suara Android Gboard sekitar 75%, sementara Grok mengejutkan karena bisa mencapai sekitar 98%

    • Saya sempat menilai cepat Grok 4.3, Opus 4.7, dan GPT 4.1, dan kenyataannya mereka tampak cukup mirip: https://ofw640g9re.evvl.io/
      Ketiganya bagus untuk nada yang lebih formal, tetapi untuk nada kasual, satu-satunya yang tidak terasa cringe adalah GPT-4.1
      Sebagai catatan, Grok paling cepat dan paling murah, sedangkan Claude paling lambat dan paling mahal
    • Saat berbicara dengan Grok dalam bahasa ibu saya pun terasa nadanya lebih alami dibanding model lain
      Saya rasa ini karena keunggulan dari banyak dilatih dengan data Twitter. Tapi karena konten buatan AI di Twitter makin banyak, saya khawatir kalau terus dilatih begitu, kealamiannya bisa menurun
    • Saya hanya memakai Grok lewat persona “Gork” milik Tesla, dan jawabannya cukup membumi, sering benar-benar lucu, dan kadang juga berguna
    • Kalau “bahasa Inggris adalah bahasa kedua”, saya penasaran bagaimana Anda tahu bahwa itu benar-benar lebih baik
      Bukan meremehkan, tapi ini kelihatannya lebih seperti perasaan
    • Teman saya memakainya untuk persiapan D&D, dan katanya itu sangat bagus untuk penggunaan tersebut karena kemampuannya menyesuaikan suasana dan gaya yang diinginkan
      Untuk hal lain dia lebih memilih ChatGPT
  • Grok adalah model favorit saya untuk chat, dan saya juga paling suka mode suara-nya
    Ini tampaknya satu-satunya mode suara yang tidak diarahkan ke model super murah seperti Haiku, dan kualitasnya paling tinggi di kelas frontier
    Kalau berlangganan SuperGrok, kita bisa membuat “council” berisi agen-agen dengan system prompt masing-masing; saat ditanya, semuanya akan ditanya secara paralel lalu menyimpulkan hasilnya
    Tapi saya berharap mereka lebih berinvestasi di aplikasi. Satu-satunya alasan yang benar-benar menghalangi saya berlangganan SuperGrok adalah aplikasinya
    Tidak ada dukungan MCP/aplikasi terhubung, dan meski sudah diumumkan, sampai sekarang masih belum bisa dipakai. Karena Grok tidak bisa dihubungkan ke apa pun, sulit memakainya untuk pekerjaan serius
    Project juga masih belum didukung di aplikasi, jadi begitu sesuatu dipindahkan ke project, semuanya hilang dari semua aplikasi native
    Tidak ada cara menambahkan artefak seperti dokumen Markdown yang dihasilkan langsung ke project, jadi harus diekspor dulu sebagai PDF/Markdown lalu diimpor lagi. Bahkan ekspor artefak pun tidak ada. Sulit mengembangkan project secara dinamis dengan informasi baru, jadi merepotkan untuk kerja project yang serius
    Juga tidak ada memori dan kita tidak bisa menelusuri chat lain, jadi setiap chat benar-benar dimulai dari nol
    Di dalam project juga sama sekali tidak ada mode suara
    Kalau ada orang xAI yang membaca ini, akan bagus kalau setidaknya beberapa hal ini ditambahkan

    • Ketiadaan fitur memori justru mulai saya sukai
      Claude ingat saya punya grill, jadi bahkan di percakapan yang sama sekali tidak terkait atau cuma soal makanan, ia suka menyelipkan bahwa ini mungkin cocok untuk BBQ
    • Mode suara di aplikasi Gemini memakai model yang relatif baru, bukan model kecil yang dilemahkan, jadi cukup mumpuni
      Personanya juga oke dan jauh lebih alami daripada chat web Gemini. Satu-satunya keluhan saya adalah ia terus mencoba menyarankan “langkah berikutnya”, tapi sepertinya semua model begini
      Saya tidak tahu apakah “langkah berikutnya” ini untuk menaikkan biaya, atau mereka memang belum belajar pola percakapan alami untuk membedakan pertanyaan yang cukup dijawab singkat lalu selesai dari percakapan eksploratif yang panjang. Tetap saja, kalau diminta jangan memberi arahan seperti itu, seharusnya mereka menurut
    • Saya rasa Grok akan sangat diuntungkan kalau paket $300 per bulan bernama “SuperGrok Heavy” bisa dipakai sebagai usage yang sudah termasuk di coding harness
      Sekarang mereka memang memberi sedikit kredit API di paket Heavy sehingga Grok bisa dipakai sampai tingkat tertentu untuk coding, tapi rasanya belum pantas disebut bernilai 300 dolar
      Maksud saya bukan harus membuat harness grok-code sendiri, cukup biarkan bisa dipakai di alat yang sudah ada, itu saja sudah berguna. Mungkin akuisisi Cursor nantinya akan mengarah ke sana
    • Menurut saya semua masalah yang disebutkan tadi adalah alasan di balik transaksi Cursor
    • Saya kurang paham apakah kalau berlangganan SuperGrok itu bisa dipakai di Pi agent atau Opencode
      Tidak jelas apakah struktur SuperGrok memang memberi API key
  • Dalam pengujian kami, Grok 4.3 adalah model yang unik
    Ini salah satu model tercepat, dan dibanding model lain dengan performa serupa, responsnya jauh lebih ringkas dengan kepadatan token lebih tinggi
    Namun kemampuan penalaran coding secara keseluruhan tidak kompetitif dengan model rilis besar pada April, dan baik Grok 4.20 maupun Grok 4.3 tidak benar-benar mendorong jauh garis depan kecerdasan sejak Grok 4
    Grok 4.3 lebih baik untuk tugas agenik, dan cukup adil kalau dibilang kemampuannya kira-kira setara GPT 5.1 / Gemini 3 Pro Preview, tetapi jauh lebih cepat dan murah. Jadi sebagai rilis, ini jelas cukup bagus dengan caranya sendiri
    Di antara model bobot terbuka yang dirilis belakangan, ada banyak yang lebih pintar tetapi lebih lambat
    Benchmark lengkap ada di https://gertlabs.com/rankings

    • Saya penasaran apakah ada trade-off tertentu yang dilakukan agar model tampak bekerja baik untuk informasi setelah knowledge cutoff
      Itu tampaknya penggunaan utama Grok, dan saya juga penasaran apakah ada benchmark terkait hal itu
  • Belakangan Grok menjadi mesin pencari saya
    Rasanya ini satu-satunya AI yang bisa mengakses postingan X, dan di luar itu pun secara umum terasa lebih “mencari” dibanding model bahasa besar lain

    • Untuk mencari berita soal kejadian yang sedang berkembang, saya paling sering memakai Grok dan Gemini
      Saat ada kejadian terkait Iran, saya ingin memahami situasinya segera setelah mulai diberitakan, dan keduanya cukup bagus
    • Saya justru penasaran kenapa dari awal orang ingin mencari di Twitter
  • Kalau melihat peta saat ini, Claude itu untuk perusahaan dan pemerintah, Codex untuk developer, lalu Grok ini untuk apa saya tidak tahu
    Di sekitar saya, yang terdengar terkait Grok cuma roleplay dan rasisme

    • Menariknya, saya tahu satu contoh organisasi amal yang menangani perdagangan manusia memakai Grok
      Tugas klasifikasi sekali jalan yang ditolak semua model lain, justru rela dilakukan oleh Grok
      Saya rasa ternyata ada cukup banyak use case abu-abu yang benar-benar berguna untuk model semi-frontier yang guardrail-nya sedikit lebih longgar seperti ini. Model grok-fast juga murah
    • Sejauh yang saya tahu, Grok justru tidak banyak dipakai untuk roleplay
      Ia dianggap tidak konsisten dan agak kacau
      Orang biasanya memakai GLM dan DeepSeek lewat API, dan secara lokal memakai model fine-tune Gemma4 dan Mistral
      Pasar roleplay sudah relatif lama dan matang, jadi para pengguna tampaknya sadar biaya dan ingin model mengikuti alur kerja serta preferensi mereka. Karena itu, model seperti Opus disukai karena pintar, tetapi dianggap terlalu mahal dan terlalu keras kepala
      Ini mungkin data point menarik untuk melihat bagaimana pasar lain akan berkembang ke depan
    • Kalau perlu bertanya soal apa yang sedang dibicarakan orang di Twitter, Grok jelas sangat bagus
      Saya selalu memakainya untuk pertanyaan seperti, “window manager tiling apa yang sekarang dibilang paling keren oleh anak-anak hip di Twitter?”
      Dan untuk pertanyaan yang agak mencurigakan pun Grok biasanya tetap menjawab. Misalnya, “carikan situs lisensi Windows gray market”
    • Saya paham bahwa menampilkan lewat tulisan dan ucapan bahwa kita selaras dengan nilai-nilai zaman itu dianggap sangat penting, tetapi saya tidak merasa tujuan laboratorium AI seharusnya adalah membuat model bahasa yang secara struktural tidak mungkin menyinggung ras/suku/kasta tertentu
      Model bahasa hanyalah sistem, dan saya juga kurang paham kenapa pengguna tidak dianggap bertanggung jawab atas bagaimana mereka memakai output-nya. Sama seperti kita tidak menganggap pena sebagai alat “rasisme” yang tidak berguna hanya karena seseorang bisa menulis hal buruk di sekat toilet
      Mungkin Anda tinggal di tempat di mana pelecehan adalah tindak pidana, dan mungkin juga ada aturan terkait ujaran. Bukankah itu sudah cukup? Saya ragu semua upaya semua orang di bumi harus diselaraskan dengan tren etika yang berubah tiap beberapa tahun
    • Sekitar 2~3 bulan lalu ada diskusi meja bundar AI di halaman depan HN, dan seseorang melakukan analisis outlier lalu mengunggahnya ke GitHub
      Tinggal tebak model bahasa besar mana yang paling menjadi outlier, dan untuk jenis pertanyaan apa ia berbeda pendapat dari semua model lain
  • Saya sungguh penasaran apakah orang benar-benar memakai Grok untuk hal lain selain memahami meme Twitter atau tweet

    • Ya, untuk beberapa tugas memang sangat berguna
      Ia tidak seprotektif model-model lain. Saya sering mencari materi berhak cipta yang yatim dan sudah puluhan tahun tidak lagi dicetak, dan model-model utama menolak sambil menguliahi saya karena mencoba mencari materi berhak cipta. Grok melakukannya [0]
      [0] Kadang saya harus melakukan jailbreak ringan atau menjalankan ulang prompt. Karena sifatnya non-deterministik, terkadang tetap menolak
    • Tentu. Pengguna memakainya untuk macam-macam: https://arstechnica.com/tech-policy/2026/03/elon-musks-xai-s...
    • Grok punya mode suara yang paling berguna
      Mode suara ChatGPT sangat bodoh, sedangkan Grok tampaknya memakai model yang sama dengan chat utama. Jadi kalau ingin dipakai dengan suara, saya pakai Grok
      Saya juga memakainya untuk topik yang tidak rumit. Ia memberi jawaban singkat, tepat, dan tanpa basa-basi, jadi terasa sangat menyegarkan
    • Saya penasaran seberapa banyak dari itu yang berasal dari data pelatihan Twitter
      Berguna untuk meme dan tren, tapi untuk hal lain sangat buruk
    • Saya paling sering memakai Grok untuk pencarian, DIY, keuangan pribadi, dan AI harian secara umum
      Kalau nanti untuk coding sudah sebagus Kimi K2.6, mungkin saya hanya akan memakai Grok. Sejauh ini ini benar-benar AI percakapan terbaik yang pernah saya coba
      Ini membantu saya memperbaiki kulkas rusak dan oven listrik rusak, dan tahun ini saja sudah menghemat setidaknya 4.000 dolar
      Saya juga mengurus pelaporan pajak dengan Grok dan hemat 600 dolar. H&R Block selesai sudah
      Ternyata sekarang ia sudah sepintar Kimi K2.6. Saatnya saya mengujinya lagi
  • Saya heran tidak ada yang membicarakan betapa murahnya ini dibanding Opus 4.x dan GPT-5.5
    Harganya 1,25 dolar per 1 juta token input dan 2,50 dolar per 1 juta token output
    Saya tidak tahu apakah ini karena modelnya lebih kecil dan kurang kuat, atau ada hal lain yang saya lewatkan

    • Harga per token memang lebih murah, tapi sepertinya model ini melakukan penalaran jauh lebih banyak, jadi biayanya akhirnya mirip 4.20 sementara performanya lebih baik
      Secara keseluruhan ini model terbaik mereka sejauh ini, dan saya suka bahwa mereka termasuk sedikit pihak yang justru menurunkan harga token
      [0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
    • Biaya output memang diturunkan, tetapi biaya input relatif tinggi
      Ini tren belakangan, dan saya juga melihatnya di DeepSeek 4 Pro
    • Di tempat kerja saya, ada penolakan moral yang kuat di antara rekan-rekan terhadap apa pun yang berkaitan dengan Elon Musk dan data pelatihan
      Kalau lihat komentarnya, di sini juga begitu. Reaksi seperti, “Claude untuk perusahaan dan pemerintah, Codex untuk developer, lalu Grok untuk apa, roleplay dan rasisme? Di sekitar saya, cuma dua itu yang pernah saya dengar terkait Grok.”
    • Ya, karena ini memang model yang jauh kurang kuat
    • Grok terhubung dengan Elon Musk
      Kalau memakai margin laba $TSLA sebagai indikator proksi, tampaknya tidak setinggi dulu. Mungkin ada faktor lain juga, tetapi bisa jadi ada penjelasan yang hilang antara hal itu dan harga Grok yang rendah
  • Grok 4.3 sudah selesai sebelum CEO-nya sempat belajar tentang dokumen keamanan yang umum
    Ketika ditanya apakah ia tahu “safety card” milik OpenAI, Musk tertawa dan menjawab, “Safety card? Kenapa harus card?”
    https://www.axios.com/2026/04/30/musk-openai-safety-grok
    Terlepas dari ukuran klaster atau penggunaan generator sementara untuk beberapa waktu, ini tampaknya tidak terlalu relevan
    Dalam kesaksian berikutnya, ketika ditanya soal klaimnya musim panas lalu bahwa xAI akan segera jauh melampaui semua perusahaan selain Google, Musk justru menyebut penyedia AI terdepan dunia berurutan sebagai Anthropic, OpenAI, Google, lalu model open-source China, dan menjelaskan bahwa xAI adalah perusahaan yang jauh lebih kecil dengan hanya beberapa ratus karyawan
    https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
    Saya tidak terkait dengan perusahaan AI mana pun, tetapi saya membaca ini kemarin dan terkejut. Mengkhawatirkan bagaimana Elon bisa tidak tahu soal model card, dan ini juga menunjukkan bahwa uang tidak selalu bisa membeli kesuksesan

    • Kalau serius, saya memang bertanya-tanya kenapa disebut model “card”, safety “card”
      Setelah saya cari, istilah itu berasal dari HuggingFace yang mendefinisikan README repositori model secara agak ambigu. Ini istilah yang terlalu khusus, jadi saya rasa hanya kelompok kecil sekali yang tahu, bukan cuma pengguna atau eksekutif
      Saya tidak suka Musk ataupun Grok, tetapi saya tidak menganggap tidak tahu apa itu safety card sebagai sebuah sinyal apa pun
    • Elon selama ini memang secara terbuka mengatakan bahwa ia sangat peduli pada keselamatan
      Ia bilang hanya model yang paling selaras dengan kebenaran di dunia nyata yang aman, dan xAI tetap berada di jalur itu karena dalam benchmark mereka memiliki halusinasi paling sedikit atau hampir paling sedikit
      Kalau membaca lagi ucapannya, maksudnya adalah, “bagaimana mungkin keamanan bisa dikuantifikasi dengan sebuah kartu?”
  • Grok sangat bagus untuk menjaga percakapan hipotetis tetap menyenangkan
    Untuk hasil paling lucu, bagus kalau sejak awal dibilang bahwa “izin sudah diberikan”
    Ia juga sangat bagus membuat lirik rap. Kalau “dipriming” dulu seperti kamus kata-kata dan ungkapan kasar yang bisa dipakai dengan mengambil lirik lagu lain, lalu diberi topik seperti “web development”, hasilnya lucu

  • Namanya sih masih terasa seandainya dipilih yang lain, tapi ini tampaknya rilis yang lumayan bagus, jadi selamat untuk timnya
    Dibanding model pesaing yang serupa, harganya juga cukup mengejutkan. Mungkin mereka punya kapasitas sangat besar atau ingin menarik lebih banyak pengguna

    • Saya penasaran apakah Anda memang tidak suka semua referensi fiksi ilmiah, atau hanya sangat tidak suka Heinlein khususnya