7 poin oleh GN⁺ 2025-08-30 | 1 komentar | Bagikan ke WhatsApp
  • grok-code-fast-1 yang dirilis xAI adalah model coding AI supercepat untuk developer, dengan respons sangat cepat dan fitur yang ramah IDE
  • Model ini dipra-latih dengan fokus pada dataset pemrograman dan dirancang agar mahir menggunakan alat seperti grep, terminal, dan pengeditan file melalui evaluasi pengguna nyata
  • Performanya mencatat kecepatan generasi 190 token per detik dan skor 70,8% di SWE-Bench-Verified, serta unggul dalam banyak bahasa seperti TypeScript, Python, Java, Rust, C++, Go
  • Harganya ditetapkan $0,20 per 1 juta token input, $1,50 untuk output, dan $0,02 untuk input cache, dan di beberapa platform mitra (GitHub Copilot, Cursor, dll.) tersedia gratis untuk sementara
  • Varian model yang mendukung input multimodal, pemanggilan alat paralel, dan konteks yang diperluas juga akan segera dirilis

Gambaran umum

  • grok-code-fast-1 dari xAI adalah model coding AI supercepat yang dikembangkan untuk mengatasi masalah penurunan kecepatan di lingkungan pengembangan nyata, tempat pemikiran iteratif dan penggunaan alat sering terjadi
  • Berdasarkan masukan dari engineer praktisi, model ini dibangun ulang dari nol dengan arsitektur yang cepat, lincah, dan cocok untuk pekerjaan nyata
  • Tim engineering inferensi dan komputasi memperkenalkan berbagai metode inovatif pada teknologi layanan (serving) yang sangat cepat
    • Pengguna dapat merasakan pengalaman di mana beberapa pemanggilan alat sudah terjadi bahkan sebelum sempat membaca alur pikirannya
  • Dengan optimasi prompt caching, model ini mencapai rasio cache hit lebih dari 90% di lingkungan mitra

Desain dan dataset

  • Lingkungan pelatihan dibangun berdasarkan data pretraining berskala besar yang berfokus pada pemrograman
  • Post-training berkualitas tinggi dilakukan menggunakan data pull request dan penulisan kode nyata
  • Dengan bekerja erat bersama berbagai mitra peluncuran, perilaku model dalam platform agentic terus ditingkatkan

Fitur utama dan lingkungan yang didukung

  • grok-code-fast-1 mampu menggunakan alat pengembangan umum seperti grep, terminal, dan pengeditan file dengan andal
  • Pengguna dapat langsung memakainya di lingkungan pengembangan utama seperti IDE

Performa pemrograman

  • Mendukung seluruh stack pengembangan perangkat lunak
  • Menunjukkan kegunaan yang sangat baik pada TypeScript, Python, Java, Rust, C++, Go dan lainnya
  • Bahkan dengan pengawasan minimal, model ini dapat menangani berbagai tugas pemrograman dengan cepat dan akurat, seperti membuat proyek dari nol, tanya jawab pada codebase, dan perbaikan bug presisi
  • Grok Code Fast 1 menawarkan responsivitas tercepat di antara model yang ada saat ini
  • Jika digunakan dengan membagi pekerjaan ke unit-unit kecil, model ini sangat menguntungkan untuk membangun alur kerja yang iteratif dan cepat
  • Sebagai contoh nyata, sebuah prototipe Battle Simulator diselesaikan hanya dalam satu hari di lingkungan Cursor
  • Merencanakan fitur besar, memecahnya menjadi beberapa tahap, lalu mengeksekusinya secara iteratif adalah pendekatan yang efisien

Kebijakan harga

  • $0,20 per 1 juta token input
  • $1,50 per 1 juta token output
  • $0,02 per 1 juta token input yang di-cache
  • Dengan performa tinggi dan harga yang ekonomis, model ini dapat menangani tugas pemrograman harian dengan cepat dan efisien

Kinerja model dan evaluasi

  • Kecepatan pemrosesan token (Tokens Per Second, TPS): 190, termasuk yang terbaik di industri
  • Dibandingkan dengan model lain (Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4), model ini menunjukkan daya saing kuat baik dalam harga maupun kecepatan pemrosesan
  • Menggabungkan berbagai benchmark publik dan pengujian nyata oleh developer
    • Mencapai 70,8% pada subset SWE-Bench-Verified
  • Dengan menggabungkan evaluasi manusia berkala bersama engineer praktisi dan pengujian otomatis, model ini memaksimalkan kegunaan praktis dan tingkat kepuasan

Rencana ke depan dan panduan penggunaan

  • Tersedia melalui API resmi dan mitra utama, serta uji coba gratis juga tersedia untuk sementara
    • GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf, dll.
  • Menjanjikan pembaruan berkelanjutan dan siklus perbaikan yang cepat
  • Varian baru yang mencakup fitur seperti input multimodal, pemanggilan alat paralel, dan dukungan konteks yang diperluas sedang dilatih
  • Panduan prompt engineering juga disediakan terpisah
  • Pendapat dapat dibagikan melalui model card dan kanal umpan balik (Discord, dll.)

1 komentar

 
GN⁺ 2025-08-30
Opini Hacker News
  • Saya mencobanya kemarin dengan Cline; cepat, cocok untuk alur agentic, dan kualitas kodenya juga lumayan bagus. Saya tidak paham kenapa thread ini begitu negatif (saya bahkan kena flag saat sedang mengetik). Menurut saya model ini cukup bagus, terasa setara atau di atas gpt5-mini. Selama beberapa hari saya memakai gpt5-mini sebagai model utama; harganya masih masuk anggaran dan cukup andal menyelesaikan pekerjaan.

    • Hal yang saya perhatikan:

      • Cepat (pengujian berdasarkan zona waktu EU)
      • Menangani pendekatan agentic dengan menarik; alih-alih mengedit seluruh file sekaligus, ia memperbaikinya sedikit demi sedikit dalam beberapa kali putaran
      • Untuk fitur terkait parsing HTML (bs4), saya memakai sekitar 110 ribu token dan tetap bisa menyelesaikan tugas tanpa masalah; tidak ada kendala dalam situasi konteks tinggi
      • Jika percobaan pertama gagal, ia membuat file baru terpisah untuk mock/test, lalu setelah berhasil baru mengubah file modul utama. GPT5-mini kadang bingung saat mengedit file di tengah pekerjaan dan akhirnya gagal
    • Secara keseluruhan cukup bagus; dengan harga segini layak dipakai sebagai daily driver. Bisa dibayangkan juga menempatkan Opus+gpt5 high sebagai planner dan model ini sebagai implementer. Karena cepat, pengaturan gaya pass@x secara paralel juga tampak menarik.

    • Bagus kalau ada banyak pilihan di setiap lapisan. Berbagai vendor perlu saling bersaing supaya tetap waspada dan harga turun. gpt5-mini di 2$/MTok dan model ini sekitar 1.5$/MTok, jadi rasanya hampir seperti “gratis”. Saya tidak mengerti suasana negatif ini.

    • Qwen3-Coder-480B (di-host di Cerebras) biayanya 2$/Mtok lewat OpenRouter, termasuk input/output

      • Di OpenRouter, Cerebras mengklaim bisa memberi lebih dari 2000 token per detik, yang berarti 10 kali lebih cepat
      • Hasil benchmark independen tampaknya menunjukkan model Qwen3-Coder-480B lebih baik
    • Apakah performa dianggap bagus kalau baru memakai sekitar setengah dari context length? Untuk qwen3-coder, rasanya mulai bingung di 65k/256k, dan harganya 50% lebih mahal dibanding grok

    • Ulasannya enak dibaca; saya penasaran bagaimana perbandingannya dengan claude code

    • Saya juga berpikir mirip; belakangan ini saya memakai model ini dan menurut saya cukup bagus, juga sangat cepat

      • Komentar HN tampaknya negatif terhadap Elon Musk dan menunjukkan reaksi yang bias terhadap LLM, jadi rasanya model ini tidak dinilai dengan semestinya
  • Yang menarik adalah benchmark yang ditekankan model ini adalah kecepatan output token, bahkan sampai diberi nama “fast”

    • Biasanya software engineer akan menganggap kualitas token lebih penting daripada kecepatan

    • Yang penting adalah seberapa cepat

      • Kalau hasil LLM memang kadang tetap salah, mungkin lebih bernilai untuk cepat mencoba prompt berkali-kali dan memperbaikinya secara iteratif
      • Dalam kasus ekstrem, kalau seluruh proyek bisa diproses dalam hitungan milidetik, nilainya akan jauh lebih tinggi meskipun tingkat keberhasilannya sama
      • Kecepatan seperti ini bisa mengubah pengalaman pengguna sekaligus cara alat itu sendiri digunakan
      • Bahkan bisa langsung menerima 3 usulan berbeda saat itu juga
      • Secara pribadi saya tidak ingin terikat dengan X, jadi saya sendiri tidak berniat memakai Grok; ini hanya preferensi pribadi
    • Ini bukan metrik terburuk yang pernah dibuat xAI

    • Saya pernah mencoba API gratis Cerebras (menyediakan Qwen Coder 480b dan gpt-oss-120b, bukan afiliasi), dan memang sangat cepat, sekitar 3000 token per detik

      • Karena itu saya selalu memeriksa kecepatan model
      • Tapi cloud Cerebras punya batas 70 juta token per hari, dan ada masukan bahwa batas ini cepat habis, jadi cukup membatasi untuk pengembangan harian
    • Tergantung kegunaannya

      • Untuk autocomplete fungsi sederhana (pemrosesan string, definisi fungsi, dan sebagainya), kecepatan jadi lebih penting
      • Untuk coding yang sifatnya masih eksplorasi atau sedang mempertimbangkan arah, kualitas lebih penting; tetapi kalau saya sudah tahu persis apa yang saya lakukan, model yang kurang pintar tapi cepat justru lebih membantu alur kerja
      • Model lambat menuntut kita menelaah kode dengan cermat seperti meninjau PR, jadi alur kerjanya sendiri sangat berbeda
    • Kecepatan itu sangat penting

      • Tentu kalau kualitasnya terlalu buruk jadi tidak ada gunanya, tetapi jika ada model yang sebaik Claude Sonnet 4 dan sekaligus cepat, itu bisa mengubah permainan untuk coding agentic
      • Saat ini kita harus mengirim prompt lalu menunggu 30 detik sampai beberapa menit, jadi secara praktis sulit untuk bereksperimen
      • Kalau bisa selesai hanya dalam beberapa detik, pekerjaan eksperimental dan iteratif akan jauh lebih mungkin dilakukan
      • Ini terutama berguna untuk hal seperti kode frontend yang perlu berulang kali mengubah UI
  • Saya penasaran, di HN orang-orang memakai apa sebagai asisten coding AI, misalnya rekomendasi plugin VSCode dan tips penggunaan nyata

  • Saya penasaran apakah versi “coding” yang sempat muncul saat Grok-4 banyak dinilai buruk untuk performa kode itu adalah model ini

    • Kalau lemah di benchmark, rasanya lebih mudah menggembar-gemborkan metrik yang lebih mudah dipoles, yaitu kecepatan

    • Setelah saya cari, yang muncul cuma postingan dari akun spam yang jelas di Reddit yang memuji model tersebut

    • tautan akun tersebut

    • Rasanya seperti berbasis Grok 3; Grok 3 memang sangat cepat dan dioptimalkan untuk pemrograman

  • Untuk keseluruhan “SWE-Bench-Verified”, grok-code-fast-1 katanya mencetak 70.8% pada benchmark internal mereka, dan saya ingin melihat tool benchmark itu sendiri

    • Dalam laporan pihak ketiga, angkanya sekitar 57.6%

    • tautan terkait

      • Mungkin ini nitpick, tapi saya kaget karena begitu membuka situsnya, format tanggalnya berantakan (urutan hari/bulan/tahun campur aduk)

      • Bukan cuma membingungkan, penyortirannya juga jadi tidak benar

      • Saat saya mengurutkan kolom tanggal, hasilnya sama sekali tidak masuk akal (mengurutkan berdasarkan item di tengah)

      • Kalau hal dasar seperti ini saja tidak diperhatikan, saya jadi curiga kodenya juga bisa ceroboh

      • [beberapa negara memang masih memakai format seperti ini, tetapi mayoritas sudah beralih ke standar]

      • Meski begitu, kalau dibandingkan dengan model lain, hasilnya sendiri memang terlihat bagus

  • Dengan versi dasar Grok 4 pun saya pernah melihat hasil yang cukup bagus

    • Masalahnya, penjelasannya minim dan cenderung hanya mengganti kode begitu saja, tetapi hasil akhirnya tidak buruk
    • Secara pribadi, dibanding versi yang lebih cepat, saya ingin sedikit lebih banyak umpan balik dan penjelasan tentang usulan perubahan
    • Belakangan ini saya merasa GPT-5 lebih berguna daripada Sonnet 4
      • Saat ditanya tentang berbagai pilihan arsitektur, ia memberi jawaban yang sangat baik dan memandu proses pemecahan masalah secara bertahap, dan saya suka itu

      • Dibanding pendekatan “one-shot” yang menulis ulang semua kode sekaligus, saya lebih suka proses yang mengikuti arah yang benar-benar saya inginkan

      • Menurut saya Opus 4.1 atau seri Sonnet tidak terlalu akurat jika dinilai berdasarkan pemecahan masalah one-shot; ukuran yang penting adalah seberapa baik ia benar-benar berperan sebagai asisten

      • gpt-5 juga kadang ngotot ke arah yang tidak saya inginkan, dan meskipun diajak berdiskusi, ia terus mengulang perilaku yang sama

        • Dalam hal itu, ada juga orang yang lebih suka respons model seperti Claude yang bernada “ya, benar”
        • Tergantung tingkat pengalaman pengembang, hal yang diinginkan dari model bisa berbeda, tetapi bagi saya yang penting keputusan akhir tetap di tangan saya
      • Sonnet 4 mungkin kalah dari GPT-5 untuk desain arsitektur atau analisis mendalam, tetapi kalau rencana detailnya sudah ada dan tinggal menggulirkan banyak kode, Sonnet 4 lebih baik

  • Setelah menguji Grok selama beberapa hari, justru terasa seperti kemunduran

    • Sudah lama saya tidak mengalami model yang menghapus sebagian kode saya secara acak

    • Model coding papan atas belakangan ini terasa cukup bisa dipercaya, tetapi Grok rasanya belum sampai tahap itu

    • Secepat atau segatis apa pun, kalau saya tidak bisa mempercayakan kode saya padanya, saya tidak bisa memakainya sebagai alat

      • Saya mencoba Grok Code Fast 1 gratis di Kilo Code, dan hasilnya sangat buruk

        • Kurang andal dibanding GPT 5 Mini, dan ironisnya juga lebih lambat
      • Full Self Coding?

      • Saya penasaran Anda memakai platform/bahasa apa

        • Review tanpa detail seperti ini membingungkan karena hasilnya sangat bertolak belakang
        • Perbedaannya besar menurut bahasa; untuk pengembangan web TS, hasilnya selalu lebih baik
      • Apakah menghapus sebagian kode benar-benar masalah? Bukankah ada version control?

  • Ia melakukan hal-hal aneh yang tidak masuk akal dengan sangat cepat, dan itu bukan hal baik

    • Mungkin cocok untuk tugas sederhana dan spesifik seperti endpoint CRUD, file i8n, dan semacamnya, tetapi selain itu saya ragu

      • Saya memang memakai model ini tepat untuk pekerjaan seperti itu

        • Cocok sekali sebagai model untuk menangani “pekerjaan remeh yang sederhana dan merepotkan”
        • Tidak semua hal butuh model yang pintar; saya memakainya untuk pekerjaan yang tidak ingin dikerjakan siapa pun agar banyak yang selesai dengan cepat
        • Tapi kalau tidak dijelaskan lebih spesifik, hasilnya bisa melenceng jauh
        • Namun kalau diberi contoh yang jelas, ia cukup baik mengerjakan persis apa yang diminta
      • Saya pernah memintanya memperbaiki Justfile, lalu hasilnya benar-benar kacau, merusak semuanya, dan masuk infinite loop

        • Saya memakainya di Kilo Code; dari pengalaman saya, hasil tiap orang bisa berbeda
  • Bahkan pada masa stealth model ‘sonic’, kecepatannya memang tinggi, tetapi kualitasnya tidak setepat yang dibutuhkan

    • Ia membuat test code dan menjalankannya berulang kali, tetapi tidak benar-benar memverifikasi perilaku yang dimaksud, hanya memeriksa pemanggilan mock

    • Ada keterbatasan karena ia tidak benar-benar memperhatikan pola penggunaan nyata

      • Dalam kasus seperti ini, kelihatannya ia bisa kuat untuk menghasilkan boilerplate
  • Menurut saya itu mengesankan

    • Untuk pertanyaan terkait refactoring, ia memanggil beberapa tool, membaca kode dengan cepat, menganalisisnya secara logis, lalu memberi tahu bahwa ia menemukan 2 bug
    • Tentu saja, keduanya sebenarnya bukan bug
    • Tapi tetap saja “terlihat keren”