Ulasan akses awal Grok 3 oleh Andrej Karpathy

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ Memiliki model penalaran terbaru Saat menggunakan tombol "Think", model ini menunjukkan kemampuan bernalar yang sangat baik Contoh: berhasil menjalankan permintaan untuk membuat game papan web bergaya Settlers of Catan dengan akurat Hampir tidak ada model yang bisa melakukan ini secara konsisten Tingkatnya mirip dengan OpenAI o1-pro ($200/bulan) yang terbaik, tetapi DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude tidak berhasil menyelesaikan masalah yang sama ❌ Gagal pada "Emoji mystery" Tugasnya adalah memecahkan pesan tersembunyi dalam Unicode variation selector Belum ada model yang berhasil menyelesaikan masalah ini, tetapi DeepSeek-R1 pernah berhasil memecahkan sebagian ❓ Menyelesaikan masalah Tic Tac Toe Menganalisis papan yang diberikan dengan benar dan menunjukkan proses berpikir yang canggih Namun gagal membuat sendiri papan yang "sulit" (o1-pro juga gagal dengan cara yang sama) ✅ Menyelesaikan soal perhitungan kompleks setelah mengunggah paper GPT-2 Diminta memperkirakan jumlah FLOP yang dibutuhkan untuk melatih GPT-2 Namun karena jumlah token tidak tertulis di dalam paper, perlu gabungan estimasi parsial dan perhitungan parsial sehingga butuh lookup, pengetahuan, dan matematika sekaligus, membuatnya cukup rumit Grok 3 dan GPT-4o sama-sama gagal pada tugas ini, tetapi Grok 3 with Thinking melakukan penalaran yang akurat Soal perhitungan ini bahkan gagal diselesaikan oleh o1-pro (model penalaran GPT) Menantang Hipotesis Riemann Sebagian besar model (o1-pro, Claude, Gemini 2.0 Flash Thinking) langsung menyerah dengan mengatakan ini adalah "masalah yang belum terpecahkan". Grok 3 dan DeepSeek-R1 benar-benar mencoba menyelesaikannya Mereka tidak berhasil, tetapi tetap mengesankan karena menunjukkan kemauan untuk mencoba Kesan keseluruhan: Masih perlu hasil benchmark nyata, tetapi terlihat lebih unggul dari DeepSeek-R1 dan berada di tingkat yang mirip dengan o1-pro DeepSearch Produk yang rapi, tampak seperti menggabungkan Thinking dengan apa yang OpenAI & Perplexity sebut "Deep Research" Kecuali namanya "Deep Search", bukan "Deep Research".. (hela napas) Menghasilkan jawaban berkualitas tinggi untuk berbagai pertanyaan riset/pencarian yang jawabannya bisa dibayangkan ada di artikel-artikel internet Mencari informasi mendalam di internet dan memberikan ringkasannya Pertanyaan yang dicoba dan hasil sukses/gagalnya ✅ "Peluncuran Apple kali ini akan seperti apa? Ada rumor?" ✅ "Kenapa harga saham Palantir naik?" ✅ "White Lotus season 3 syuting di mana, dan apakah timnya sama seperti season 1 dan 2?" ✅ "Pasta gigi apa yang dipakai Bryan Johnson?" ❌ "Sekarang para cast Single's Inferno season 4 ada di mana?" ❌ "Program pengenalan suara yang Simon Willison bilang dia pakai itu apa?" ❌ Secara default model tidak terlalu menggunakan X(Twitter) sebagai sumber. (harus diminta secara eksplisit) Kadang membuat URL yang sebenarnya tidak ada (terjadi halusinasi) Ada kalanya memberikan informasi yang salah tanpa sumber Contoh: "Kim Jeong-su dari Single's Inferno 4 masih pacaran dengan Kim Min-seol" → (sepertinya tidak. mungkin?) Juga, ketika diminta membuat laporan tentang laboratorium LLM utama beserta total pendanaan dan estimasi jumlah karyawannya, model ini mencantumkan 12 lab utama tetapi tidak memasukkan dirinya sendiri (xAI) DeepSearch saat ini kira-kira setara dengan DeepResearch milik Perplexity, tetapi masih di bawah "Deep Research" milik OpenAI Random LLM "Gotcha" Juga mencoba berbagai kueri LLM acak yang menarik. Hal-hal yang relatif mudah bagi manusia, tetapi sulit bagi LLM. ✅ Jumlah huruf 'r' dalam "strawberry" (3) ✅ Jumlah huruf 'L' dalam "LOLLAPALOOZA" (4) → ❌ (awalnya menjawab 3, tetapi benar di mode Thinking) ✅ "9.11 > 9.9?" → ❌ (awalnya salah, lalu diperbaiki di mode Thinking) ✅ "Sally (perempuan) punya 3 saudara laki-laki. Masing-masing saudara laki-lakinya punya 2 saudara perempuan. Berapa saudara perempuan yang dimiliki Sally?" (GPT-4o menjawab 2, jadi salah) ❌ Sayangnya, selera humor model ini tidak terlihat membaik secara jelas. Ini masalah yang umum pada kebanyakan LLM Dari 1008 permintaan untuk membuat lelucon kepada ChatGPT, 90% berujung pada pengulangan 25 lelucon yang sama ❌ Untuk pertanyaan tentang "masalah etika yang kompleks", model ini memberikan jawaban yang terlalu berhati-hati Contoh: "Jika bisa menyelamatkan 1 juta orang, apakah salah menyebut gender seseorang bisa dibenarkan secara etis?" → menulis esai sepanjang 1 halaman sambil menghindari jawaban ❌ Gagal pada permintaan "membuat SVG pelikan yang mengendarai sepeda" Karena LLM berbasis teks, masalah sulit dalam penempatan tata letak 2D masih tetap ada Model Claude adalah yang paling mahir dalam membuat SVG Kesimpulan Grok 3 + Thinking berada di tingkat yang mirip dengan model terbaik OpenAI (o1-pro, $200/bulan) Sedikit lebih baik daripada DeepSeek-R1 dan Gemini 2.0 Flash Thinking Mampu membuat AI yang bisa bersaing dengan model SOTA (State of the Art) hanya dalam 1 tahun sejak rilis adalah pencapaian yang mengejutkan Karena model bersifat stokastik, jawabannya bisa berbeda setiap kali, dan evaluasi lebih lanjut masih diperlukan Hasil awal di LM Arena cukup menggembirakan Kecepatan perkembangan tim xAI sangat mengesankan, dan ada rencana untuk menguji Grok 3 lebih dalam ke depannya

(x.com)

14 poin oleh xguru 2025-02-19 | 6 komentar | Bagikan ke WhatsApp

Thinking

✅ Memiliki model penalaran terbaru
- Saat menggunakan tombol "Think", model ini menunjukkan kemampuan bernalar yang sangat baik
- Contoh: berhasil menjalankan permintaan untuk membuat game papan web bergaya Settlers of Catan dengan akurat
- Hampir tidak ada model yang bisa melakukan ini secara konsisten
- Tingkatnya mirip dengan OpenAI o1-pro ($200/bulan) yang terbaik, tetapi DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude tidak berhasil menyelesaikan masalah yang sama
❌ Gagal pada "Emoji mystery"
- Tugasnya adalah memecahkan pesan tersembunyi dalam Unicode variation selector
- Belum ada model yang berhasil menyelesaikan masalah ini, tetapi DeepSeek-R1 pernah berhasil memecahkan sebagian
❓ Menyelesaikan masalah Tic Tac Toe
- Menganalisis papan yang diberikan dengan benar dan menunjukkan proses berpikir yang canggih
- Namun gagal membuat sendiri papan yang "sulit" (o1-pro juga gagal dengan cara yang sama)
✅ Menyelesaikan soal perhitungan kompleks setelah mengunggah paper GPT-2
- Diminta memperkirakan jumlah FLOP yang dibutuhkan untuk melatih GPT-2
- Namun karena jumlah token tidak tertulis di dalam paper, perlu gabungan estimasi parsial dan perhitungan parsial sehingga butuh lookup, pengetahuan, dan matematika sekaligus, membuatnya cukup rumit
- Grok 3 dan GPT-4o sama-sama gagal pada tugas ini, tetapi Grok 3 with Thinking melakukan penalaran yang akurat
  - Soal perhitungan ini bahkan gagal diselesaikan oleh o1-pro (model penalaran GPT)
Menantang Hipotesis Riemann
- Sebagian besar model (o1-pro, Claude, Gemini 2.0 Flash Thinking) langsung menyerah dengan mengatakan ini adalah "masalah yang belum terpecahkan".
- Grok 3 dan DeepSeek-R1 benar-benar mencoba menyelesaikannya
- Mereka tidak berhasil, tetapi tetap mengesankan karena menunjukkan kemauan untuk mencoba
Kesan keseluruhan:
- Masih perlu hasil benchmark nyata, tetapi terlihat lebih unggul dari DeepSeek-R1 dan berada di tingkat yang mirip dengan o1-pro

DeepSearch

Produk yang rapi, tampak seperti menggabungkan Thinking dengan apa yang OpenAI & Perplexity sebut "Deep Research"
- Kecuali namanya "Deep Search", bukan "Deep Research".. (hela napas)
Menghasilkan jawaban berkualitas tinggi untuk berbagai pertanyaan riset/pencarian yang jawabannya bisa dibayangkan ada di artikel-artikel internet
- Mencari informasi mendalam di internet dan memberikan ringkasannya
Pertanyaan yang dicoba dan hasil sukses/gagalnya
- ✅ "Peluncuran Apple kali ini akan seperti apa? Ada rumor?"
- ✅ "Kenapa harga saham Palantir naik?"
- ✅ "White Lotus season 3 syuting di mana, dan apakah timnya sama seperti season 1 dan 2?"
- ✅ "Pasta gigi apa yang dipakai Bryan Johnson?"
- ❌ "Sekarang para cast Single's Inferno season 4 ada di mana?"
- ❌ "Program pengenalan suara yang Simon Willison bilang dia pakai itu apa?"
❌ Secara default model tidak terlalu menggunakan X(Twitter) sebagai sumber. (harus diminta secara eksplisit)
- Kadang membuat URL yang sebenarnya tidak ada (terjadi halusinasi)
- Ada kalanya memberikan informasi yang salah tanpa sumber
  - Contoh: "Kim Jeong-su dari Single's Inferno 4 masih pacaran dengan Kim Min-seol" → (sepertinya tidak. mungkin?)
- Juga, ketika diminta membuat laporan tentang laboratorium LLM utama beserta total pendanaan dan estimasi jumlah karyawannya, model ini mencantumkan 12 lab utama tetapi tidak memasukkan dirinya sendiri (xAI)
DeepSearch saat ini kira-kira setara dengan DeepResearch milik Perplexity, tetapi masih di bawah "Deep Research" milik OpenAI

Random LLM "Gotcha"

Juga mencoba berbagai kueri LLM acak yang menarik. Hal-hal yang relatif mudah bagi manusia, tetapi sulit bagi LLM.
✅ Jumlah huruf 'r' dalam "strawberry" (3)
✅ Jumlah huruf 'L' dalam "LOLLAPALOOZA" (4) → ❌ (awalnya menjawab 3, tetapi benar di mode Thinking)
✅ "9.11 > 9.9?" → ❌ (awalnya salah, lalu diperbaiki di mode Thinking)
✅ "Sally (perempuan) punya 3 saudara laki-laki. Masing-masing saudara laki-lakinya punya 2 saudara perempuan. Berapa saudara perempuan yang dimiliki Sally?" (GPT-4o menjawab 2, jadi salah)
❌ Sayangnya, selera humor model ini tidak terlihat membaik secara jelas. Ini masalah yang umum pada kebanyakan LLM
- Dari 1008 permintaan untuk membuat lelucon kepada ChatGPT, 90% berujung pada pengulangan 25 lelucon yang sama
❌ Untuk pertanyaan tentang "masalah etika yang kompleks", model ini memberikan jawaban yang terlalu berhati-hati
- Contoh: "Jika bisa menyelamatkan 1 juta orang, apakah salah menyebut gender seseorang bisa dibenarkan secara etis?" → menulis esai sepanjang 1 halaman sambil menghindari jawaban
❌ Gagal pada permintaan "membuat SVG pelikan yang mengendarai sepeda"
- Karena LLM berbasis teks, masalah sulit dalam penempatan tata letak 2D masih tetap ada
- Model Claude adalah yang paling mahir dalam membuat SVG

Kesimpulan

Grok 3 + Thinking berada di tingkat yang mirip dengan model terbaik OpenAI (o1-pro, $200/bulan)
Sedikit lebih baik daripada DeepSeek-R1 dan Gemini 2.0 Flash Thinking
Mampu membuat AI yang bisa bersaing dengan model SOTA (State of the Art) hanya dalam 1 tahun sejak rilis adalah pencapaian yang mengejutkan
Karena model bersifat stokastik, jawabannya bisa berbeda setiap kali, dan evaluasi lebih lanjut masih diperlukan
Hasil awal di LM Arena cukup menggembirakan
Kecepatan perkembangan tim xAI sangat mengesankan, dan ada rencana untuk menguji Grok 3 lebih dalam ke depannya

6 komentar

aer0700 2025-02-20

Kalau suatu hari kita menyuruh AI membuktikan Hipotesis Riemann, lalu sehari kemudian ia benar-benar mengeluarkan jawabannya, pasti bakal heboh.

ffdd270 2025-02-19

Saya kira Anda melokalkan pertanyaan tentang Single's Inferno, ternyata benar-benar menanyakannya.... wkwkwkwkwkwkwkwk

mssmss 2025-02-21

Saya kira itu terjemahan bebas.

cladio 2025-02-19

Saya sempat membaca dengan pikiran, “akhirnya keluar juga penilaian Grok 3 yang lumayan bisa dipercaya,” lalu malah kaget waktu melihat Single’s Inferno.. Melihat komentar di atas, saya cari-cari dan ternyata ada tweet dari tahun 2023. Katanya pacarnya orang Korea dan mereka sering menonton drama Korea bersama.
Saya benar-benar tidak pernah membayangkan kalau orang yang berada di garis terdepan industri paling gila di dunia itu ternyata menonton Single’s Inferno juga… wkwkwk

knsimuel 2025-02-19

Katanya istrinya orang Korea.

xguru 2025-02-19

Saya belum menonton Single's Inferno.. jadi setelah melihat judulnya saya baru cari tahu, hahaha. Nama para pesertanya juga saya cari satu per satu.