14 poin oleh xguru 2025-02-19 | 6 komentar | Bagikan ke WhatsApp

Thinking

  • Memiliki model penalaran terbaru
    • Saat menggunakan tombol "Think", model ini menunjukkan kemampuan bernalar yang sangat baik
    • Contoh: berhasil menjalankan permintaan untuk membuat game papan web bergaya Settlers of Catan dengan akurat
    • Hampir tidak ada model yang bisa melakukan ini secara konsisten
    • Tingkatnya mirip dengan OpenAI o1-pro ($200/bulan) yang terbaik, tetapi DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude tidak berhasil menyelesaikan masalah yang sama
  • Gagal pada "Emoji mystery"
    • Tugasnya adalah memecahkan pesan tersembunyi dalam Unicode variation selector
    • Belum ada model yang berhasil menyelesaikan masalah ini, tetapi DeepSeek-R1 pernah berhasil memecahkan sebagian
  • Menyelesaikan masalah Tic Tac Toe
    • Menganalisis papan yang diberikan dengan benar dan menunjukkan proses berpikir yang canggih
    • Namun gagal membuat sendiri papan yang "sulit" (o1-pro juga gagal dengan cara yang sama)
  • Menyelesaikan soal perhitungan kompleks setelah mengunggah paper GPT-2
    • Diminta memperkirakan jumlah FLOP yang dibutuhkan untuk melatih GPT-2
    • Namun karena jumlah token tidak tertulis di dalam paper, perlu gabungan estimasi parsial dan perhitungan parsial sehingga butuh lookup, pengetahuan, dan matematika sekaligus, membuatnya cukup rumit
    • Grok 3 dan GPT-4o sama-sama gagal pada tugas ini, tetapi Grok 3 with Thinking melakukan penalaran yang akurat
      • Soal perhitungan ini bahkan gagal diselesaikan oleh o1-pro (model penalaran GPT)
  • Menantang Hipotesis Riemann
    • Sebagian besar model (o1-pro, Claude, Gemini 2.0 Flash Thinking) langsung menyerah dengan mengatakan ini adalah "masalah yang belum terpecahkan".
    • Grok 3 dan DeepSeek-R1 benar-benar mencoba menyelesaikannya
    • Mereka tidak berhasil, tetapi tetap mengesankan karena menunjukkan kemauan untuk mencoba
  • Kesan keseluruhan:
    • Masih perlu hasil benchmark nyata, tetapi terlihat lebih unggul dari DeepSeek-R1 dan berada di tingkat yang mirip dengan o1-pro

DeepSearch

  • Produk yang rapi, tampak seperti menggabungkan Thinking dengan apa yang OpenAI & Perplexity sebut "Deep Research"
    • Kecuali namanya "Deep Search", bukan "Deep Research".. (hela napas)
  • Menghasilkan jawaban berkualitas tinggi untuk berbagai pertanyaan riset/pencarian yang jawabannya bisa dibayangkan ada di artikel-artikel internet
    • Mencari informasi mendalam di internet dan memberikan ringkasannya
  • Pertanyaan yang dicoba dan hasil sukses/gagalnya
    • ✅ "Peluncuran Apple kali ini akan seperti apa? Ada rumor?"
    • ✅ "Kenapa harga saham Palantir naik?"
    • ✅ "White Lotus season 3 syuting di mana, dan apakah timnya sama seperti season 1 dan 2?"
    • ✅ "Pasta gigi apa yang dipakai Bryan Johnson?"
    • ❌ "Sekarang para cast Single's Inferno season 4 ada di mana?"
    • ❌ "Program pengenalan suara yang Simon Willison bilang dia pakai itu apa?"
  • ❌ Secara default model tidak terlalu menggunakan X(Twitter) sebagai sumber. (harus diminta secara eksplisit)
    • Kadang membuat URL yang sebenarnya tidak ada (terjadi halusinasi)
    • Ada kalanya memberikan informasi yang salah tanpa sumber
      • Contoh: "Kim Jeong-su dari Single's Inferno 4 masih pacaran dengan Kim Min-seol" → (sepertinya tidak. mungkin?)
    • Juga, ketika diminta membuat laporan tentang laboratorium LLM utama beserta total pendanaan dan estimasi jumlah karyawannya, model ini mencantumkan 12 lab utama tetapi tidak memasukkan dirinya sendiri (xAI)
  • DeepSearch saat ini kira-kira setara dengan DeepResearch milik Perplexity, tetapi masih di bawah "Deep Research" milik OpenAI

Random LLM "Gotcha"

  • Juga mencoba berbagai kueri LLM acak yang menarik. Hal-hal yang relatif mudah bagi manusia, tetapi sulit bagi LLM.
  • ✅ Jumlah huruf 'r' dalam "strawberry" (3)
  • ✅ Jumlah huruf 'L' dalam "LOLLAPALOOZA" (4) → ❌ (awalnya menjawab 3, tetapi benar di mode Thinking)
  • ✅ "9.11 > 9.9?" → ❌ (awalnya salah, lalu diperbaiki di mode Thinking)
  • ✅ "Sally (perempuan) punya 3 saudara laki-laki. Masing-masing saudara laki-lakinya punya 2 saudara perempuan. Berapa saudara perempuan yang dimiliki Sally?" (GPT-4o menjawab 2, jadi salah)
  • ❌ Sayangnya, selera humor model ini tidak terlihat membaik secara jelas. Ini masalah yang umum pada kebanyakan LLM
    • Dari 1008 permintaan untuk membuat lelucon kepada ChatGPT, 90% berujung pada pengulangan 25 lelucon yang sama
  • ❌ Untuk pertanyaan tentang "masalah etika yang kompleks", model ini memberikan jawaban yang terlalu berhati-hati
    • Contoh: "Jika bisa menyelamatkan 1 juta orang, apakah salah menyebut gender seseorang bisa dibenarkan secara etis?" → menulis esai sepanjang 1 halaman sambil menghindari jawaban
  • ❌ Gagal pada permintaan "membuat SVG pelikan yang mengendarai sepeda"
    • Karena LLM berbasis teks, masalah sulit dalam penempatan tata letak 2D masih tetap ada
    • Model Claude adalah yang paling mahir dalam membuat SVG

Kesimpulan

  • Grok 3 + Thinking berada di tingkat yang mirip dengan model terbaik OpenAI (o1-pro, $200/bulan)
  • Sedikit lebih baik daripada DeepSeek-R1 dan Gemini 2.0 Flash Thinking
  • Mampu membuat AI yang bisa bersaing dengan model SOTA (State of the Art) hanya dalam 1 tahun sejak rilis adalah pencapaian yang mengejutkan
  • Karena model bersifat stokastik, jawabannya bisa berbeda setiap kali, dan evaluasi lebih lanjut masih diperlukan
  • Hasil awal di LM Arena cukup menggembirakan
  • Kecepatan perkembangan tim xAI sangat mengesankan, dan ada rencana untuk menguji Grok 3 lebih dalam ke depannya

6 komentar

 
aer0700 2025-02-20

Kalau suatu hari kita menyuruh AI membuktikan Hipotesis Riemann, lalu sehari kemudian ia benar-benar mengeluarkan jawabannya, pasti bakal heboh.

 
ffdd270 2025-02-19

Saya kira Anda melokalkan pertanyaan tentang Single's Inferno, ternyata benar-benar menanyakannya.... wkwkwkwkwkwkwkwk

 
mssmss 2025-02-21

Saya kira itu terjemahan bebas.

 
cladio 2025-02-19

Saya sempat membaca dengan pikiran, “akhirnya keluar juga penilaian Grok 3 yang lumayan bisa dipercaya,” lalu malah kaget waktu melihat Single’s Inferno.. Melihat komentar di atas, saya cari-cari dan ternyata ada tweet dari tahun 2023. Katanya pacarnya orang Korea dan mereka sering menonton drama Korea bersama.
Saya benar-benar tidak pernah membayangkan kalau orang yang berada di garis terdepan industri paling gila di dunia itu ternyata menonton Single’s Inferno juga… wkwkwk

 
knsimuel 2025-02-19

Katanya istrinya orang Korea.

 
xguru 2025-02-19

Saya belum menonton Single's Inferno.. jadi setelah melihat judulnya saya baru cari tahu, hahaha. Nama para pesertanya juga saya cari satu per satu.