Grok 3: Kemenangan Lain bagi The Bitter Lesson

(thealgorithmicbridge.com)

3 poin oleh GN⁺ 2025-02-21 | 3 komentar | Bagikan ke WhatsApp

I. Hukum penskalaan yang menguasai perkembangan AI

Kemungkinan besar tidak berlebihan jika Elon Musk menyebut Grok 3 sebagai "AI paling cerdas di Bumi"
Dibandingkan Grok 2, model ini mencapai lompatan besar, dan setara dengan model dari lab matang seperti OpenAI, Google DeepMind, dan Anthropic, bahkan unggul di beberapa area
Di LMSys Arena, model ini menempati peringkat 1 di ყველა kategori, serta menunjukkan performa tingkat tinggi (setingkat o3) dalam matematika, coding, dan soal sains
Pada beberapa tugas tertentu masih kalah dari model papan atas, tetapi pada sebagian besar tolok ukur ia berada di level co-state-of-the-art
Grok 3 bukan sekadar keberhasilan xAI, melainkan kemenangan lain bagi The Bitter Lesson yang menegaskan pentingnya skala dalam riset AI
Berbeda dari sudut pandang kritis atau pemberitaan media, Scaling Laws dalam kemajuan AI masih berlaku, dan pentingnya justru makin besar

II. DeepSeek: pengecualian yang membuktikan hukum

Latar belakang kesuksesan DeepSeek
- DeepSeek mampu menantang pesaing teratas industri meski hanya dengan sumber daya komputasi yang relatif lebih sedikit (sekitar 50K GPU Nvidia Hopper)
- Lab di AS memakai lebih dari 100K Nvidia H100, tetapi DeepSeek meraih hasil dengan mengoptimalkan seluruh stack teknologinya
- Karena itu, DeepSeek memunculkan keraguan terhadap 'Bitter Lesson' dan 'Scaling Paradigm' yang selama ini dipercaya komunitas
Kesimpulan yang keliru dan makna sebenarnya dari Bitter Lesson
- Sebagian orang menafsirkan keberhasilan DeepSeek sebagai bukti bahwa "GPU tidak penting, dan optimisasi algoritmik lebih penting"
- Namun Bitter Lesson bukan berarti "perbaikan algoritmik tidak diperlukan", melainkan bahwa jika memungkinkan, memanfaatkan lebih banyak sumber daya komputasi adalah pilihan terbaik
- DeepSeek terpaksa fokus pada optimisasi karena kekurangan GPU; bila ia berlatih dengan 100K GPU, hasilnya kemungkinan akan lebih baik
- Artinya, yang dibuktikan DeepSeek adalah potensi optimisasi, bukan bahwa "penskalaan tidak berarti"
Posisi CEO DeepSeek
- Bahkan CEO Liang Wenfeng menyatakan bahwa pembatasan ekspor AS adalah hambatan utama dalam pengembangan model yang lebih baik
- Fakta bahwa ia mengatakan hal itu meski sudah menggunakan 50K GPU Hopper justru bermakna kebalikan dari tafsiran bahwa "GPU tidak penting"
- Kesuksesan DeepSeek bisa dilihat sebagai contoh yang mendukung Bitter Lesson dan Scaling Paradigm, hanya saja merupakan kasus yang luar biasa

III. xAI membuktikan bahwa "penskalaan > optimisasi"

Grok 3 dan pendekatan xAI
- Masih dipertanyakan apakah hasil xAI akan mengubah pandangan para skeptis yang menganggap "penskalaan lebih penting daripada optimisasi"
- Belum jelas apakah ada perubahan arsitektur pada Grok 3 atau seberapa jauh optimisasi infrastrukturnya, tetapi yang pasti model ini dilatih di superkomputer Colossus milik xAI di Memphis dengan 100K GPU H100
- Itu jauh lebih banyak daripada jumlah GPU yang dimiliki DeepSeek
Strategi yang berbeda dari DeepSeek
- DeepSeek harus memaksimalkan sumber daya GPU yang terbatas sampai batas ekstrem, sedangkan xAI tidak perlu melakukan itu dan cukup memakai optimisasi pada level standar yang sudah ada
- Inti Bitter Lesson adalah: "jika punya sumber daya komputasi yang cukup, jangan buang waktu pada optimisasi yang tidak perlu—langsung lakukan penskalaan"
- xAI mengerahkan sumber daya komputasi yang bahkan lebih besar daripada OpenAI untuk melatih Grok 3, dan hasilnya adalah model mutakhir
Bitter Lesson bukan hanya untuk AI, tetapi kebenaran yang lebih umum
- "Jika sumber daya utama melimpah, tidak perlu membuang waktu memeras sumber daya pendukung"
- Ibarat Fremen di gurun yang mendaur ulang keringat, akan jauh lebih efisien jika tinggal di planet tempat hujan turun
- Perbaikan algoritme dan peningkatan daya komputasi sama-sama penting, tetapi setelah titik tertentu, menambah lebih banyak sumber daya lebih efektif daripada optimisasi
- Daya komputasi bisa diatasi selama ada uang, sedangkan terobosan algoritmik tidak bisa diprediksi dan tidak ada jaminan tetap dapat diskalakan di masa depan
Penting untuk tidak berhenti melakukan penskalaan
- Saat menemui batas, yang diubah bukan optimisasinya, melainkan apa yang diskalakan
- Sumber daya yang terbatas memang bisa mendorong inovasi, tetapi pada akhirnya "lebih banyak sumber daya" mengalahkan "optimisasi yang lebih baik"
- DeepSeek terpaksa fokus pada optimisasi, tetapi xAI maupun OpenAI tidak akan memilih bekerja di bawah keterbatasan inovasi seperti yang dihadapi DeepSeek
- Pada akhirnya, xAI dan DeepSeek adalah contoh representatif dari "pendekatan dengan sumber daya besar-besaran vs pendekatan memaksimalkan sumber daya terbatas"
- Keduanya sama-sama melakukan yang terbaik dalam kondisi masing-masing, tetapi selama DeepSeek tetap kekurangan sumber daya komputasi, xAI kemungkinan besar akan mempertahankan posisi yang lebih menguntungkan
- Dengan demikian, meski Bitter Lesson diperdebatkan di kalangan akademis, selama lebih dari 10 tahun terakhir ia terbukti tetap valid dalam pengembangan AI di dunia nyata

IV. Pergeseran paradigma yang membantu xAI dan DeepSeek

Sulitnya menjadi pendatang belakangan dalam persaingan AI
- Memulai terlambat dalam persaingan AI dulu tampak seperti handicap yang sulit diatasi
- Pada awalnya, sulit yakin apakah xAI bisa mengejar OpenAI atau Anthropic
- Namun selama perkembangan dari Grok 2 (Agustus 2024) ke Grok 3 (Februari 2025), selain klaster GPU Colossus, ada faktor lain yang bekerja menguntungkan xAI
- Faktor itu adalah perubahan paradigma penskalaan AI
Era pre-training (2019-2024)
- Pada fase awal, kemajuan AI berarti melatih model yang lebih besar dengan dataset yang lebih besar dan sumber daya komputasi yang lebih kuat
- Contoh: GPT-2 (Februari 2019) memiliki 1,5 miliar parameter, sedangkan GPT-4 (Maret 2023) sekitar 1,76 triliun, meningkat lebih dari 1.000 kali
- Pendekatan ini menguntungkan pemain awal seperti OpenAI
  - Karena mereka punya waktu lama untuk mengumpulkan data, memperbesar model, dan mengamankan GPU
- Selain itu, melatih tiap model sering kali membutuhkan lebih dari setengah tahun, sehingga kecepatan iterasi antar generasi melambat dan membuat pendatang baru sulit mengejar
Era post-training (2024-???)
- Mulai 2024, industri AI menyadari bahwa hanya membesarkan model saja membuat peningkatan performa bertahap mulai melambat
- Media salah mengartikan ini sebagai "era penskalaan telah berakhir", padahal yang terjadi hanyalah perubahan paradigma (lihat ceramah Ilya Sutskever di NeurIPS 2024)
- Perubahan fokusnya:
  - "Perluasan test-time compute" → pendekatan yang membuat model dapat berpikir lebih dalam saat menjawab
  - Kombinasi reinforcement learning (RLHF) + supervised fine-tuning (SFT) efektif
  - Khususnya, peningkatan performa besar terjadi ketika fungsi reward yang bisa diverifikasi diterapkan pada domain terstruktur seperti matematika dan coding
- OpenAI memimpin ini lewat o1-preview, dan setelah itu perusahaan AI beralih dari sekadar memperbesar model ke arah membangun "model dengan kemampuan berpikir yang lebih baik"
Mengapa paradigma baru ini menguntungkan xAI dan DeepSeek
- Post-training masih berada pada tahap awal, sehingga peningkatan performa yang cepat bisa dicapai dengan biaya yang relatif kecil
- Perkembangan OpenAI dari o1 ke o3 hanya dalam 3 bulan juga berkat hal ini
- Alasan yang sama menjelaskan mengapa DeepSeek bisa mengejar hingga level R1 meski memiliki GPU yang lebih sedikit dan lebih lemah
- Grok juga mencapai level model AI papan atas hanya dalam waktu 2 tahun
Perubahan lanskap kompetisi
- OpenAI masih mempertahankan keunggulan tertentu, tetapi tidak lagi pada tingkat yang mustahil dikejar pendatang baru
- OpenAI harus menyeimbangkan riset mutakhir dan operasional produk karena beban menjalankan ChatGPT dengan 300 juta (300M) pengguna mingguan
- Sebaliknya, xAI dan DeepSeek bisa lebih luwes fokus pada inovasi teknologi
- Aplikasi DeepSeek sempat populer lalu menurun lagi karena kekurangan sumber daya komputasi untuk menangani inference dalam skala besar
- Dengan terbukanya paradigma baru, lanskap kompetisi baru sedang terbentuk

V. Memahami dengan tepat pencapaian xAI dan DeepSeek

Jangan meremehkan pencapaian hanya karena Bitter Lesson dan perubahan paradigma
- Bitter Lesson dan pergeseran paradigma penskalaan memang memudahkan kesuksesan xAI dan DeepSeek, tetapi pada akhirnya merekalah yang berhasil mewujudkannya
- Perusahaan lain yang memiliki peluang serupa (Mistral, Character, Inflection) gagal
- Grok 3 adalah kemenangan Bitter Lesson, dan DeepSeek adalah kasus pengecualian yang membuktikan aturan, tetapi keduanya punya makna lebih dari itu
Sumber daya komputasi bukan segalanya
- Seperti halnya Bitter Lesson tidak menyangkal nilai algoritme dan optimisasi infrastruktur, sumber daya manusia dan strategi perusahaan juga penting
- xAI kini memiliki sekitar 1.000 karyawan, setara dengan OpenAI (sekitar 2.000) dan Anthropic (sekitar 700)
- Selain itu, berkat jaringan teknologi dan finansial Elon Musk, xAI dapat dengan mudah menarik investasi besar
- DeepSeek juga layak mendapat penilaian tinggi karena mampu berinovasi dalam lingkungan yang terbatas
  - Ekosistem AI di Tiongkok relatif kurang ambisius dan kurang berpengalaman, serta dukungan pemerintah juga terbatas (meski ini bisa segera berubah)
Harus dipahami dalam konteks sejarah
- OpenAI, Google DeepMind, dan Anthropic harus mengembangkan model pada era pre-training
  - Saat itu penskalaan AI jauh lebih sulit, lebih lambat, dan lebih mahal daripada sekarang
  - Bahkan belum jelas apakah produk seperti ChatGPT akan berhasil, dan OpenAI pun sempat ragu merilisnya (awalnya hanya dipublikasikan sebagai research preview sederhana)
  - Di tengah masa depan yang penuh ketidakpastian, perusahaan-perusahaan ini adalah pelopor yang memimpin inovasi AI dengan keyakinan kuat
- Sebaliknya, DeepSeek dan xAI memulai dari atas bahu para raksasa ini
  - Mereka bisa menghindari trial and error dari riset sebelumnya, serta memanfaatkan pendekatan yang sudah terbukti untuk berkembang cepat
  - Kebetulan pula paradigma AI sedang bergeser ke era post-training, yang memungkinkan hasil cepat dengan biaya lebih rendah
  - Mereka tidak terlalu perlu menanggung investasi awal yang sangat besar atau ketidakpastian yang dulu dihadapi para pionir AI
Akui kemenangannya, tapi ingat juga prosesnya
- Tidak perlu meremehkan pencapaian xAI dan DeepSeek, tetapi jangan lupa bagaimana perkembangan AI bisa sampai ke titik ini
- Tanpa perintis awal seperti OpenAI, DeepMind, dan Anthropic, pencapaian hari ini juga tidak akan mungkin ada
- Jadi, lebih tepat melihat keberhasilan xAI dan DeepSeek bukan sebagai "sekadar beruntung", melainkan "hasil dari upaya maksimal pada timing yang tepat"

VI. Post-training sekarang murah, tetapi akan segera menjadi mahal

Pelajaran utama dari Grok 3 dan xAI
- Saat ini post-training relatif murah, tetapi segera akan membutuhkan biaya investasi sangat besar, setara dengan pre-training
- Begitu perusahaan menemukan cara memperluas post-training dalam skala besar, untuk bertahan dalam kompetisi mereka akan membutuhkan uang dan sumber daya komputasi
- Perusahaan AI sudah menimbun ratusan ribu GPU dan membangun klaster besar
- Berlawanan dengan klaim bahwa "GPU tidak penting", perebutan GPU akan menjadi elemen inti persaingan AI
- Karena itu, tokoh seperti Dario Amodei (co-founder OpenAI) menekankan pentingnya export controls
Positioning xAI yang kuat
- Saat ini xAI berada pada posisi yang lebih menguntungkan bukan hanya dibanding DeepSeek, tetapi juga OpenAI dan Anthropic
- Alasannya: xAI memiliki klaster 100K GPU H100 dan berencana segera memperluasnya menjadi 200K
- Ini memberi keunggulan luar biasa dalam perlombaan mengembangkan AI generasi berikutnya
- Meta juga mengikuti strategi yang sama, dengan melatih Llama 4 pada klaster H100 100K+
Batasan dan peluang DeepSeek
- Dengan kemampuan engineering yang luar biasa saja, DeepSeek kini memasuki fase yang makin sulit untuk tetap bersaing
- Sehebat apa pun optimisasi stack teknologinya, mustahil menutup selisih 150K GPU
- Jika itu mungkin, DeepSeek tentu juga akan memilih penskalaan seperti xAI, tetapi kontrol ekspor AS membatasi pertumbuhannya
- Namun, masih ada kemungkinan masalah ini diatasi melalui kerja sama dengan Huawei
Keunggulan tambahan xAI
- Bahkan OpenAI dan Anthropic pun tidak berada di posisi seaman xAI dalam hal pengamanan klaster GPU
- Berkat dukungan Nvidia, xAI mendapat prioritas dalam pasokan hardware AI generasi berikutnya
- Dengan jaringan Elon Musk dan sikap ramah Nvidia, xAI sangat mungkin memiliki keunggulan yang menonjol dalam persaingan AI masa depan

VII. Setahun lagi, siapa yang akan memimpin?

Keunggulan para pemain lama
- Terlepas dari semua itu, OpenAI, Google DeepMind, dan Anthropic masih mempertahankan sedikit keunggulan awal
- OpenAI: akan segera merilis GPT-4.5/GPT-5, dan setelah itu juga sedang mengembangkan model o4
- Anthropic: Claude 4 dijadwalkan rilis
- Google DeepMind: sedang meningkatkan versi "Thinking-model" dari Gemini 2.0 sambil berupaya menurunkan biaya dan memperluas context window
Masa depan yang tidak pasti
- Pada 2024, banyak yang memperkirakan Google akan memimpin persaingan AI, tetapi sekarang hal itu tidak lagi pasti
- Persaingan AI lebih sengit dari sebelumnya, dan dalam perlombaan menuju AGI tidak ada pemenang yang jelas
- Paradigma baru menguntungkan para pendatang belakangan dan menuntut kemampuan beradaptasi yang cepat
- Belum jelas apakah Google memiliki kelincahan seperti itu
- Atau bisa jadi Google hanya tidak pandai mempromosikan pencapaiannya sendiri secara efektif
Kesimpulan: pada akhirnya penskalaan menang
- Kesimpulan tulisan ini bukan untuk memprediksi pemenang persaingan AI
- Pelajaran pentingnya adalah bahwa penskalaan pada akhirnya mengalahkan ingenuity manusia
  - Maaf harus menyampaikan kabar seperti ini, tetapi ada hal-hal yang memang berada di luar kendali kita
- Keberhasilan Grok 3 sekali lagi mengingatkan bahwa bukan "algoritme yang lebih cerdas", melainkan "kemampuan komputasi yang lebih besar" yang mendorong kemajuan AI

3 komentar

kobings 2025-02-23

"ChatGPT milik OpenAI memiliki 3 miliar pengguna mingguan"
Setelah melihat teks aslinya, ternyata tertulis 300M, jadi mohon diperbaiki menjadi 300 juta.

doolayer 2025-02-22

ortogonal tetapi tidak ortonormal.

GN⁺ 2025-02-21

Komentar Hacker News

Penciptaan model "co-state-of-the-art" bukanlah kemenangan hukum penskalaan
- Meski xAI memasukkan lebih banyak komputasi ke Grok 3, model ini tidak mampu jauh melampaui model yang ada, yang bisa menjadi bukti bahwa hiperskalasi hanya menghasilkan peningkatan bertahap
- Bahwa lebih banyak daya komputasi membuat komputer menjadi lebih baik adalah pengamatan yang sudah jelas
- Artikel ini mencoba menerapkan perbedaan antara AI simbolik ikonis era 70-an dan jaringan saraf era 2010-an pada perbedaan antara GPT-4 dan Grok 3
- Banyak orang meragukan performa nyata Grok 3, dan mencurigai bahwa model ini dilatih agar sesuai dengan benchmark tertentu
- Sabine Hossenfelder menyebut bahwa Grok 3 gagal menjelaskan teorema Bell
- Ini menunjukkan bahwa penskalaan besar-besaran tidak meningkatkan kecerdasan
Deepseek membutuhkan 17 bulan untuk mencapai hasil SOTA, dan model xAI tidak jauh melampaui Deepseek R1
- xAI akan menginvestasikan $2.5 billion dari total $3 billion ke GPU, dan $0.5 billion ke talenta
- Deepseek akan menginvestasikan $1 billion ke GPU, dan $2 billion ke talenta
- Diklaim bahwa pendekatan Deepseek lebih dapat diskalakan
Skeptis terhadap model non-penalaran yang mencatat 75% di GPQA Diamond
- xAI akan menyediakan API Grok 3 minggu depan sehingga performa nyatanya bisa diverifikasi lewat evaluasi pribadi
- Angka bahwa DeepSeek memiliki 50k GPU Hopper mungkin dibesar-besarkan
- Iklan perekrutan magang DeepSeek hanya menyebut "akses tak terbatas ke 10k A100s"
Menarik kesimpulan yang aneh dari perubahan terbaru
- Banyak dana mengalir ke demam AI, tetapi ini akan segera berakhir
- Orang-orang yang punya banyak pengalaman dalam peningkatan teknologi akan berada pada posisi paling menguntungkan dalam jangka panjang
Jika Grok memiliki kecerdasan yang mirip dengan model terdepan lain, muncul pertanyaan bisnis mana yang akan beralih ke Grok
Ketika menambahkan lebih banyak komputasi menimbulkan biaya miliaran, "pelajaran pahit" mungkin bukan lagi soal hardware, melainkan soal uang
- Ada kemungkinan jalur di mana model dengan konsumsi daya lebih rendah tetap layak dijalankan tanpa pendanaan VC
Klaim artikel tentang "pelajaran pahit" bergantung pada kekeliruan logika
- Penskalaan dan optimisasi dibingkai sebagai strategi yang saling eksklusif
- Inovasi algoritmik DeepSeek melengkapi upaya penskalaan
- Klaim bahwa komputasi akan mendominasi "era pasca-pelatihan" mengabaikan potensi gangguan
Menarik untuk melihat bagaimana perekrutan talenta akan berevolusi
- Banyak insinyur merasa kecewa karena PR yang sangat berfokus pada DEI
- Muncul pertanyaan apakah orang-orang yang menghindari hubungan dekat dengan China karena alasan etis akan menerapkan standar yang sama pada AS
Entri blog hype AI lainnya
- Bahkan tidak ada penyebutan soal batang dengan warna berbeda pada hasil benchmark
- Grok-3 tidak membuktikan maupun membantah hukum penskalaan secara bermakna