Penjelasan tentang R1 dan segala hal lainnya

(timkellogg.me)

41 poin oleh GN⁺ 2025-01-27 | 9 komentar | Bagikan ke WhatsApp

Ringkasan situasi saat ini untuk memahami R1 yang tiba-tiba muncul, serta hal-hal yang berubah cepat seperti o1 dan o3

Linimasa

12 September 2024: o1-preview dirilis
5 Desember 2024: versi resmi o1 dan o1-pro dirilis
20 Desember 2024: o3 diumumkan (lulus ARC-AGI, mendapat perhatian sebagai “AGI”)
26 Desember 2024: DeepSeek V3 dirilis
20 Januari 2025: DeepSeek R1 dirilis (performanya mirip o1 tetapi open source)
25 Januari 2025: tim peneliti Universitas Hong Kong berhasil mereplikasi hasil R1
25 Januari 2025: Huggingface mengumumkan proyek open-r1 yang sepenuhnya open source dan mereplikasi R1
Untuk memperjelas
- o1, o3, dan R1 semuanya adalah model reasoning
- DeepSeek V3 adalah LLM (model dasar), dan model reasoning dibuat dengan fine-tuning terhadapnya
- ARC-AGI-1 adalah evaluasi paling sederhana dan mendasar untuk fluid intelligence. Gagal di sini berarti hampir sepenuhnya tidak mampu beradaptasi atau memecahkan masalah dalam situasi yang asing

# Reasoning & Agents

Model reasoning != agents

Model reasoning adalah model yang melalui proses “berpikir” sebelum menghasilkan jawaban
- LLM berpikir dengan menghasilkan token
- Karena itu, kita melatih model untuk menghasilkan banyak token dengan harapan model dapat menemukan jawaban yang benar
AI agent didefinisikan oleh dua hal
- Autonomy (agency) untuk mengambil keputusan dan menyelesaikan tugas
- Kemampuan untuk berinteraksi dengan dunia luar
LLM atau model reasoning itu sendiri hanya menghasilkan token, sehingga tidak bisa menjalankan dua fungsi ini
- Diperlukan software agar benar-benar bisa mengambil keputusan dan menyediakan kemampuan interaksi
Agent adalah sistem dari AI. Ini adalah gabungan beberapa model dan software agar bisa berinteraksi dengan dunia secara otonom. Hal yang sama juga berlaku untuk hardware.

Reasoning itu penting

Alasan model reasoning sering tertukar dengan agent adalah karena saat ini reasoning menjadi bottleneck
Kemampuan reasoning sangat penting untuk merencanakan pekerjaan, mengawasi, memverifikasi, dan menjadi lebih cerdas
Tanpa kemampuan reasoning, agent tidak bisa dibuat, tetapi ketika benchmark reasoning mencapai titik jenuh, tantangan baru akan muncul

Reasoning harus menjadi lebih murah

Agent berjalan selama berjam-jam hingga berhari-hari, atau terus-menerus 24/7 tanpa henti
Itulah esensi dari bertindak secara otonom, dan karena itu biaya pun meningkat
Saat ini, R1 sekitar 30 kali lebih murah daripada o1 sambil menawarkan performa yang mirip

# Mengapa R1 penting

R1 penting karena murah, open source, dan telah membuktikan performa yang sebanding dengan o1 dan o3
Berdasarkan dokumen yang dipublikasikan, sudah ada beberapa prediksi tentang cara kerja o1, dan paper R1 yang dirilis hampir sepenuhnya membuktikan semuanya. Karena itu kita jadi tahu bagaimana o1 berkembang menjadi o3 dan o4
Selain itu, karena open source, siapa pun di seluruh dunia bisa menjalankannya dengan ide mereka sendiri
Ini bisa dilihat dari linimasa orang-orang yang mencoba mengimplementasikan ulang R1 selama seminggu terakhir (sebagian bahkan mengklaim membuatnya hanya dengan $30)
Inovasi terjadi saat iterasi bisa dilakukan dengan cepat dan murah, dan R1 menciptakan lingkungan seperti itu
Yang paling penting, R1 menunjukkan bahwa performa reasoning yang memadai bisa dicapai bahkan dengan pendekatan RL yang sederhana, bukan lewat ide kompleks seperti DPO atau MCTS

# Tren perkembangan AI

Pretraining mencapai batas skalanya

Sejak GPT-4, mulai terlihat batas pada “scaling law” lama yang sekadar menambah data besar dan sumber daya komputasi
Karena masalah pengadaan data dan munculnya metode reasoning baru, pendekatan lama saja dinilai makin sulit menghasilkan dampak besar

Scaling law pada inference time

Model reasoning seperti o1 dan r1 cenderung “semakin baik performanya jika berpikir lebih lama”
Namun, belum jelas secara pasti bagaimana melakukan lebih banyak komputasi agar hasilnya benar-benar lebih baik
Asumsi naifnya adalah bahwa chain of thought (CoT) mungkin bisa bekerja, dan cukup melatih model agar melakukan CoT
Masalahnya adalah bagaimana menemukan jalur tercepat menuju jawaban secara efisien
- Entropix adalah salah satu ide, yang menggunakan sinyal internal model untuk menemukan jalur paling efisien
- Ada juga metode seperti Monte Carlo Tree Search (MCTS), yang menghasilkan banyak jalur tetapi hanya memilih satu jalur saja
Ternyata CoT adalah yang terbaik
- R1 melakukan chain of thought (CoT) satu jalur sederhana yang diberi RL
- Bisa diasumsikan bahwa o1 kemungkinan juga melakukan hal yang sama

Model yang diperkecil (Down-Sized Models)

Awalnya dimulai dari GPT-4-turbo, lalu GPT-4o, seri Claude, dan LLM model lainnya. Semuanya makin kecil dan makin murah sepanjang 2024
Karena untuk reasoning perlu menghasilkan banyak token, ukuran model yang lebih kecil membuat komputasi lebih cepat dan lebih efisien
“Model yang lebih kecil = lebih cerdas”

Reinforcement Learning

R1 menggunakan pendekatan RL sederhana bernama GRPO (Group Rewards Policy Optimization) untuk melatih model agar melakukan CoT saat inference
Tidak perlu verifier yang kompleks atau LLM eksternal. Cukup RL dengan fungsi reward dasar untuk akurasi dan format output
R1-Zero adalah versi R1 dari DeepSeek yang hanya menangani GRPO dan tidak mendukung fungsi lainnya
- Akurasinya lebih tinggi daripada R1, tetapi karena bebas berpindah-pindah antara berbagai bahasa seperti Inggris dan Tiongkok, model ini umumnya tidak cocok bagi pengguna biasa yang tidak multibahasa
Mengapa R1-Zero melompat antarbahasa?
- Dugaan saya: “karena tiap bahasa mengekspresikan jenis konsep yang berbeda dengan lebih efektif”
- Ada meme “what’s the german word for [paragraph of text]?”
Per 25 Januari 2025, seseorang telah mendemonstrasikan bahwa “RL apa pun bisa digunakan”
- GRPO, PPO, dan PRIME semuanya telah dicoba dan semuanya bekerja dengan baik
- Angka ajaibnya adalah 1.5B. Jika parameter model mencapai 1.5B (1,5 miliar) atau lebih, kemampuan reasoning tampaknya muncul apa pun teknik RL yang diterapkan
Sejauh mana ini akan bisa diskalakan?

Model Distillation

R1 didistilasi dari checkpoint sebelumnya miliknya sendiri
Distillation berarti satu model teacher menghasilkan data pelatihan untuk model student, dan biasanya diasumsikan teacher lebih besar daripada student
- R1 menggunakan checkpoint sebelumnya dari model yang sama untuk menghasilkan data pelatihan bagi supervised fine-tuning (SFT)
- Model ditingkatkan dengan mengulang SFT dan RL
Sejauh mana ini bisa melangkah?
Beberapa waktu lalu (9 hari yang lalu), ada prediksi bahwa GPT5 sudah ada dan GPT4o hanyalah hasil distilasinya
- Tulisan ini mengajukan teori bahwa OpenAI dan Anthropic melatih model besar, lalu mendistilasinya, dan terus membentuk siklus menggunakan model hasil distilasi untuk membangun model yang lebih besar lagi
- Saya ingin mengatakan bahwa paper R1 pada umumnya mengonfirmasi bahwa ini memang mungkin (dan karena itu kemungkinan besar benar-benar terjadi)
Jika demikian, ini bisa berlanjut untuk waktu yang sangat lama
Catatan: menurut beberapa eksperimen, model student mungkin bisa melampaui model teacher. Belum jelas seberapa sering hal itu benar-benar terjadi
- Secara intuitif, distillation bisa membantu student menemukan sinyal dan konvergen lebih cepat
- Model collapse tetap menjadi kekhawatiran terbesar, tetapi tampaknya sebagian besar itu adalah ketakutan yang tidak perlu
- Keruntuhan model tentu selalu mungkin terjadi, tetapi tidak pernah dijamin, dan ada juga jalur kebalikannya di mana student melampaui teacher

# Prospek 2025

Situasi saat ini:
- Pretraining sedang sulit (tetapi belum mati)
- Scaling reasoning
- Downsizing model
- Scaling law untuk RL
- Scaling law melalui model distillation
Kecepatan perkembangan AI tampaknya tidak melambat. Satu scaling law melambat, tetapi empat hukum baru muncul
Tren ini tampaknya akan terus makin cepat untuk sementara waktu

Isu geopolitik: Distealing

“Distealing” adalah kata yang saya ciptakan untuk “distillation tanpa izin” pada model
Kini software adalah politik, dan AI berada di pusatnya
- AI tampaknya diperhitungkan di hampir semua poros politik, dan yang paling menarik adalah Tiongkok vs Amerika Serikat
Strategi
- Amerika Serikat: dukungan dana sangat besar. Menuangkan uang ke api AI secepat mungkin
- Tiongkok: karena kontrol ekspor yang represif, mereka mengerahkan engineer dan peneliti yang lebih cerdas untuk mencari solusi yang lebih murah
- Eropa: regulasi atau open source AI, salah satu dari keduanya juga tidak masalah
Ada perdebatan apakah DeepSeek melakukan distillation tanpa izin (“distealing”) terhadap o1, tetapi mengingat adanya replika R1, saat ini makin banyak yang menilai bahwa mereka kemungkinan besar mengembangkan R1 secara mandiri
- Namun, tetap ada ketegangan karena sebuah lab Tiongkok telah menyusul model terbaik OpenAI dengan sangat cepat
AI sebentar lagi (kalau belum sekarang) akan meningkat kemampuannya dengan laju eksponensial
- Dampak politik dan geopolitiknya akan sangat besar
- Justru orang-orang yang bekerja di bidang AI perlu memberi perhatian lebih besar pada politik dan bersikap terbuka tentang kebijakan mana yang baik dan mana yang buruk

Kesimpulan

Poin terpenting adalah bahwa R1 memberikan kejelasan pada bagian-bagian yang sebelumnya tidak transparan
Karena itu, masa depan AI menjadi lebih jelas, dan lajunya tampaknya sedang bertambah cepat dengan cepat

9 komentar

xguru 2025-02-02

mammal 2025-01-27

Karena ini soal distillation, sulit untuk sekarang menyalahkannya, mengingat sejak masa awal LLaMA 1 sudah ada model Alpaca dan Vicuna yang didistilasi dari GPT, dan bahkan sekarang pun tidak ada frontier lab yang tidak melatih model dari output model lain.

Pada praktiknya, model frontier saat ini kebanyakan adalah hasil RLHF sesuai selera masing-masing lab di atas gen hasil perkawinan sedarah yang didistilasi dari GPT.

mammal 2025-01-27

Hal yang paling perlu dikhawatirkan sekarang bukanlah distilasi tanpa izin atau sensor dari Tiongkok.

Yang mengejutkan adalah bahwa MLA, MTP, mixed precision framework, dan GRPO—yang menjadi latar belakang efisiensi gila DeepSeek—dibuat murni oleh lulusan universitas Tiongkok 100%.

Di Amerika, bahkan mulai muncul istilah kejutan Sputnik kedua...

luminance 2025-01-27

Bukankah distealing itu maksudnya ingin menulis distilling?

grogu 2025-01-27

Sepertinya penulis menciptakan kata distealing untuk membedakan pencurian tanpa izin dari distilling yang berarti distilasi, sekaligus sebagai semacam permainan kata karena pengucapannya sama (hal ini disebutkan dalam artikel).

luminance 2025-01-27

Terima kasih atas penjelasannya.

savvykang 2025-01-27

> Geopolitics: Distealing
> Isu geopolitik: Distealing

> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> "Distealing" adalah istilah yang saya ciptakan untuk "distilasi tanpa izin" pada model

luminance 2025-01-27

Ternyata ada isinya di artikel asli. Terima kasih.

GN⁺ 2025-01-27

Opini Hacker News

Terkait klaim bahwa R1 menggantikan ide yang kompleks dengan reinforcement learning yang sederhana, kenyataannya model ini menggunakan campuran reinforcement learning dan supervised learning. Data yang digunakan dalam supervised learning kemungkinan dipilih oleh manusia, bukan dihasilkan oleh model
- Ada upaya untuk mereplikasi R1, dan sebagian mengklaim hal itu bisa dilakukan dengan $30, tetapi ini mungkin bukan R1 itu sendiri melainkan fine-tuning dari R1
- Hugging Face sedang mencoba mereplikasi R1, tetapi ini adalah pekerjaan yang cukup besar dan bukan sesuatu yang bisa diselesaikan hanya dengan $30
Artikel tersebut memiliki banyak muatan berlebihan sehingga sulit dipercaya
- Benchmark berbagai model berfokus pada akurasi matematika dan coding, tetapi dalam kasus penggunaan tertentu kemampuan ini tidak penting. Sulit untuk melakukan benchmark terhadap konsep
- Muncul pertanyaan apakah melalui distillation bisa dibuat model yang menghilangkan unsur matematika dan coding
Saat R1 muncul di berita arus utama, hal itu memicu kebingungan dan rasa waspada. Sulit menjelaskan bahwa China bukan sedang mengancam Amerika Serikat
- Terkait kesimpulan bahwa kemampuan AI akan meningkat secara eksponensial, satu-satunya data point adalah bahwa R1 sebagai model open source telah mencapai level o1. Ini adalah dua topik yang sangat tidak berkaitan
Muncul pertanyaan apakah AI sudah benar-benar melakukan reasoning
- ARC-AGI adalah benchmark yang sederhana bagi manusia tetapi sangat sulit bagi AI. Ada kesalahpahaman bahwa jika ini berhasil diselesaikan, berarti AI bisa melakukan hal yang sama seperti manusia
- François Chollet, pencipta ARC-AGI, menjelaskan betapa sederhananya ARC-AGI-1 dan apa arti dari menyelesaikannya
- Jika lolos ARC-AGI-1, itu menunjukkan bahwa sistem memiliki fluid intelligence non-zero, tetapi tidak menunjukkan tingkat kecerdasan sistem tersebut maupun kedekatannya dengan kecerdasan manusia
Kesimpulan bahwa kemampuan AI akan segera meningkat secara eksponensial tidak memiliki dasar yang cukup. Akan menarik jika bisa diketahui bagaimana penulis sampai pada kesimpulan itu

Penjelasan tentang R1 dan segala hal lainnya

Linimasa

# Reasoning & Agents

Model reasoning != agents

Reasoning itu penting

Reasoning harus menjadi lebih murah

# Mengapa R1 penting

# Tren perkembangan AI

Pretraining mencapai batas skalanya

Scaling law pada inference time

Model yang diperkecil (Down-Sized Models)

Reinforcement Learning

Model Distillation

# Prospek 2025

Isu geopolitik: Distealing

Kesimpulan

Bacaan terkait

9 komentar

Opini Hacker News