Analisis R1-Zero dan R1 dari DeepSeek

(arcprize.org)

5 poin oleh GN⁺ 2025-01-30 | 1 komentar | Bagikan ke WhatsApp

ARC Prize Foundation bertujuan untuk mendefinisikan, mengukur, dan mendorong ide-ide baru tentang AGI (Artificial General Intelligence)
AGI masih belum tercapai, dan perluasan pra-pelatihan LLM (large language model) murni bukanlah solusinya
Selama 2023–24, sekitar US$20 miliar diinvestasikan ke startup LLM, sementara hanya sekitar US$200 juta yang diinvestasikan ke startup AGI

Analisis R1-Zero dan R1 dari DeepSeek

R1-Zero dan R1 yang diumumkan oleh DeepSeek menarik perhatian besar karena menunjukkan hasil yang mendekati tingkat sistem o1 milik OpenAI
Baik R1-Zero maupun R1 mencatat skor ARC-AGI-1 sekitar 15~20%
Ini jauh lebih tinggi dibanding GPT-4o yang mencatat 5%
Arus utama industri AI belakangan ini berfokus pada perluasan sederhana LLM (large language model), tetapi ini dipandang bukan sebagai solusi langsung untuk mewujudkan AGI
Melalui benchmark ARC-AGI-1, ARC Prize Foundation mendorong penelitian sistem AI yang mampu beradaptasi meski tidak dilatih pada masalah baru sebelumnya

R1-Zero lebih penting daripada R1

Hasil riset DeepSeek melahirkan R1-Zero dan R1
R1-Zero, R1, dan o1(low compute) dari OpenAI sama-sama mencatat skor serupa, yakni 15~20% di ARC-AGI-1
Sistem o3 yang dipublikasikan OpenAI pada akhir 2024 meningkatkan skor ARC-AGI-1 hingga 88%, menunjukkan kemampuan menyelesaikan masalah baru secara adaptif
Namun, karena banyak aspek o3 yang masih tertutup, para peneliti kesulitan memahami detail teknisnya
R1-Zero dianggap memiliki nilai masa depan yang lebih besar daripada R1 karena tidak melalui pelabelan langsung oleh manusia (SFT)

R1-Zero menghapus bottleneck manusia

Model penalaran sebelumnya dilatih dengan menggabungkan pelabelan manusia (SFT) atau reward mesin (RL) terhadap proses pemecahan masalah (Chain-of-Thought, selanjutnya CoT)
R1-Zero mempelajari CoT tanpa SFT, yaitu hanya dengan reinforcement learning (RL) tanpa label dari pakar manusia
Di ARC-AGI-1, R1-Zero mencatat 14% dan R1 15%, sehingga performanya hampir sama
Di benchmark lain seperti MATH AIME 2024, hasil R1-Zero dan R1 juga tampak serupa
Ada kekhawatiran tentang campuran bahasa dan masalah keterbacaan, tetapi dalam pengujian nyata model ini tetap bekerja baik di domain matematika dan coding tanpa incoherence yang besar
Implikasi utama yang diperoleh dari sini adalah sebagai berikut
- Bahkan tanpa pelabelan manusia, penalaran yang akurat dan dapat dipahami tetap dimungkinkan di domain tertentu
- R1-Zero dapat membangun representasi token khusus domainnya sendiri (DSL) hanya dengan reinforcement learning
- SFT mungkin masih diperlukan untuk memperluas cakupan penalaran
Pada akhirnya, R1-Zero menunjukkan potensi skalabilitas dengan “tanpa bottleneck manusia”, yaitu kemampuan menghasilkan data pelatihan sendiri tanpa ketergantungan pada manusia
Berikut adalah ringkasan skor berbagai sistem di ARC-AGI-1 beserta rata-rata jumlah token dan biaya inferensinya
- r1-zero: 14%, tanpa SFT, tanpa sequential reasoning search, rata-rata 11K token, biaya sekitar $0.11
- r1: 15.8%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 6K token, biaya sekitar $0.06
- o1(low): 20.5%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 7K token, biaya sekitar $0.43
- o1(med): 31%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 13K token, biaya sekitar $0.79
- o1(high): 35%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 22K token, biaya sekitar $1.31
- o3(low): 75.7%, menggunakan SFT, menggunakan search dan sampling, rata-rata 335K token, biaya sekitar $20
- o3(high): 87.5%, menggunakan SFT, menggunakan search dan sampling, rata-rata 57M token, biaya sekitar $3,400

Biaya untuk keandalan

Perubahan besar dalam pasar AI saat ini adalah bahwa “dengan mengeluarkan biaya lebih besar, akurasi dan keandalan dapat ditingkatkan”
Selain itu, bobot biaya juga sedang bergeser dari biaya pelatihan ke biaya inferensi
Dengan memasukkan lebih banyak sumber daya komputasi pada tahap inferensi, hasil yang lebih akurat dan stabil bisa diperoleh
Sebagian besar perusahaan belum dapat mengadopsi otomatisasi skala besar karena masalah keandalan sistem AI
Ada prospek bahwa kemajuan di bidang ARC-AGI akan meningkatkan keandalan agen AI, dan Anthropic, OpenAI, Apple, serta lainnya juga tengah menyiapkan layanan berbasis agen
Pengguna kemungkinan akan bersedia membayar lebih untuk mendapatkan tingkat akurasi yang mereka butuhkan
Karena itu, permintaan inferensi AI diperkirakan akan meningkat jauh lebih besar, yang pada akhirnya akan mendorong kenaikan permintaan sumber daya komputasi

Inferensi adalah pembelajaran

Sebelumnya, pelatihan dilakukan dengan mengumpulkan data skala besar atau menghasilkan data sintetis dari LLM yang sudah ada
Kini, dalam proses inferensi, pengguna maupun sistem dapat benar-benar menghasilkan data baru yang valid
Ini menandai pergeseran ekonomi baru bahwa “inferensi sekaligus menjadi pembelajaran”
Model AI dengan banyak pengguna akan mengumpulkan lebih banyak data inferensi, dan itu sendiri akan mengarah pada peningkatan model
Jika proses SFT (pelabelan manusia) pun menjadi tidak diperlukan, maka pembelajaran yang efisien bisa dimungkinkan hanya dengan sistem yang berulang kali melakukan pencarian, sintesis, dan verifikasi dengan biaya besar

Kesimpulan

Seiring meningkatnya permintaan inferensi pada sistem AI, tampaknya revaluasi pasar akan terus berlangsung
Dengan munculnya sistem R1 open source yang menggabungkan metode CoT dan teknik search, lebih banyak peneliti dan pengembang diperkirakan dapat menguji batasan dan mempercepat inovasi
Dipublikasikannya R1-Zero dan R1 akan menjadi kontribusi besar bagi perkembangan AI global
Karena beberapa tim menyatakan niat untuk memanfaatkan sistem seperti R1 dengan target ARC Prize 2025, hasil ke depan sangat layak dinantikan
R1 yang dipublikasikan DeepSeek dinilai positif karena berkontribusi pada kemajuan ilmiah dengan memberikan petunjuk penting menuju AGI

1 komentar

GN⁺ 2025-01-30

Komentar Hacker News

Pengembang sistem AI berpotensi memicu perubahan ekonomi melalui pembuatan data baru. Pelanggan dapat menanggung biaya pembuatan data untuk meningkatkan kualitas model
- Namun, ada pandangan skeptis tentang apakah data tersebut benar-benar berkualitas tinggi
- Model SOTA saat ini masih berada di tingkat GPT4, dan ada kemungkinan akan berkembang lebih jauh dalam 2-3 tahun ke depan
- Menggunakan model penalaran untuk menghasilkan data lalu melatih model non-penalaran dengan data tersebut adalah ide yang menjanjikan
- Namun, masih belum diketahui seberapa baik penalaran dapat ditanamkan ke dalam bobot model
- Ada pendapat bahwa OpenAI seharusnya sudah melatih model baru menggunakan data pelatihan o3
Mungkin perbaikan pada model dasar tidak diperlukan, dan model umum saja bisa sudah cukup
- Yang penting adalah menurunkan harga model penalaran dan meningkatkan kualitasnya
Sistem o3 menunjukkan implementasi praktis pertama dari komputer yang beradaptasi dengan masalah baru
- Namun, OpenAI mengumumkan bahwa o3 dilatih dengan 75% set pelatihan publik, dan kontribusi performa dari data ARC-AGI masih belum diuji
Ada klaim tentang penghapusan bottleneck manusia, tetapi di sebagian besar bidang selain matematika dan ilmu komputer, sulit mendefinisikan reward yang bisa diverifikasi
Dua perubahan utama sedang terjadi dalam ekonomi AI
- Dengan membayar lebih, seseorang bisa mendapatkan akurasi dan keandalan yang lebih tinggi
- Biaya pelatihan sedang bergeser menjadi biaya inferensi
- Ini akan meningkatkan permintaan inferensi dan menaikkan permintaan komputasi
o3 mencatat 75% pada AGI-1, sementara R1 dan o1 hanya mencapai 25%
Perpindahan banyak komputasi ke inferensi berdampak besar pada investasi AI saat ini
- Ini adalah kabar buruk bagi NVDA, dan solusi yang berpusat pada inferensi memiliki keekonomian yang lebih baik
Mike dari Baseten menyatakan bangga bisa mendukung pekerjaan ini
R1-Zero menunjukkan rezim penskalaan potensial tanpa bottleneck manusia
- Namun, ada pertanyaan apakah pendekatan RL tetap membutuhkan banyak data manusia
R1 menunjukkan hasil yang sangat baik dalam hal performa dibanding biaya
- Menggunakan R1 sebagai generator data untuk masalah yang kompleks dianggap menjanjikan
Masa depan LLM diperkirakan ada pada aplikasi individual yang disesuaikan
- Jika Anda memberi tahu agen AI aplikasi dan kebutuhan yang diinginkan, ia akan membangun semuanya dari backend hingga frontend
- Ia akan menguji perangkat lunak, memperbaiki kesalahan, dan menerapkannya ke production
- Saat ini LLM memang belum sempurna, tetapi sistem dan alur kerja yang secara otomatis menjalankan kode, mengompilasi, dan memberi umpan balik error ke LLM sudah ada

Analisis R1-Zero dan R1 dari DeepSeek

Analisis R1-Zero dan R1 dari DeepSeek

R1-Zero lebih penting daripada R1

R1-Zero menghapus bottleneck manusia

Biaya untuk keandalan

Inferensi adalah pembelajaran

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News