Analisis R1-Zero dan R1 dari DeepSeek
(arcprize.org)- ARC Prize Foundation bertujuan untuk mendefinisikan, mengukur, dan mendorong ide-ide baru tentang AGI (Artificial General Intelligence)
- AGI masih belum tercapai, dan perluasan pra-pelatihan LLM (large language model) murni bukanlah solusinya
- Selama 2023–24, sekitar US$20 miliar diinvestasikan ke startup LLM, sementara hanya sekitar US$200 juta yang diinvestasikan ke startup AGI
Analisis R1-Zero dan R1 dari DeepSeek
- R1-Zero dan R1 yang diumumkan oleh DeepSeek menarik perhatian besar karena menunjukkan hasil yang mendekati tingkat sistem o1 milik OpenAI
- Baik R1-Zero maupun R1 mencatat skor ARC-AGI-1 sekitar 15~20%
- Ini jauh lebih tinggi dibanding GPT-4o yang mencatat 5%
- Arus utama industri AI belakangan ini berfokus pada perluasan sederhana LLM (large language model), tetapi ini dipandang bukan sebagai solusi langsung untuk mewujudkan AGI
- Melalui benchmark ARC-AGI-1, ARC Prize Foundation mendorong penelitian sistem AI yang mampu beradaptasi meski tidak dilatih pada masalah baru sebelumnya
R1-Zero lebih penting daripada R1
- Hasil riset DeepSeek melahirkan R1-Zero dan R1
- R1-Zero, R1, dan o1(low compute) dari OpenAI sama-sama mencatat skor serupa, yakni 15~20% di ARC-AGI-1
- Sistem o3 yang dipublikasikan OpenAI pada akhir 2024 meningkatkan skor ARC-AGI-1 hingga 88%, menunjukkan kemampuan menyelesaikan masalah baru secara adaptif
- Namun, karena banyak aspek o3 yang masih tertutup, para peneliti kesulitan memahami detail teknisnya
- R1-Zero dianggap memiliki nilai masa depan yang lebih besar daripada R1 karena tidak melalui pelabelan langsung oleh manusia (SFT)
R1-Zero menghapus bottleneck manusia
-
Model penalaran sebelumnya dilatih dengan menggabungkan pelabelan manusia (SFT) atau reward mesin (RL) terhadap proses pemecahan masalah (Chain-of-Thought, selanjutnya CoT)
-
R1-Zero mempelajari CoT tanpa SFT, yaitu hanya dengan reinforcement learning (RL) tanpa label dari pakar manusia
-
Di ARC-AGI-1, R1-Zero mencatat 14% dan R1 15%, sehingga performanya hampir sama
-
Di benchmark lain seperti MATH AIME 2024, hasil R1-Zero dan R1 juga tampak serupa
-
Ada kekhawatiran tentang campuran bahasa dan masalah keterbacaan, tetapi dalam pengujian nyata model ini tetap bekerja baik di domain matematika dan coding tanpa incoherence yang besar
-
Implikasi utama yang diperoleh dari sini adalah sebagai berikut
- Bahkan tanpa pelabelan manusia, penalaran yang akurat dan dapat dipahami tetap dimungkinkan di domain tertentu
- R1-Zero dapat membangun representasi token khusus domainnya sendiri (DSL) hanya dengan reinforcement learning
- SFT mungkin masih diperlukan untuk memperluas cakupan penalaran
-
Pada akhirnya, R1-Zero menunjukkan potensi skalabilitas dengan “tanpa bottleneck manusia”, yaitu kemampuan menghasilkan data pelatihan sendiri tanpa ketergantungan pada manusia
-
Berikut adalah ringkasan skor berbagai sistem di ARC-AGI-1 beserta rata-rata jumlah token dan biaya inferensinya
- r1-zero: 14%, tanpa SFT, tanpa sequential reasoning search, rata-rata 11K token, biaya sekitar $0.11
- r1: 15.8%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 6K token, biaya sekitar $0.06
- o1(low): 20.5%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 7K token, biaya sekitar $0.43
- o1(med): 31%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 13K token, biaya sekitar $0.79
- o1(high): 35%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 22K token, biaya sekitar $1.31
- o3(low): 75.7%, menggunakan SFT, menggunakan search dan sampling, rata-rata 335K token, biaya sekitar $20
- o3(high): 87.5%, menggunakan SFT, menggunakan search dan sampling, rata-rata 57M token, biaya sekitar $3,400
Biaya untuk keandalan
- Perubahan besar dalam pasar AI saat ini adalah bahwa “dengan mengeluarkan biaya lebih besar, akurasi dan keandalan dapat ditingkatkan”
- Selain itu, bobot biaya juga sedang bergeser dari biaya pelatihan ke biaya inferensi
- Dengan memasukkan lebih banyak sumber daya komputasi pada tahap inferensi, hasil yang lebih akurat dan stabil bisa diperoleh
- Sebagian besar perusahaan belum dapat mengadopsi otomatisasi skala besar karena masalah keandalan sistem AI
- Ada prospek bahwa kemajuan di bidang ARC-AGI akan meningkatkan keandalan agen AI, dan Anthropic, OpenAI, Apple, serta lainnya juga tengah menyiapkan layanan berbasis agen
- Pengguna kemungkinan akan bersedia membayar lebih untuk mendapatkan tingkat akurasi yang mereka butuhkan
- Karena itu, permintaan inferensi AI diperkirakan akan meningkat jauh lebih besar, yang pada akhirnya akan mendorong kenaikan permintaan sumber daya komputasi
Inferensi adalah pembelajaran
- Sebelumnya, pelatihan dilakukan dengan mengumpulkan data skala besar atau menghasilkan data sintetis dari LLM yang sudah ada
- Kini, dalam proses inferensi, pengguna maupun sistem dapat benar-benar menghasilkan data baru yang valid
- Ini menandai pergeseran ekonomi baru bahwa “inferensi sekaligus menjadi pembelajaran”
- Model AI dengan banyak pengguna akan mengumpulkan lebih banyak data inferensi, dan itu sendiri akan mengarah pada peningkatan model
- Jika proses SFT (pelabelan manusia) pun menjadi tidak diperlukan, maka pembelajaran yang efisien bisa dimungkinkan hanya dengan sistem yang berulang kali melakukan pencarian, sintesis, dan verifikasi dengan biaya besar
Kesimpulan
- Seiring meningkatnya permintaan inferensi pada sistem AI, tampaknya revaluasi pasar akan terus berlangsung
- Dengan munculnya sistem R1 open source yang menggabungkan metode CoT dan teknik search, lebih banyak peneliti dan pengembang diperkirakan dapat menguji batasan dan mempercepat inovasi
- Dipublikasikannya R1-Zero dan R1 akan menjadi kontribusi besar bagi perkembangan AI global
- Karena beberapa tim menyatakan niat untuk memanfaatkan sistem seperti R1 dengan target ARC Prize 2025, hasil ke depan sangat layak dinantikan
- R1 yang dipublikasikan DeepSeek dinilai positif karena berkontribusi pada kemajuan ilmiah dengan memberikan petunjuk penting menuju AGI
1 komentar
Komentar Hacker News
Pengembang sistem AI berpotensi memicu perubahan ekonomi melalui pembuatan data baru. Pelanggan dapat menanggung biaya pembuatan data untuk meningkatkan kualitas model
Mungkin perbaikan pada model dasar tidak diperlukan, dan model umum saja bisa sudah cukup
Sistem o3 menunjukkan implementasi praktis pertama dari komputer yang beradaptasi dengan masalah baru
Ada klaim tentang penghapusan bottleneck manusia, tetapi di sebagian besar bidang selain matematika dan ilmu komputer, sulit mendefinisikan reward yang bisa diverifikasi
Dua perubahan utama sedang terjadi dalam ekonomi AI
o3 mencatat 75% pada AGI-1, sementara R1 dan o1 hanya mencapai 25%
Perpindahan banyak komputasi ke inferensi berdampak besar pada investasi AI saat ini
Mike dari Baseten menyatakan bangga bisa mendukung pekerjaan ini
R1-Zero menunjukkan rezim penskalaan potensial tanpa bottleneck manusia
R1 menunjukkan hasil yang sangat baik dalam hal performa dibanding biaya
Masa depan LLM diperkirakan ada pada aplikasi individual yang disesuaikan