DeepSeek-R1: Peningkatan Kemampuan Penalaran Model Bahasa Besar melalui Reinforcement Learning

(arxiv.org)

3 poin oleh GN⁺ 2025-01-26 | 1 komentar | Bagikan ke WhatsApp

DeepSeek-R1: Penguatan Kemampuan Penalaran LLM
- Memperkenalkan model penalaran generasi pertama bernama DeepSeek-R1-Zero dan DeepSeek-R1
- DeepSeek-R1-Zero dilatih melalui reinforcement learning berskala besar dan menunjukkan kemampuan penalaran yang luar biasa bahkan tanpa supervised fine-tuning
- Namun, model ini menghadapi tantangan seperti masalah keterbacaan dan pencampuran bahasa
- Untuk mengatasi masalah ini dan meningkatkan kinerja penalaran, diperkenalkan DeepSeek-R1 yang mencakup pelatihan multi-tahap dan penggunaan data awal sebelum reinforcement learning
- DeepSeek-R1 mencapai performa yang sebanding dengan OpenAI-o1-1217
- Untuk mendukung komunitas riset, DeepSeek-R1-Zero, DeepSeek-R1, serta 6 model dense hasil distilasi berbasis Qwen dan Llama (1.5B, 7B, 8B, 14B, 32B, 70B) tersedia sebagai open source
Topik dan sitasi
- Topik: Komputasi dan Bahasa (cs.CL); Kecerdasan Buatan (cs.AI); Pembelajaran Mesin (cs.LG)
- Sitasi: arXiv:2501.12948 [cs.CL]
Riwayat pengajuan
- Pengaju: Wenfeng Liang
- Tanggal pengajuan: 22 Januari 2025
Cara mengakses
- Makalah dapat diakses dalam berbagai format seperti PDF, HTML, sumber TeX, dan lainnya
Referensi dan alat sitasi
- Menyediakan berbagai referensi dan alat sitasi
Kode, data, media
- Menyediakan kode dan data terkait
Informasi tentang arXivLabs
- Menyediakan penjelasan dan informasi dukungan tentang arXivLabs

1 komentar

GN⁺ 2025-01-26

Makalah DeepSeek V3 dianggap sebagai bacaan pendahuluan yang wajib
- Kombinasi R1 + Sonnet lebih unggul daripada kombinasi lain
- Berbagai studi reproduksi independen sedang dilakukan di banyak tempat
- Distilasi R1 sangat mudah sehingga kemungkinan akan sering terjadi
- DeepSeek-R1 menimbulkan gema besar di Silicon Valley
Setelah mencoba model r1-14b dari Ollama, cara model tersebut mencoba berbagai pendekatan secara real time dan memilih alternatif mengingatkan pada perilaku manusia
DeepSeek V3 muncul pada saat yang tepat ketika Claude Sonnet mulai bermasalah
- Harga DeepSeek sangat murah sehingga menjadi keunggulan besar
- Sepenuhnya beralih ke DeepSeek di Aider dan Cursor
Fitur chat DeepSeek lebih mudah digunakan daripada ChatGPT Pro
- Proses berpikir model dapat dibaca sehingga memudahkan debugging
Terkejut bahwa proses berpikir model GPT-O1 berlangsung di dalam model itu sendiri
- Penasaran apakah OpenAI akan mengungkap proses berpikir O1
Bukan hanya performa DeepSeek R1, model distilasi kecilnya juga mengesankan
- Model distilasi 7b berbasis Qwen juga sangat bagus
- Model distilasi 32b digunakan sebagai model default di server rumah
Larry Ellison dan Masayoshi Son menargetkan keabadian melalui ASI
- Mereka melakukan investasi besar-besaran untuk mengembangkan ASI
Di arXiv, lebih dari 100 penulis menerbitkan makalah dengan nama tim
- Hal ini membantu meningkatkan kerja sama tim dan moral