-
DeepSeek-R1: Penguatan Kemampuan Penalaran LLM
- Memperkenalkan model penalaran generasi pertama bernama DeepSeek-R1-Zero dan DeepSeek-R1
- DeepSeek-R1-Zero dilatih melalui reinforcement learning berskala besar dan menunjukkan kemampuan penalaran yang luar biasa bahkan tanpa supervised fine-tuning
- Namun, model ini menghadapi tantangan seperti masalah keterbacaan dan pencampuran bahasa
- Untuk mengatasi masalah ini dan meningkatkan kinerja penalaran, diperkenalkan DeepSeek-R1 yang mencakup pelatihan multi-tahap dan penggunaan data awal sebelum reinforcement learning
- DeepSeek-R1 mencapai performa yang sebanding dengan OpenAI-o1-1217
- Untuk mendukung komunitas riset, DeepSeek-R1-Zero, DeepSeek-R1, serta 6 model dense hasil distilasi berbasis Qwen dan Llama (1.5B, 7B, 8B, 14B, 32B, 70B) tersedia sebagai open source
-
Topik dan sitasi
- Topik: Komputasi dan Bahasa (cs.CL); Kecerdasan Buatan (cs.AI); Pembelajaran Mesin (cs.LG)
- Sitasi: arXiv:2501.12948 [cs.CL]
-
Riwayat pengajuan
- Pengaju: Wenfeng Liang
- Tanggal pengajuan: 22 Januari 2025
-
Cara mengakses
- Makalah dapat diakses dalam berbagai format seperti PDF, HTML, sumber TeX, dan lainnya
-
Referensi dan alat sitasi
- Menyediakan berbagai referensi dan alat sitasi
-
Kode, data, media
- Menyediakan kode dan data terkait
-
Informasi tentang arXivLabs
- Menyediakan penjelasan dan informasi dukungan tentang arXivLabs
1 komentar
Komentar Hacker News
Makalah DeepSeek V3 dianggap sebagai bacaan pendahuluan yang wajib
Setelah mencoba model r1-14b dari Ollama, cara model tersebut mencoba berbagai pendekatan secara real time dan memilih alternatif mengingatkan pada perilaku manusia
DeepSeek V3 muncul pada saat yang tepat ketika Claude Sonnet mulai bermasalah
Fitur chat DeepSeek lebih mudah digunakan daripada ChatGPT Pro
Terkejut bahwa proses berpikir model GPT-O1 berlangsung di dalam model itu sendiri
Bukan hanya performa DeepSeek R1, model distilasi kecilnya juga mengesankan
Larry Ellison dan Masayoshi Son menargetkan keabadian melalui ASI
Di arXiv, lebih dari 100 penulis menerbitkan makalah dengan nama tim