3 poin oleh GN⁺ 2025-01-26 | 1 komentar | Bagikan ke WhatsApp
  • DeepSeek-R1: Penguatan Kemampuan Penalaran LLM

    • Memperkenalkan model penalaran generasi pertama bernama DeepSeek-R1-Zero dan DeepSeek-R1
    • DeepSeek-R1-Zero dilatih melalui reinforcement learning berskala besar dan menunjukkan kemampuan penalaran yang luar biasa bahkan tanpa supervised fine-tuning
    • Namun, model ini menghadapi tantangan seperti masalah keterbacaan dan pencampuran bahasa
    • Untuk mengatasi masalah ini dan meningkatkan kinerja penalaran, diperkenalkan DeepSeek-R1 yang mencakup pelatihan multi-tahap dan penggunaan data awal sebelum reinforcement learning
    • DeepSeek-R1 mencapai performa yang sebanding dengan OpenAI-o1-1217
    • Untuk mendukung komunitas riset, DeepSeek-R1-Zero, DeepSeek-R1, serta 6 model dense hasil distilasi berbasis Qwen dan Llama (1.5B, 7B, 8B, 14B, 32B, 70B) tersedia sebagai open source
  • Topik dan sitasi

    • Topik: Komputasi dan Bahasa (cs.CL); Kecerdasan Buatan (cs.AI); Pembelajaran Mesin (cs.LG)
    • Sitasi: arXiv:2501.12948 [cs.CL]
  • Riwayat pengajuan

    • Pengaju: Wenfeng Liang
    • Tanggal pengajuan: 22 Januari 2025
  • Cara mengakses

    • Makalah dapat diakses dalam berbagai format seperti PDF, HTML, sumber TeX, dan lainnya
  • Referensi dan alat sitasi

    • Menyediakan berbagai referensi dan alat sitasi
  • Kode, data, media

    • Menyediakan kode dan data terkait
  • Informasi tentang arXivLabs

    • Menyediakan penjelasan dan informasi dukungan tentang arXivLabs

1 komentar

 
GN⁺ 2025-01-26
Komentar Hacker News
  • Makalah DeepSeek V3 dianggap sebagai bacaan pendahuluan yang wajib

    • Kombinasi R1 + Sonnet lebih unggul daripada kombinasi lain
    • Berbagai studi reproduksi independen sedang dilakukan di banyak tempat
    • Distilasi R1 sangat mudah sehingga kemungkinan akan sering terjadi
    • DeepSeek-R1 menimbulkan gema besar di Silicon Valley
  • Setelah mencoba model r1-14b dari Ollama, cara model tersebut mencoba berbagai pendekatan secara real time dan memilih alternatif mengingatkan pada perilaku manusia

  • DeepSeek V3 muncul pada saat yang tepat ketika Claude Sonnet mulai bermasalah

    • Harga DeepSeek sangat murah sehingga menjadi keunggulan besar
    • Sepenuhnya beralih ke DeepSeek di Aider dan Cursor
  • Fitur chat DeepSeek lebih mudah digunakan daripada ChatGPT Pro

    • Proses berpikir model dapat dibaca sehingga memudahkan debugging
  • Terkejut bahwa proses berpikir model GPT-O1 berlangsung di dalam model itu sendiri

    • Penasaran apakah OpenAI akan mengungkap proses berpikir O1
  • Bukan hanya performa DeepSeek R1, model distilasi kecilnya juga mengesankan

    • Model distilasi 7b berbasis Qwen juga sangat bagus
    • Model distilasi 32b digunakan sebagai model default di server rumah
  • Larry Ellison dan Masayoshi Son menargetkan keabadian melalui ASI

    • Mereka melakukan investasi besar-besaran untuk mengembangkan ASI
  • Di arXiv, lebih dari 100 penulis menerbitkan makalah dengan nama tim

    • Hal ini membantu meningkatkan kerja sama tim dan moral