5 poin oleh GN⁺ 2025-01-22 | 4 komentar | Bagikan ke WhatsApp
  • Model penalaran generasi pertama DeepSeek, R1, memiliki performa yang sebanding dengan OpenAI-o1
    • Menunjukkan kinerja unggul dalam tugas matematika, kode, dan penalaran
  • Tersedia dalam berbagai ukuran model: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • Setiap model dioptimalkan untuk tugas tertentu
  • Lisensi
    • Disediakan di bawah lisensi MIT
    • Dapat digunakan secara gratis, termasuk untuk keperluan komersial

4 komentar

 
gadget5 2025-01-22

Jika ditanya soal identitasnya, R1 akan menjawab bahwa dirinya sama sekali tidak terkait dengan DeepSeek dan merupakan OpenAI GPT.

 
mse9000 2025-01-31

Jawaban yang menyebut data pelatihan sampai Oktober 2023 itu terasa agak aneh ..

 
GN⁺ 2025-01-22
Komentar Hacker News
  • DeepSeek V3 tampaknya mengenali sensitivitas politik. Saat ditanya, "Lapangan Tiananmen terkenal karena apa?" model ini menjawab, "Maaf, itu di luar cakupan saya saat ini"

    • Bisa dipahami bahwa perubahan perlu dilakukan untuk mengelola realitas politik, tetapi terasa tidak nyaman melihat LLM berbohong tentang topik semacam ini
    • Ingin tahu apakah ada rencana untuk membuka daftar perubahan yang diterapkan pada model karena alasan politik
    • Membuat model menjadi benar secara politik dan menutupi pembantaian adalah dua hal yang berbeda. Ini jalan yang sangat berbahaya, dan tidak akan berhenti di sini
  • Jika melihat makalah R1, bila benchmark-nya akurat, bahkan model 1.5b dan 7b pun lebih unggul daripada Claude 3.5 Sonnet. Fakta bahwa model-model ini bisa dijalankan di MacBook 8-16GB sungguh mengejutkan

  • Judulnya salah. Hanya model hasil distilasi dari llama dan qwen yang ada di ollama, bukan model resmi MoE r1 dari deepseekv3

  • Saat mencoba pertanyaan "bagaimana cara membalik list di Python" pada model 1.5b, model itu terus mengeluarkan alur pikir tanpa berhenti. Tidak berulang juga. Menarik

  • Perlu dokumentasi. Seluruh penjelasan proyek tampaknya hanya "mulai dengan model bahasa besar"

    • Sebelum memasang, ada banyak pertanyaan. Apakah terikat ke antarmuka klien, apa saja kebutuhan sistemnya, dan sebagainya
  • Menakjubkan bahwa model ini bisa dijalankan di laptop berusia 3 tahun

    • Memberikan contoh fungsi untuk menjumlahkan dua angka di Rust
    • Rust menggunakan kata kunci fn untuk mendefinisikan fungsi. Karena jenis angkanya tidak disebutkan, dibuat generik
    • Menggunakan trait Add untuk melakukan penjumlahan. Trait ini perlu diimpor dari pustaka standar
    • Signature fungsi terdiri dari fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
    • Di Rust, tipe angka yang berbeda tidak bisa dicampur, sehingga diperlukan konversi eksplisit
  • Memberikan contoh fungsi sederhana untuk menjumlahkan dua angka di Rust

    • Ini adalah fungsi yang menjumlahkan dua bilangan bulat bertipe i32
    • Dengan menggunakan generic dan trait bound, fungsi ini juga bisa menangani tipe angka lain
  • Ingin tahu opsi API berbayar apa yang tersedia untuk melakukan inferensi dengan model terbesar DeepSeek R1

    • Ingin tahu bagaimana cara melakukan fine-tuning atau reinforcement learning pada model DeepSeek R1 terbesar
  • Ingin tahu ukuran model DeepSeek R1 apa yang bisa dijalankan secara lokal jika memiliki RTX 4090 dan RAM 192GB

  • Ingin tahu ukuran model yang cocok untuk Nvidia 4070

  • Ollama hampir sempurna. Namun, tidak mendukung Vulkan adalah masalah besar