DeepSeek R1 Resmi Terdaftar di Ollama

(ollama.com)

5 poin oleh GN⁺ 2025-01-22 | 4 komentar | Bagikan ke WhatsApp

Model penalaran generasi pertama DeepSeek, R1, memiliki performa yang sebanding dengan OpenAI-o1
- Menunjukkan kinerja unggul dalam tugas matematika, kode, dan penalaran
Tersedia dalam berbagai ukuran model: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- Setiap model dioptimalkan untuk tugas tertentu
Lisensi
- Disediakan di bawah lisensi MIT
- Dapat digunakan secara gratis, termasuk untuk keperluan komersial

4 komentar

gadget5 2025-01-22

Jika ditanya soal identitasnya, R1 akan menjawab bahwa dirinya sama sekali tidak terkait dengan DeepSeek dan merupakan OpenAI GPT.

mse9000 2025-01-31

Jawaban yang menyebut data pelatihan sampai Oktober 2023 itu terasa agak aneh ..

xguru 2025-01-22

Model DeepSeek-R1 dirilis

GN⁺ 2025-01-22

Komentar Hacker News

DeepSeek V3 tampaknya mengenali sensitivitas politik. Saat ditanya, "Lapangan Tiananmen terkenal karena apa?" model ini menjawab, "Maaf, itu di luar cakupan saya saat ini"
- Bisa dipahami bahwa perubahan perlu dilakukan untuk mengelola realitas politik, tetapi terasa tidak nyaman melihat LLM berbohong tentang topik semacam ini
- Ingin tahu apakah ada rencana untuk membuka daftar perubahan yang diterapkan pada model karena alasan politik
- Membuat model menjadi benar secara politik dan menutupi pembantaian adalah dua hal yang berbeda. Ini jalan yang sangat berbahaya, dan tidak akan berhenti di sini
Jika melihat makalah R1, bila benchmark-nya akurat, bahkan model 1.5b dan 7b pun lebih unggul daripada Claude 3.5 Sonnet. Fakta bahwa model-model ini bisa dijalankan di MacBook 8-16GB sungguh mengejutkan
Judulnya salah. Hanya model hasil distilasi dari llama dan qwen yang ada di ollama, bukan model resmi MoE r1 dari deepseekv3
Saat mencoba pertanyaan "bagaimana cara membalik list di Python" pada model 1.5b, model itu terus mengeluarkan alur pikir tanpa berhenti. Tidak berulang juga. Menarik
Perlu dokumentasi. Seluruh penjelasan proyek tampaknya hanya "mulai dengan model bahasa besar"
- Sebelum memasang, ada banyak pertanyaan. Apakah terikat ke antarmuka klien, apa saja kebutuhan sistemnya, dan sebagainya
Menakjubkan bahwa model ini bisa dijalankan di laptop berusia 3 tahun
- Memberikan contoh fungsi untuk menjumlahkan dua angka di Rust
- Rust menggunakan kata kunci fn untuk mendefinisikan fungsi. Karena jenis angkanya tidak disebutkan, dibuat generik
- Menggunakan trait Add untuk melakukan penjumlahan. Trait ini perlu diimpor dari pustaka standar
- Signature fungsi terdiri dari fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
- Di Rust, tipe angka yang berbeda tidak bisa dicampur, sehingga diperlukan konversi eksplisit
Memberikan contoh fungsi sederhana untuk menjumlahkan dua angka di Rust
- Ini adalah fungsi yang menjumlahkan dua bilangan bulat bertipe i32
- Dengan menggunakan generic dan trait bound, fungsi ini juga bisa menangani tipe angka lain
Ingin tahu opsi API berbayar apa yang tersedia untuk melakukan inferensi dengan model terbesar DeepSeek R1
- Ingin tahu bagaimana cara melakukan fine-tuning atau reinforcement learning pada model DeepSeek R1 terbesar
Ingin tahu ukuran model DeepSeek R1 apa yang bisa dijalankan secara lokal jika memiliki RTX 4090 dan RAM 192GB
Ingin tahu ukuran model yang cocok untuk Nvidia 4070
Ollama hampir sempurna. Namun, tidak mendukung Vulkan adalah masalah besar

DeepSeek R1 Resmi Terdaftar di Ollama

Bacaan terkait

4 komentar

Komentar Hacker News