Rilis DeepSeek-v3.1

(api-docs.deepseek.com)

2 poin oleh GN⁺ 2025-08-22 | 1 komentar | Bagikan ke WhatsApp

DeepSeek-V3.1 merupakan langkah pertama menuju era agen generasi berikutnya
Dibekali fitur penalaran hibrida yang memungkinkan pemilihan dua mode secara opsional dalam satu model: Think (berbasis penalaran) dan Non-Think (tanpa penalaran)
Pada mode DeepSeek-V3.1-Think, jawaban yang benar dapat diperoleh dalam waktu yang lebih singkat dibanding model sebelumnya DeepSeek-R1-0528, sehingga efisiensi meningkat secara signifikan
Melalui post-training, kemampuan model dalam menjalankan peran pada penggunaan alat, pengoperasian sistem eksternal, dan tugas agen multilangkah meningkat secara besar-besaran
Pengguna dapat dengan bebas beralih antara mode Think/Non-Think melalui tombol “DeepThink” di layanan chatbot DeepSeek
Pembaruan API
- Mencapai hasil yang lebih unggul pada evaluasi SWE(Software Engineering) dan Terminal-Bench
- Penalaran multilangkah dan kemampuan pemecahan masalah sangat diperkuat untuk pencarian kompleks atau tugas multi-step
- Efisiensi penalaran secara keseluruhan meningkat tajam
Perubahan paket harga (berlaku mulai 9/25)
- API input: $0.07 per 1M token (cache hit) / $0.56 (cache miss)
- API output: $1.68 per 1M token

1 komentar

GN⁺ 2025-08-22

Komentar Hacker News

Sudah dibuat model GGUF untuk dijalankan secara lokal; untuk mendapatkan performa yang baik dengan skema 2bit dinamis (2bit MoE, sisanya 6-8bit) dibutuhkan total sekitar 250GB RAM dan VRAM; offloading ke SSD juga dimungkinkan, tetapi lambat; untuk cara menjalankan, parameter optimal, dan detail lain, lihat dokumentasi resmi
- Namun agak aneh bahwa unsloth, meski merupakan library Python, mencoba menjalankan apt-get dengan sudo; di nixos saya ini gagal sehingga sulit digunakan
- Saya penasaran dengan hasil benchmark seberapa besar penurunan performa dari model asli pada kompresi 2bit dinamis seperti ini
Sebagai referensi, saya membagikan leaderboard terminal-bench; memang masih tertinggal jauh dari GPT-5, Claude 4, dan GLM-4.5, tetapi dibanding model open-weight lain performanya relatif cukup baik; benchmark tidak menceritakan segalanya, jadi hasil nyata baru akan terlihat seiring waktu
- Menurut saya benchmark tersebut mencampur agent tool dan model sehingga hasilnya kurang konsisten; akan lebih bermakna jika hanya agent tool yang dibuat tetap lalu model saja yang dibandingkan; benchmark seperti ini cenderung kurang dapat dipercaya, dan lebih baik memakai modelnya langsung untuk diterapkan ke masalah sendiri
- Dari pengalaman saya, kualitas hasilnya cukup bagus
- Perusahaan seperti Anthropic dan OpenAI juga cenderung mengembangkan agen kustom untuk benchmark tertentu
- Sebagai catatan, DeepSeek R1 sudah merupakan model lama yang telah digantikan; saya sudah memahami pembaruannya
- Jika harganya tidak terlalu mahal, saya jadi tertarik meski itu model SOTA
Disayangkan diskon musim sepi sebelumnya sudah hilang; saat itu saya bisa menghasilkan token dalam jumlah besar dengan biaya nyaris nol; meski begitu, saya tetap tidak terlalu keberatan karena daya saing harganya masih sangat bagus
Menurut hasil benchmark artificialanalysis.ai, kecerdasannya kira-kira setara gpt-oss-120B tetapi sekitar 10 kali lebih lambat dan 3 kali lebih mahal
- Sumber yang ditampilkan saat ini hanya menunjukkan satu provider tertentu; akan lebih akurat jika membandingkan gpt-oss-120B dan deepseek-chat-v3.1 dari provider yang sama; perlu diingat gpt-oss-120B diuntungkan karena sudah ada lebih banyak provider yang men-deploy dan mengoptimalkannya
DeepSeek V3.1 adalah model hybrid reasoning dan punya keunggulan dalam tool calling (Task Tool Calling), tetapi sering kali secara acak memakai format tool lama alih-alih format JSON standar; kemungkinan dataset pelatihan V3 memang banyak memuat materi seperti itu
- Penasaran apakah sudah mencoba function calling strict (beta); ada panduan terkait
- Saya penasaran format seperti apa yang dimaksud; setahu saya JSON cocok untuk memaksa output terstruktur pada LLM, jadi saya bertanya-tanya mengapa justru keluar dari JSON
Tampaknya masih tertinggal dibanding Qwen3 235B 2507 Reasoning (model favorit saya) atau gpt-oss-120B; lihat link benchmark dan referensi harga
- Saya rasa lini model Qwen3 2507 adalah yang terbaik untuk lokal saat ini; dengan GPU dan RAM sekitar 32GB saja, model A3B sangat cocok untuk pekerjaan pair programming
Dari semua model yang saya pakai dalam 6 bulan terakhir, DeepSeek V3.1 menghasilkan halusinasi paling banyak
- Saya penasaran context length berapa yang digunakan
- Menanyakan apakah kali ini mungkin mengambil data yang buruk
Posisinya kira-kira di tengah antara V3 dan Qwen3 Coder, lihat link perbandingan
- Sedang menanyakan apakah model gpt-5 Mini tersedia gratis
Di antara model open-weight terlihat kompetitif, tetapi dibanding GPT-5 atau Claude jaraknya masih besar
Saya belum melihat bukti bahwa ini lebih unggul dari GLM-4.5 pada tugas coding agentic
- Sedang menanyakan apakah itu saja, atau apakah ada dasar lain yang belum terlihat di sisi berbeda

Rilis DeepSeek-v3.1

Bacaan terkait

1 komentar

Komentar Hacker News