2 poin oleh GN⁺ 2025-08-22 | 1 komentar | Bagikan ke WhatsApp
  • DeepSeek-V3.1 merupakan langkah pertama menuju era agen generasi berikutnya
  • Dibekali fitur penalaran hibrida yang memungkinkan pemilihan dua mode secara opsional dalam satu model: Think (berbasis penalaran) dan Non-Think (tanpa penalaran)
  • Pada mode DeepSeek-V3.1-Think, jawaban yang benar dapat diperoleh dalam waktu yang lebih singkat dibanding model sebelumnya DeepSeek-R1-0528, sehingga efisiensi meningkat secara signifikan
  • Melalui post-training, kemampuan model dalam menjalankan peran pada penggunaan alat, pengoperasian sistem eksternal, dan tugas agen multilangkah meningkat secara besar-besaran
  • Pengguna dapat dengan bebas beralih antara mode Think/Non-Think melalui tombol “DeepThink” di layanan chatbot DeepSeek
  • Pembaruan API
    • Mencapai hasil yang lebih unggul pada evaluasi SWE(Software Engineering) dan Terminal-Bench
    • Penalaran multilangkah dan kemampuan pemecahan masalah sangat diperkuat untuk pencarian kompleks atau tugas multi-step
    • Efisiensi penalaran secara keseluruhan meningkat tajam
  • Perubahan paket harga (berlaku mulai 9/25)
    • API input: $0.07 per 1M token (cache hit) / $0.56 (cache miss)
    • API output: $1.68 per 1M token

1 komentar

 
GN⁺ 2025-08-22
Komentar Hacker News
  • Sudah dibuat model GGUF untuk dijalankan secara lokal; untuk mendapatkan performa yang baik dengan skema 2bit dinamis (2bit MoE, sisanya 6-8bit) dibutuhkan total sekitar 250GB RAM dan VRAM; offloading ke SSD juga dimungkinkan, tetapi lambat; untuk cara menjalankan, parameter optimal, dan detail lain, lihat dokumentasi resmi
    • Namun agak aneh bahwa unsloth, meski merupakan library Python, mencoba menjalankan apt-get dengan sudo; di nixos saya ini gagal sehingga sulit digunakan
    • Saya penasaran dengan hasil benchmark seberapa besar penurunan performa dari model asli pada kompresi 2bit dinamis seperti ini
  • Sebagai referensi, saya membagikan leaderboard terminal-bench; memang masih tertinggal jauh dari GPT-5, Claude 4, dan GLM-4.5, tetapi dibanding model open-weight lain performanya relatif cukup baik; benchmark tidak menceritakan segalanya, jadi hasil nyata baru akan terlihat seiring waktu
    • Menurut saya benchmark tersebut mencampur agent tool dan model sehingga hasilnya kurang konsisten; akan lebih bermakna jika hanya agent tool yang dibuat tetap lalu model saja yang dibandingkan; benchmark seperti ini cenderung kurang dapat dipercaya, dan lebih baik memakai modelnya langsung untuk diterapkan ke masalah sendiri
    • Dari pengalaman saya, kualitas hasilnya cukup bagus
    • Perusahaan seperti Anthropic dan OpenAI juga cenderung mengembangkan agen kustom untuk benchmark tertentu
    • Sebagai catatan, DeepSeek R1 sudah merupakan model lama yang telah digantikan; saya sudah memahami pembaruannya
    • Jika harganya tidak terlalu mahal, saya jadi tertarik meski itu model SOTA
  • Disayangkan diskon musim sepi sebelumnya sudah hilang; saat itu saya bisa menghasilkan token dalam jumlah besar dengan biaya nyaris nol; meski begitu, saya tetap tidak terlalu keberatan karena daya saing harganya masih sangat bagus
  • Menurut hasil benchmark artificialanalysis.ai, kecerdasannya kira-kira setara gpt-oss-120B tetapi sekitar 10 kali lebih lambat dan 3 kali lebih mahal
    • Sumber yang ditampilkan saat ini hanya menunjukkan satu provider tertentu; akan lebih akurat jika membandingkan gpt-oss-120B dan deepseek-chat-v3.1 dari provider yang sama; perlu diingat gpt-oss-120B diuntungkan karena sudah ada lebih banyak provider yang men-deploy dan mengoptimalkannya
  • DeepSeek V3.1 adalah model hybrid reasoning dan punya keunggulan dalam tool calling (Task Tool Calling), tetapi sering kali secara acak memakai format tool lama alih-alih format JSON standar; kemungkinan dataset pelatihan V3 memang banyak memuat materi seperti itu
    • Penasaran apakah sudah mencoba function calling strict (beta); ada panduan terkait
    • Saya penasaran format seperti apa yang dimaksud; setahu saya JSON cocok untuk memaksa output terstruktur pada LLM, jadi saya bertanya-tanya mengapa justru keluar dari JSON
  • Tampaknya masih tertinggal dibanding Qwen3 235B 2507 Reasoning (model favorit saya) atau gpt-oss-120B; lihat link benchmark dan referensi harga
    • Saya rasa lini model Qwen3 2507 adalah yang terbaik untuk lokal saat ini; dengan GPU dan RAM sekitar 32GB saja, model A3B sangat cocok untuk pekerjaan pair programming
  • Dari semua model yang saya pakai dalam 6 bulan terakhir, DeepSeek V3.1 menghasilkan halusinasi paling banyak
    • Saya penasaran context length berapa yang digunakan
    • Menanyakan apakah kali ini mungkin mengambil data yang buruk
  • Posisinya kira-kira di tengah antara V3 dan Qwen3 Coder, lihat link perbandingan
    • Sedang menanyakan apakah model gpt-5 Mini tersedia gratis
  • Di antara model open-weight terlihat kompetitif, tetapi dibanding GPT-5 atau Claude jaraknya masih besar
  • Saya belum melihat bukti bahwa ini lebih unggul dari GLM-4.5 pada tugas coding agentic
    • Sedang menanyakan apakah itu saja, atau apakah ada dasar lain yang belum terlihat di sisi berbeda