- DeepSeek merilis dua model pratinjau pertama seri V4, yaitu DeepSeek-V4-Pro dan DeepSeek-V4-Flash. Keduanya adalah model Mixture of Experts yang mendukung konteks 1 juta token dan tersedia dengan lisensi MIT
- DeepSeek-V4-Pro adalah model dengan total 1.6T parameter dan 49B parameter aktif, dan tampaknya menjadi model open-weight terbesar yang baru, melampaui Kimi K2.6, GLM-5.1, dan DeepSeek V3.2
- Pembeda utama DeepSeek V4 adalah harga: Flash dibanderol $0.14 per 1 juta token input dan $0.28 output, sementara Pro $1.74 input dan $3.48 output, lebih murah dibanding model kecil maupun besar pembanding
- Harga rendah ini terkait dengan efisiensi konteks panjang; pada konteks 1 juta token, Pro turun hingga 27% FLOPs per token tunggal dan 10% KV cache dibanding DeepSeek-V3.2, sementara Flash turun hingga 10% FLOPs dan 7% KV cache
- Dalam benchmark internal, DeepSeek-V4-Pro cukup kompetitif melawan model frontier, tetapi masih sedikit di bawah GPT-5.4 dan Gemini-3.1-Pro, dengan lintasan pengembangan sekitar 3–6 bulan di belakang model frontier terdepan
Perilisan model dan spesifikasi dasar
- DeepSeek merilis dua model pratinjau pertama seri V4, DeepSeek-V4-Pro dan DeepSeek-V4-Flash, setelah V3.2 dan V3.2 Speciale pada Desember 2025
- Kedua model adalah model Mixture of Experts yang mendukung konteks 1 juta token, dan menggunakan lisensi MIT standar
- DeepSeek-V4-Pro memiliki total 1.6T parameter dengan 49B parameter aktif, sedangkan DeepSeek-V4-Flash memiliki total 284B parameter dengan 13B parameter aktif
- DeepSeek-V4-Pro lebih besar daripada 1.1T milik Kimi K2.6, 754B milik GLM-5.1, dan 685B milik DeepSeek V3.2, sehingga tampak menjadi model open-weight terbesar yang baru
- Berdasarkan Hugging Face, ukuran model Pro adalah 865GB dan Flash 160GB. Flash yang di-kuantisasi ringan diperkirakan dapat dijalankan pada MacBook Pro M5 128GB
- Model Pro juga mungkin bisa dijalankan pada mesin yang sama jika hanya expert aktif yang diperlukan dapat di-streaming dari disk
-
Pengujian singkat lewat OpenRouter
Harga, efisiensi, dan posisi performa
- Elemen yang paling menonjol dari DeepSeek V4 adalah harga. Berdasarkan halaman harga DeepSeek, Flash dikenai $0.14 per 1 juta token input dan $0.28 per 1 juta token output
- Pro dibanderol $1.74 per 1 juta token input dan $3.48 per 1 juta token output
- Dalam tabel perbandingan, DeepSeek V4 Flash lebih murah daripada GPT-5.4 Nano dengan input $0.20 dan output $1.25, serta Gemini 3.1 Flash-Lite dengan input $0.25 dan output $1.50, menjadikannya yang termurah di antara model kecil
- DeepSeek V4 Pro lebih murah daripada Gemini 3.1 Pro dengan input $2 dan output $12, GPT-5.4 dengan input $2.50 dan output $15, Claude Sonnet 4.6 dengan input $3 dan output $15, Claude Opus 4.7 dengan input $5 dan output $25, serta GPT-5.5 dengan input $5 dan output $30, menjadikannya yang termurah di antara model frontier besar
-
Efisiensi menopang harga rendah
- Makalah DeepSeek menyatakan bahwa rilis kali ini sangat berfokus pada efisiensi prompt berkonteks panjang
- Pada konteks 1 juta token, DeepSeek-V4-Pro hanya membutuhkan 27% FLOPs per token tunggal dan ukuran KV cache 10% dibanding DeepSeek-V3.2
- Dalam kondisi yang sama, DeepSeek-V4-Flash turun hingga hanya 10% FLOPs per token tunggal dan ukuran KV cache 7% dibanding DeepSeek-V3.2
-
Dalam benchmark mendekati frontier, tetapi masih tertinggal dari level teratas
- Benchmark self-report DeepSeek menunjukkan bahwa model Pro mampu bersaing dengan model frontier lain
- Menurut makalah tersebut, DeepSeek-V4-Pro-Max dengan perluasan token penalaran menunjukkan performa lebih tinggi daripada GPT-5.2 dan Gemini-3.0-Pro pada benchmark penalaran standar
- Namun, performanya masih sedikit di bawah GPT-5.4 dan Gemini-3.1-Pro, serta menunjukkan lintasan pengembangan sekitar 3–6 bulan di belakang model frontier tercanggih
- Versi kuantisasi dari Unsloth di huggingface.co/unsloth/models diharapkan akan tersedia, dan seberapa baik model Flash berjalan di mesin lokal masih menjadi hal yang menarik untuk diperhatikan
Belum ada komentar.