7 poin oleh ragingwind 12 jam lalu | 3 komentar | Bagikan ke WhatsApp

DeepSeek-V4 menunjukkan inovasi arsitektur dan koordinat baru bagi frontier lab. Pada pekan keempat April 2026, di tengah rangkaian pengumuman besar seperti GPT-5.5 dan Google Cloud Next, peristiwa yang paling menonjol adalah rilis DeepSeek-V4. Model ini muncul sekitar 1 tahun 4 bulan setelah R1, memperbesar skala dari 600B pada V3 menjadi 1.6T, dengan peningkatan kecil pada parameter aktif. Yang paling penting, tiga perubahan algoritmik diterapkan sekaligus: Sparse Attention, mHC (Manifold-Constrained Hyper-Connections), dan optimizer Muon. Hasilnya dirangkum rapat dalam paper sekitar 40 halaman. Noh Seong-hoon dan Noh Jung-seok menilai laporan ini bukan sekadar pamer kinerja, melainkan catatan atas trial and error yang menyakitkan selama satu tahun.

Perubahan arsitektur inti

  • Penerapan penuh Sparse Attention: Alih-alih merujuk semua token sebelumnya seperti pendekatan lama, model ini diubah agar hanya memilih dan merujuk sebagian token yang bermakna. Strukturnya menggabungkan tiga hal: sliding window attention, full attention pada token yang dikompresi hingga 1/100, dan Compressed Sparse Attention yang mengompresi hingga 1/4 lalu memilih top-k dengan Lightning Indexer.
  • Penerapan mHC: Struktur yang menstabilkan Hyper-Connections di atas manifold dengan memperluas jalur residual connection, inti dari deep learning, sehingga batasannya lebih longgar.
  • Mengadopsi optimizer Muon: Optimizer yang praktis menjadi standar de facto pada model-model Tiongkok setelah Adam, yang meningkatkan kecepatan pelatihan sekaligus efisiensi data.
  • Menghapus MLA: DeepSeek meninggalkan MLA yang sempat menjadi ciri khasnya dan beralih ke Multi-Query Attention yang lebih sederhana.

Kelebihan dan karakteristik utama

  • Biaya long context turun tajam: Meski modelnya 2.5~3 kali lebih besar dibanding V3, komputasi operasi token turun menjadi sekitar 27%, dan memori KV cache turun hingga sekitar 10%.
  • Pelatihan long context sejak tahap pretraining: 1T token awal dilatih pada 4K~16K, lalu lebih dari 30T token berikutnya dilatih pada 64K ke atas. Ini berbeda dari praktik umum yang memperpanjang konteks di tahap pascaproses.
  • Kedalaman optimasi infrastruktur: Berbagai optimasi diterapkan rapat, seperti overlap komunikasi dan komputasi MoE yang ditingkatkan dari Comet milik ByteDance, megakernel yang didorong sampai memicu power throttling, kontribusi ke TileLang, optimasi besar pada batch invariance kernel, serta kompresi bobot expert dengan MXFP4 (4-bit).
  • Kepemimpinan algoritmik: Di tengah situasi ketika big tech AS tidak membuka arsitekturnya, ada penilaian bahwa setidaknya pada wilayah pretraining, levelnya setara atau sebagian bahkan di depan.

Kekurangan dan batasan

  • Ketidakstabilan pelatihan: Berbeda dengan tren terbaru para pengembang LLM yang mengatakan pelatihan kini sangat stabil, DeepSeek-V4 secara jujur menunjukkan bahwa mereka berkali-kali mengalami masalah ketidakstabilan. Mereka sampai memakai perangkat yang rumit seperti modifikasi gating MoE, clamping, dan Anticipatory Routing yang melakukan routing memakai bobot dari titik waktu sebelumnya.
  • Sulit direproduksi: Kesimpulan umum dari tim-tim lain di Tiongkok adalah bahwa melatih Sparse Attention nyaris dari nol sangat sulit. Meski DeepSeek berhasil, kemungkinan besar tim lain tidak akan mudah menyusul.
  • Keterbatasan pada post-training: Dibanding lompatan di pretraining, post-training dinilai masih menyisakan ruang penguatan yang cukup besar. Ini area yang kemungkinan besar bisa diperbaiki pada tahap 4.1 dan 4.2.
  • Diam soal data: Mereka hanya menyebut telah menyiapkan 32T token, namun hampir tidak menjelaskan komposisi data secara rinci, termasuk apakah menggunakan data sintetis atau tidak.

Pembeda

  • Keterbukaan yang transparan: Berbeda dari frontier lab lain yang menyembunyikan arsitektur, mereka memaparkan struktur dan trial and error dengan relatif jujur.
  • Desain terintegrasi pada tahap pretraining: Yang menonjol adalah long context, Sparse Attention, dan kuantisasi FP4 sudah diintegrasikan ke pretraining, bukan ditambahkan belakangan.
  • Diversifikasi hardware: Mereka mengungkap penggunaan chip Huawei bersamaan dengan chip NVIDIA, memberi sinyal bahwa alternatif semikonduktor di Tiongkok mulai mengakar.

Makna dari sudut pandang industri

  • Perubahan lanskap frontier lab Tiongkok: Muncul pandangan bahwa hampir lima tim—DeepSeek, Kimi, Z.ai (GLM), Tencent Hunyuan 3, dan Xiaomi MiMo—kini tampil di garis depan secara bersamaan, dan dalam aspek pretraining ada area yang setara dengan AS atau sebagian melampauinya.
  • Post-training menjadi medan tempur berikutnya: Tampaknya waktu ketika komputasi setara pretraining mulai dialokasikan ke post-training akan segera tiba, dan selisih di area ini bisa menjadi penentu generasi berikutnya.
  • Pembaruan model menjadi hal biasa: Ketika GPT-5.5, Claude Mythos, Spud, dan DeepSeek-V4 mengganti base model pada periode yang mirip, muncul gejala bahwa pembaruan model makin terasa biasa saja, seperti update browser Chrome.

DeepSeek-V4 kali ini lebih mirip dokumen yang memperlihatkan bagaimana satu tim menerobos berbagai masalah sulit selama satu tahun, ketimbang sekadar kumpulan metrik performa sebuah model tunggal. Upaya membawa Sparse Attention sejak tahap pretraining, pekerjaan infrastruktur yang menurunkan biaya long context ke rasio satu digit pada skala 1.6T, serta perangkat-perangkat tidak lazim yang diperkenalkan sambil bergulat dengan ketidakstabilan pelatihan, semuanya berpotensi menjadi basis baru bagi model frontier asal Tiongkok ke depan. Pada saat yang sama, tantangan yang tersisa pada post-training dan data masih jelas terlihat, sehingga seberapa jauh 4.1 dan 4.2 bisa memperkecil kesenjangan ini tampaknya akan menjadi poin pengamatan utama pada kuartal berikutnya.

3 komentar

 
junghwanlee 10 jam lalu

Bukan No Seong-hun, melainkan Kim Seong-hyeon.

 
xguru 9 jam lalu

Saya sudah merevisinya.

 
ragingwind 10 jam lalu

Terima kasih. Sepertinya ini perlu diperbaiki.