Apa itu Mixture of Experts (MoE) — Mengapa DeepSeek bisa berjalan murah meski memiliki 1,6 triliun parameter
(app-place-tech.com)Apa itu Mixture of Experts (MoE) — Mengapa DeepSeek bisa berjalan murah meski memiliki 1,6 triliun parameter
Artikel ini menjelaskan dengan arsitektur MoE alasan DeepSeek V4, meski memiliki 1,6 triliun parameter, dapat dilayani dengan biaya sepersepuluh dari GPT-5.5.
MoE terdiri dari beberapa submodel pakar (Expert) dan sebuah router (gating network) yang menentukan pakar mana yang akan digunakan. Intinya, pada setiap token hanya sebagian dari seluruh parameter yang diaktifkan secara selektif. Pada model padat tradisional (Dense Model), apa pun inputnya semua parameter ikut terlibat dalam komputasi, sedangkan pada MoE router memilih hanya beberapa pakar yang paling sesuai untuk memprosesnya.
Berdasarkan DeepSeek V4-Pro, dari total 1,6 triliun parameter hanya 49 miliar (sekitar 3%) yang diaktifkan per token. Artinya, model ini menyimpan pengetahuan pada skala 1,6 triliun, tetapi biaya inferensi nyatanya mirip dengan model berukuran 49 miliar. Secara umum, MoE meningkatkan price-performance sekitar 3–5 kali dibanding model padat dengan skala yang sama.
Ada juga kekurangannya. Meski komputasinya berlangsung secara sparse, parameter semua pakar tetap harus dimuat ke memori sehingga kebutuhan VRAM tinggi, dan saat pelatihan masalah ketidakseimbangan ketika beban terkonsentrasi pada pakar tertentu juga harus dikelola secara terpisah.
Per 2026, sebagian besar model frontier utama seperti GPT-4, Gemini 1.5, Mixtral, dan seri DeepSeek berbasis MoE. Ini merupakan hasil dari pergeseran fokus persaingan model AI dari sekadar ukuran ke price-performance, sehingga MoE praktis menjadi arsitektur standar.
Belum ada komentar.