6 poin oleh nextvine 21 hari lalu | 4 komentar | Bagikan ke WhatsApp

Apa itu Mixture of Experts (MoE) — Mengapa DeepSeek bisa berjalan murah meski memiliki 1,6 triliun parameter

Artikel ini menjelaskan dengan arsitektur MoE alasan DeepSeek V4, meski memiliki 1,6 triliun parameter, dapat dilayani dengan biaya sepersepuluh dari GPT-5.5.

MoE terdiri dari beberapa submodel pakar (Expert) dan sebuah router (gating network) yang menentukan pakar mana yang akan digunakan. Intinya, pada setiap token hanya sebagian dari seluruh parameter yang diaktifkan secara selektif. Pada model padat tradisional (Dense Model), apa pun inputnya semua parameter ikut terlibat dalam komputasi, sedangkan pada MoE router memilih hanya beberapa pakar yang paling sesuai untuk memprosesnya.

Berdasarkan DeepSeek V4-Pro, dari total 1,6 triliun parameter hanya 49 miliar (sekitar 3%) yang diaktifkan per token. Artinya, model ini menyimpan pengetahuan pada skala 1,6 triliun, tetapi biaya inferensi nyatanya mirip dengan model berukuran 49 miliar. Secara umum, MoE meningkatkan price-performance sekitar 3–5 kali dibanding model padat dengan skala yang sama.

Ada juga kekurangannya. Meski komputasinya berlangsung secara sparse, parameter semua pakar tetap harus dimuat ke memori sehingga kebutuhan VRAM tinggi, dan saat pelatihan masalah ketidakseimbangan ketika beban terkonsentrasi pada pakar tertentu juga harus dikelola secara terpisah.

Per 2026, sebagian besar model frontier utama seperti GPT-4, Gemini 1.5, Mixtral, dan seri DeepSeek berbasis MoE. Ini merupakan hasil dari pergeseran fokus persaingan model AI dari sekadar ukuran ke price-performance, sehingga MoE praktis menjadi arsitektur standar.

4 komentar

 
slowandsnow 20 hari lalu

Pada 2026 masih gpt4 gemini 1.5? Ini jelas-jelas tulisan AI slop.

 
nextvine 20 hari lalu

Untuk model-model terbaru, karena detail implementasi internalnya tidak dijelaskan secara rinci, tampaknya model-model sebelumnya muncul pada tahap penelusuran materi, dan besar kemungkinan semua model yang dirilis setelah GPT-5 mewarisi arsitektur MoE. Alasannya, model paralel open-source menggunakan struktur MoE. Untuk model closed terbaru, karena arsitekturnya tidak dipublikasikan, ini belum menjadi kesimpulan resmi yang pasti.

 
aqqnucs 20 hari lalu

Apakah itu berarti di antara model frontier utama yang menggunakan MoE, GPT-5.5 justru tidak menggunakan MoE?

 
picopress 21 hari lalu

49B juga cukup besar ya