- Pangu Pro MoE mengadopsi arsitektur Mixture of Grouped Experts (MoGE) yang dioptimalkan untuk lingkungan Huawei Ascend NPU, sehingga secara efektif menyelesaikan masalah ketidakseimbangan beban antar expert di lingkungan terdistribusi
- Model ini dirancang dengan total 72 miliar parameter, dan hanya 16 miliar parameter yang aktif per token, sehingga sangat meningkatkan efisiensi komputasi dan skalabilitas
- Arsitektur MoGE menerapkan distribusi dan aturan pemilihan yang seimbang untuk kelompok expert yang berbeda, sehingga mencapai keseimbangan beban sempurna di semua perangkat serta meningkatkan kecepatan inferensi dan pelatihan
- Hasil evaluasi performa menunjukkan bahwa Pangu Pro MoE melampaui model open-source utama seperti GLM-Z1-32B dan Qwen3-32B, serta menunjukkan efisiensi inferensi kelas atas dan performa biaya terbaik pada platform Ascend 300I Duo/800I A2
- Melalui pre-training, fine-tuning, dan reinforcement learning, model ini memperoleh kemampuan penalaran dan generalisasi yang kuat di beragam domain berbasis dataset berkualitas tinggi
Gambaran umum
- Baru-baru ini, dalam large language model (LLM), pendekatan Mixture of Experts (MoE) semakin diadopsi sebagai tren untuk meningkatkan parameter model dan kapasitas pelatihan tanpa menaikkan biaya komputasi
- Struktur MoE mengurangi komputasi dengan hanya mengaktifkan sebagian expert untuk tiap token input, tetapi dalam praktiknya ada fenomena ketidakseimbangan beban expert di mana hanya beberapa expert yang terus-menerus dipilih
- Masalah ini menurunkan efisiensi keseluruhan sistem ketika model didistribusikan ke banyak perangkat
- Teknik heuristik load balancing yang ada hanya memberi perbaikan parsial dan bukan solusi mendasar yang sepenuhnya tuntas
Pengenalan arsitektur Mixture of Grouped Experts (MoGE)
- MoGE membagi expert ke dalam group dengan ukuran yang sama, lalu menerapkan strategi routing seimbang per group yang memastikan hanya sejumlah expert tertentu dari tiap group yang wajib diaktifkan untuk setiap token
- Dengan cara ini, pekerjaan didistribusikan merata ke seluruh perangkat, dan Imbalance Score (IS) bernilai 0 secara desain sehingga selalu mencapai load balancing sempurna
- Untuk setiap token, skor awal semua expert dihitung dengan router Softmax global, lalu hanya expert Top-K′ dari masing-masing group yang dipilih, sedangkan skor expert yang tidak dipilih menjadi 0
- Struktur ini secara khusus memaksimalkan kecepatan inferensi dan pelatihan serta pemanfaatan sumber daya pada model besar di lingkungan terdistribusi (puluhan hingga ratusan miliar parameter)
Model Pangu Pro MoE dan optimasi platform Ascend
- Huawei mengembangkan Pangu Pro MoE yang dioptimalkan untuk platform NPU Ascend 300I Duo dan 800I A2 (total 71,9 miliar parameter, 16,5 miliar aktif per token)
- Berdasarkan simulasi sistem yang ekstensif, Huawei memaksimalkan performa dengan menyesuaikan struktur model dan berbagai parameter perangkat keras, termasuk konfigurasi paralelisme HW (tensor/expert/pipeline/virtual pipeline parallelism)
- Kernel operasi kustom (MulAttention, SwiftGMM, dll.) dioptimalkan sesuai karakteristik Ascend untuk mengurangi overhead akses memori, komunikasi, dan komputasi, sekaligus menghilangkan bottleneck per operator dan meningkatkan utilisasi bandwidth
- Hasil simulasi optimasi ukuran batch dan performa menunjukkan throughput terbaik, latency minimum, dan efisiensi komunikasi optimal dalam batasan yang ada
Pre-training dan desain data pelatihan
Komposisi data
- Dibangun dataset besar berkualitas tinggi berbasis tokenizer internal yang terdiri dari 1,3京 (13 triliun) token, dikumpulkan dari beragam sumber seperti web, buku, kode, STEM, industri, penalaran, dan data sintetis
- Tokenizer menggunakan strategi yang menekankan keseimbangan domain agar tetap representatif hingga ke domain khusus
Tahap dan strategi pelatihan
- Pre-training dilakukan dalam tiga tahap (umum, penalaran, annealing), dengan target pelatihan dan kurikulum data yang disesuaikan pada tiap tahap
- Tahap umum: memperoleh pengetahuan umum dan kemampuan bahasa lintas bidang
- Tahap penalaran: memaksimalkan porsi data penalaran kompleks seperti STEM, coding, dan masalah logika rumit
- Tahap annealing: tuning tambahan dengan data berkesulitan tinggi dan data bergaya instruksi
- Di setiap tahap, panjang sekuens, tingkat kesulitan data, ukuran batch, learning rate, dan lainnya disesuaikan secara bertahap untuk membangun kemampuan generalisasi dan spesialisasi model
Evaluasi data
- Huawei mengoperasikan sistem evaluasi multi-domain berbasis model menggunakan seri model Pangu sendiri, yang memberi skor utama seperti kebersihan, kelancaran, nilai edukatif, dan kekayaan untuk tiap data, lalu mencerminkannya dalam strategi sampling dan seleksi data
- Pelabelan rinci pada total 188 kategori diterapkan untuk mengelola distribusi dan karakteristik data
Lingkungan pre-training dan optimasi
- Pangu Pro MoE dilatih dan dievaluasi pada Huawei Ascend 800T A2, chip yang memberikan efisiensi FP16 256TFlops dan INT8 512TOPS dengan daya rendah 310W, sehingga mencapai performa AI tinggi dan efisiensi biaya
- Dengan pelatihan satu epoch, optimizer AdamW, jadwal learning rate kosinus 3 tahap, dan konfigurasi batch besar, model memperoleh generalisasi yang kuat dan kemampuan spesialisasi untuk tugas target
Post-training (fine-tuning lanjutan dan reinforcement learning)
Supervised Fine-tuning (SFT)
- Data SFT dibagi menjadi dua set, yaitu 'penalaran' dan 'non-penalaran', dengan rasio penalaran dinaikkan menjadi 3:1 untuk berfokus pada tugas kompleks seperti matematika, kode, dan penalaran logis
- Melalui strategi optimasi progresif 2 tahap (dari instruksi sederhana dalam cakupan luas menuju penalaran kompleks secara bertahap), kemampuan penalaran bertahap dan pemrosesan bahasa umum model tumbuh secara seimbang
- Selama proses SFT, strategi checkpoint merging juga ditambahkan untuk menggabungkan model dari titik-titik perantara di berbagai tahap secara efektif, sehingga memperkuat robustness dan generalisasi
Reinforcement learning (RL)
- Tahap RL berbasis reward menerapkan algoritma Group Relative Policy Optimization (GRPO) bersama teknik Zero-Advantage-Mask yang mengabaikan sampel tanpa sinyal reward, untuk mendukung eksplorasi kebijakan dan pembelajaran yang efektif
- Diperkenalkan sistem reward berlapis seperti akurasi, preferensi, dan reward tambahan; tugas matematika dan coding dinilai dengan sistem evaluasi otomatis, sedangkan tugas open-domain dievaluasi oleh penilai berbasis LLM terpisah (Preference Model)
- Melalui curriculum data mixing, distribusi kompleksitas data disesuaikan secara dinamis untuk memberi stimulus berkelanjutan terhadap pertumbuhan model
Optimasi sistem dan infrastruktur
Sistem pelatihan Ascend NPU
- Secara aktif diterapkan teknologi canggih seperti strategi Hierarchical & Hybrid Parallelism, komunikasi EP All-to-All, Adaptive Pipeline Overlap, dan operator fusion
- Efisiensi komputasi model (MFU) meningkat 35%, sementara pipeline dan virtual pipeline parallelism mendistribusikan beban komputasi dan komunikasi tiap tahap secara sempurna untuk memperkuat skalabilitas dan throughput
- Melalui kernel kustom, pemaksimalan utilisasi bandwidth HBM, serta penghapusan overhead komunikasi dan memori yang tidak perlu, performa pelatihan dan inferensi model didorong ke tingkat maksimum
- Sistem inferensi juga menunjukkan hasil throughput dan latency terbaik untuk tiap struktur hardware melalui konfigurasi paralel yang fleksibel per modul seperti Attention dan Expert (strategi H2P) serta optimasi operator yang disesuaikan
Performa dan benchmark
- Pangu Pro MoE menunjukkan performa inferensi 1148~1528 token/s per kartu di lingkungan Ascend, membuktikan hasil yang sangat unggul dibandingkan parameter sekelasnya (open dense 32B, 72B)
- Dari sisi cost-to-performance, model ini juga mencapai efisiensi luar biasa berbasis Ascend 300I Duo
- Pada berbagai benchmark eksternal (pengambilan keputusan, logika, coding, pemahaman dokumen, dll.), performanya melampaui model publik besar seperti GLM-Z1-32B, Qwen3-32B, dan Gemma3-27B
- Secara eksperimental, model ini menunjukkan diri sebagai LLM kelas tertinggi di bawah 100B parameter
Kesimpulan dan implikasi
- Pangu Pro MoE secara mendasar menyelesaikan masalah ketidakseimbangan beban melalui desain penyeimbangan group expert dalam pelatihan/inferensi terdistribusi untuk model besar
- Dengan optimasi khusus platform Ascend dan upaya menyeluruh seperti pemaksimalan kualitas data, model ini menjadi large language model generasi berikutnya yang mencapai keseimbangan tingkat tinggi antara biaya, kecepatan, dan performa generalisasi
- Struktur dan metodologi ini diharapkan menjadi referensi penting bagi ekosistem LLM terdistribusi skala besar serta berbagai penerapan industri di masa depan
1 komentar
Komentar Hacker News
Alasan pengumuman arsitektur ini sangat layak dinantikan adalah kemungkinan bahwa pengembang kecil pun bisa bersaing dengan pemain besar hanya dengan GPU murah. Pada akhirnya ini menunjukkan bahwa pengembangan AI terbuka berbasis crowdsourcing secara teknis mungkin diwujudkan. Tiongkok memang sedang meneliti bagian ini, dengan target mencapai tingkat yang mampu bersaing dengan model monolitik. Awalnya saya skeptis terhadap sanksi AS, tetapi jika ini benar-benar bisa diwujudkan secara logis, itu akan menjadi pencapaian yang luar biasa
Lisensinya melarang penggunaan dan instalasi di UE, dan saya penasaran apakah memungkinkan menulis lisensi dengan klausul seperti, "pembatasan ini hanya untuk perlindungan dan tidak akan benar-benar ditegakkan." Sepertinya ini bisa disebut sebagai ‘isolating clause’, tetapi saya tidak yakin apakah hakim akan menerimanya sebagai jalan pintas hukum. Rasanya mirip dengan konteks saat Meta merilis bobot llama. Saya pikir esensi dari AI Act Eropa adalah mengendalikan penggunaan konkret AI, dan tampaknya tidak akan mencakup sekadar distribusi bobot dan arsitektur. Larangan distribusi justru akan memberi orang Eropa lebih banyak pilihan dan persaingan, jadi saya penasaran apakah ini benar-benar dilarang secara hukum. Di sisi lain, jika memasang open-weight, saya rasa perlu berhati-hati dari sisi keamanan karena bisa muncul backdoor, yaitu kerentanan yang memungkinkan sistem dimanipulasi lewat prompt tertentu. Saya ingat pernah melihat contoh dalam makalah terkait bahwa kombinasi simbol seperti '0?,#2!' bisa membuat informasi tersembunyi LLM dapat dibaca seseorang, semacam prompt injection. Saya juga penasaran apakah serangan seperti ini bisa dicegah atau dilemahkan lewat fine-tuning atau LoRA, atau apakah ada library Python yang berguna untuk pertahanan. Pertanyaannya apakah setelah diunduh, dipasang, dan dimodifikasi lewat fine-tuning atau LoRA, perlindungan bisa diperoleh
Bobotnya bisa diambil dari gitcode
Jika saat ini LLM sudah menabrak batas skalabilitas dan ke depan efisiensi menjadi penentu, saya penasaran apakah akan muncul pasar model kecil yang berfokus pada use case tertentu. Saya benar-benar menggunakan Gemini untuk mengekstrak data terstruktur dari gambar, dan model flash sangat efektif. Saya penasaran seberapa besar usaha yang dibutuhkan untuk membuat model ringan yang hanya memenuhi kebutuhan tertentu pada perangkat kecil seperti NUC dan AMD APU. Atau menarik juga membayangkan kemungkinan munculnya perangkat seperti stik GPU eksternal mini untuk use case tertentu. Secara komersial mungkin bukan pasar besar, tetapi rasanya cukup keren
Saya rasa sanksi hanyalah solusi sementara. Idealnya itu dipakai untuk membeli waktu guna memperkuat kapasitas domestik, tetapi justru dengan pemotongan dana riset di AS dan penekanan arus masuk mahasiswa serta peneliti asing, kapasitas AS akan terkuras, sementara Tiongkok akan masuk ke lintasan pertumbuhan
Berita ini sudah beberapa hari berlalu. Untuk kabar open source model AI hibrida Tencent, lihat TechInAsia, dan turut dibagikan tautan GitHub
Sic transit gloria nvidii (demikianlah kejayaan Nvidia berlalu)
Saya punya teman orang Tiongkok. Enam tahun lalu dia bergabung sebagai insinyur pendiri di startup HW di Tiongkok. Lalu sanksi datang. Dalam pertemuan baru-baru ini dia berkata bahwa sanksi adalah peristiwa terbaik dalam hidupnya. Perusahaan-perusahaan lokal Tiongkok jadi sama sekali tidak membeli produk asal Barat, dan perusahaannya tumbuh pesat. Kini sanksi diterima semua orang sebagai sesuatu yang ‘sudah sewajarnya’, sehingga hasilnya hanyalah fokus pada kemandirian dan pertumbuhan
Saya penasaran makna semua ini setelah sanksi. Apakah ini berarti smartphone Huawei yang terkena pukulan besar akibat sanksi kini mendapat peluang untuk bangkit dengan GPU buatannya sendiri? Bagaimana performa GPU seperti ini dibanding GPU terbaru dari Barat? Apakah ini berarti Huawei sekarang punya kemampuan untuk mengomersialkan GPU ini?
Agar bisa menyaingi TSMC dan Nvidia, dunia membutuhkan terbentuknya kompetisi antara Huawei dan Tiongkok dari sisi node size