Huawei merilis model open-weight yang dilatih di GPU Ascend

(arxiv.org)

2 poin oleh GN⁺ 2025-07-03 | 1 komentar | Bagikan ke WhatsApp

Pangu Pro MoE mengadopsi arsitektur Mixture of Grouped Experts (MoGE) yang dioptimalkan untuk lingkungan Huawei Ascend NPU, sehingga secara efektif menyelesaikan masalah ketidakseimbangan beban antar expert di lingkungan terdistribusi
Model ini dirancang dengan total 72 miliar parameter, dan hanya 16 miliar parameter yang aktif per token, sehingga sangat meningkatkan efisiensi komputasi dan skalabilitas
Arsitektur MoGE menerapkan distribusi dan aturan pemilihan yang seimbang untuk kelompok expert yang berbeda, sehingga mencapai keseimbangan beban sempurna di semua perangkat serta meningkatkan kecepatan inferensi dan pelatihan
Hasil evaluasi performa menunjukkan bahwa Pangu Pro MoE melampaui model open-source utama seperti GLM-Z1-32B dan Qwen3-32B, serta menunjukkan efisiensi inferensi kelas atas dan performa biaya terbaik pada platform Ascend 300I Duo/800I A2
Melalui pre-training, fine-tuning, dan reinforcement learning, model ini memperoleh kemampuan penalaran dan generalisasi yang kuat di beragam domain berbasis dataset berkualitas tinggi

Gambaran umum

Baru-baru ini, dalam large language model (LLM), pendekatan Mixture of Experts (MoE) semakin diadopsi sebagai tren untuk meningkatkan parameter model dan kapasitas pelatihan tanpa menaikkan biaya komputasi
Struktur MoE mengurangi komputasi dengan hanya mengaktifkan sebagian expert untuk tiap token input, tetapi dalam praktiknya ada fenomena ketidakseimbangan beban expert di mana hanya beberapa expert yang terus-menerus dipilih
Masalah ini menurunkan efisiensi keseluruhan sistem ketika model didistribusikan ke banyak perangkat
Teknik heuristik load balancing yang ada hanya memberi perbaikan parsial dan bukan solusi mendasar yang sepenuhnya tuntas

Pengenalan arsitektur Mixture of Grouped Experts (MoGE)

MoGE membagi expert ke dalam group dengan ukuran yang sama, lalu menerapkan strategi routing seimbang per group yang memastikan hanya sejumlah expert tertentu dari tiap group yang wajib diaktifkan untuk setiap token
Dengan cara ini, pekerjaan didistribusikan merata ke seluruh perangkat, dan Imbalance Score (IS) bernilai 0 secara desain sehingga selalu mencapai load balancing sempurna
Untuk setiap token, skor awal semua expert dihitung dengan router Softmax global, lalu hanya expert Top-K′ dari masing-masing group yang dipilih, sedangkan skor expert yang tidak dipilih menjadi 0
Struktur ini secara khusus memaksimalkan kecepatan inferensi dan pelatihan serta pemanfaatan sumber daya pada model besar di lingkungan terdistribusi (puluhan hingga ratusan miliar parameter)

Model Pangu Pro MoE dan optimasi platform Ascend

Huawei mengembangkan Pangu Pro MoE yang dioptimalkan untuk platform NPU Ascend 300I Duo dan 800I A2 (total 71,9 miliar parameter, 16,5 miliar aktif per token)
Berdasarkan simulasi sistem yang ekstensif, Huawei memaksimalkan performa dengan menyesuaikan struktur model dan berbagai parameter perangkat keras, termasuk konfigurasi paralelisme HW (tensor/expert/pipeline/virtual pipeline parallelism)
Kernel operasi kustom (MulAttention, SwiftGMM, dll.) dioptimalkan sesuai karakteristik Ascend untuk mengurangi overhead akses memori, komunikasi, dan komputasi, sekaligus menghilangkan bottleneck per operator dan meningkatkan utilisasi bandwidth
Hasil simulasi optimasi ukuran batch dan performa menunjukkan throughput terbaik, latency minimum, dan efisiensi komunikasi optimal dalam batasan yang ada

Pre-training dan desain data pelatihan

Komposisi data

Dibangun dataset besar berkualitas tinggi berbasis tokenizer internal yang terdiri dari 1,3京 (13 triliun) token, dikumpulkan dari beragam sumber seperti web, buku, kode, STEM, industri, penalaran, dan data sintetis
Tokenizer menggunakan strategi yang menekankan keseimbangan domain agar tetap representatif hingga ke domain khusus

Tahap dan strategi pelatihan

Pre-training dilakukan dalam tiga tahap (umum, penalaran, annealing), dengan target pelatihan dan kurikulum data yang disesuaikan pada tiap tahap
- Tahap umum: memperoleh pengetahuan umum dan kemampuan bahasa lintas bidang
- Tahap penalaran: memaksimalkan porsi data penalaran kompleks seperti STEM, coding, dan masalah logika rumit
- Tahap annealing: tuning tambahan dengan data berkesulitan tinggi dan data bergaya instruksi
Di setiap tahap, panjang sekuens, tingkat kesulitan data, ukuran batch, learning rate, dan lainnya disesuaikan secara bertahap untuk membangun kemampuan generalisasi dan spesialisasi model

Evaluasi data

Huawei mengoperasikan sistem evaluasi multi-domain berbasis model menggunakan seri model Pangu sendiri, yang memberi skor utama seperti kebersihan, kelancaran, nilai edukatif, dan kekayaan untuk tiap data, lalu mencerminkannya dalam strategi sampling dan seleksi data
Pelabelan rinci pada total 188 kategori diterapkan untuk mengelola distribusi dan karakteristik data

Lingkungan pre-training dan optimasi

Pangu Pro MoE dilatih dan dievaluasi pada Huawei Ascend 800T A2, chip yang memberikan efisiensi FP16 256TFlops dan INT8 512TOPS dengan daya rendah 310W, sehingga mencapai performa AI tinggi dan efisiensi biaya
Dengan pelatihan satu epoch, optimizer AdamW, jadwal learning rate kosinus 3 tahap, dan konfigurasi batch besar, model memperoleh generalisasi yang kuat dan kemampuan spesialisasi untuk tugas target

Post-training (fine-tuning lanjutan dan reinforcement learning)

Supervised Fine-tuning (SFT)

Data SFT dibagi menjadi dua set, yaitu 'penalaran' dan 'non-penalaran', dengan rasio penalaran dinaikkan menjadi 3:1 untuk berfokus pada tugas kompleks seperti matematika, kode, dan penalaran logis
Melalui strategi optimasi progresif 2 tahap (dari instruksi sederhana dalam cakupan luas menuju penalaran kompleks secara bertahap), kemampuan penalaran bertahap dan pemrosesan bahasa umum model tumbuh secara seimbang
Selama proses SFT, strategi checkpoint merging juga ditambahkan untuk menggabungkan model dari titik-titik perantara di berbagai tahap secara efektif, sehingga memperkuat robustness dan generalisasi

Reinforcement learning (RL)

Tahap RL berbasis reward menerapkan algoritma Group Relative Policy Optimization (GRPO) bersama teknik Zero-Advantage-Mask yang mengabaikan sampel tanpa sinyal reward, untuk mendukung eksplorasi kebijakan dan pembelajaran yang efektif
Diperkenalkan sistem reward berlapis seperti akurasi, preferensi, dan reward tambahan; tugas matematika dan coding dinilai dengan sistem evaluasi otomatis, sedangkan tugas open-domain dievaluasi oleh penilai berbasis LLM terpisah (Preference Model)
Melalui curriculum data mixing, distribusi kompleksitas data disesuaikan secara dinamis untuk memberi stimulus berkelanjutan terhadap pertumbuhan model

Optimasi sistem dan infrastruktur

Sistem pelatihan Ascend NPU

Secara aktif diterapkan teknologi canggih seperti strategi Hierarchical & Hybrid Parallelism, komunikasi EP All-to-All, Adaptive Pipeline Overlap, dan operator fusion
Efisiensi komputasi model (MFU) meningkat 35%, sementara pipeline dan virtual pipeline parallelism mendistribusikan beban komputasi dan komunikasi tiap tahap secara sempurna untuk memperkuat skalabilitas dan throughput
Melalui kernel kustom, pemaksimalan utilisasi bandwidth HBM, serta penghapusan overhead komunikasi dan memori yang tidak perlu, performa pelatihan dan inferensi model didorong ke tingkat maksimum
Sistem inferensi juga menunjukkan hasil throughput dan latency terbaik untuk tiap struktur hardware melalui konfigurasi paralel yang fleksibel per modul seperti Attention dan Expert (strategi H2P) serta optimasi operator yang disesuaikan

Performa dan benchmark

Pangu Pro MoE menunjukkan performa inferensi 1148~1528 token/s per kartu di lingkungan Ascend, membuktikan hasil yang sangat unggul dibandingkan parameter sekelasnya (open dense 32B, 72B)
Dari sisi cost-to-performance, model ini juga mencapai efisiensi luar biasa berbasis Ascend 300I Duo
Pada berbagai benchmark eksternal (pengambilan keputusan, logika, coding, pemahaman dokumen, dll.), performanya melampaui model publik besar seperti GLM-Z1-32B, Qwen3-32B, dan Gemma3-27B
Secara eksperimental, model ini menunjukkan diri sebagai LLM kelas tertinggi di bawah 100B parameter

Kesimpulan dan implikasi

Pangu Pro MoE secara mendasar menyelesaikan masalah ketidakseimbangan beban melalui desain penyeimbangan group expert dalam pelatihan/inferensi terdistribusi untuk model besar
Dengan optimasi khusus platform Ascend dan upaya menyeluruh seperti pemaksimalan kualitas data, model ini menjadi large language model generasi berikutnya yang mencapai keseimbangan tingkat tinggi antara biaya, kecepatan, dan performa generalisasi
Struktur dan metodologi ini diharapkan menjadi referensi penting bagi ekosistem LLM terdistribusi skala besar serta berbagai penerapan industri di masa depan

1 komentar

GN⁺ 2025-07-03

Komentar Hacker News

Alasan pengumuman arsitektur ini sangat layak dinantikan adalah kemungkinan bahwa pengembang kecil pun bisa bersaing dengan pemain besar hanya dengan GPU murah. Pada akhirnya ini menunjukkan bahwa pengembangan AI terbuka berbasis crowdsourcing secara teknis mungkin diwujudkan. Tiongkok memang sedang meneliti bagian ini, dengan target mencapai tingkat yang mampu bersaing dengan model monolitik. Awalnya saya skeptis terhadap sanksi AS, tetapi jika ini benar-benar bisa diwujudkan secara logis, itu akan menjadi pencapaian yang luar biasa
- Saya rasa sanksi itu, tanpa maksud menyindir, benar-benar bisa mengarahkan dunia ke arah yang lebih baik dalam banyak hal. Mendorong berbagai perbaikan seperti diversifikasi komputasi dan desentralisasi manufaktur
- Deepseek-R1 sudah berada di level yang mirip dengan GPT 4.1. Tersedia dalam bentuk open-weight, open-source, dan bahkan kode inferensinya juga dirilis sebagai open source
- Saya juga tertarik pada jaringan pelatihan GPU terbuka peer-to-peer seperti SETI@Home
- Untuk pertanyaan apakah AI terbuka berbasis crowdsourcing memungkinkan secara teknis, sudah ada contoh bahwa itu memang memungkinkan, yaitu tautan ke Intellect-2 dari PrimeIntellect.ai
- Menurut saya ini perkembangan yang menarik. Tetapi apakah ini hal yang baik atau tidak bergantung pada apakah teknologi AI akan menjadi ancaman eksistensial bagi kelangsungan hidup manusia. Ini mungkin terdengar terlalu berlebihan, tetapi sebenarnya banyak orang yang memikirkannya dengan sangat serius
Lisensinya melarang penggunaan dan instalasi di UE, dan saya penasaran apakah memungkinkan menulis lisensi dengan klausul seperti, "pembatasan ini hanya untuk perlindungan dan tidak akan benar-benar ditegakkan." Sepertinya ini bisa disebut sebagai ‘isolating clause’, tetapi saya tidak yakin apakah hakim akan menerimanya sebagai jalan pintas hukum. Rasanya mirip dengan konteks saat Meta merilis bobot llama. Saya pikir esensi dari AI Act Eropa adalah mengendalikan penggunaan konkret AI, dan tampaknya tidak akan mencakup sekadar distribusi bobot dan arsitektur. Larangan distribusi justru akan memberi orang Eropa lebih banyak pilihan dan persaingan, jadi saya penasaran apakah ini benar-benar dilarang secara hukum. Di sisi lain, jika memasang open-weight, saya rasa perlu berhati-hati dari sisi keamanan karena bisa muncul backdoor, yaitu kerentanan yang memungkinkan sistem dimanipulasi lewat prompt tertentu. Saya ingat pernah melihat contoh dalam makalah terkait bahwa kombinasi simbol seperti '0?,#2!' bisa membuat informasi tersembunyi LLM dapat dibaca seseorang, semacam prompt injection. Saya juga penasaran apakah serangan seperti ini bisa dicegah atau dilemahkan lewat fine-tuning atau LoRA, atau apakah ada library Python yang berguna untuk pertahanan. Pertanyaannya apakah setelah diunduh, dipasang, dan dimodifikasi lewat fine-tuning atau LoRA, perlindungan bisa diperoleh
- Huawei tidak punya hak untuk mengendalikan perilaku warga UE, dan sebenarnya menurut saya mereka tidak perlu repot memasukkan pembatasan seperti ini. Sebagai warga UE, cara melindungi diri adalah memahami hukum sendiri dan menghindari model yang berisiko
- Dari sisi keamanan, jangan percaya semua kode yang dibuat LLM dan selalu perlu ditinjau
- Sebagai contoh kondisi yang mirip dengan ‘isolating clause’, dijelaskan lisensi codec dari Alliance for Open Media. Codec itu bebas royalti, tetapi menurut syarat lisensinya, hak penggunaan akan dicabut bila pengguna mengajukan gugatan hukum terkait penggunaan format tersebut
Bobotnya bisa diambil dari gitcode
- Namun, menurut lisensinya, akses, pengunduhan, instalasi, eksekusi, distribusi, integrasi, modifikasi, dan penggunaan lainnya di dalam UE semuanya diblokir secara eksplisit. Tautan lisensi terkait ada di sini
- Bagus bahwa digunakan istilah yang lebih presisi, yaitu ‘open-weight’, alih-alih ‘open-source’. Tapi saya penasaran apakah open-weight benar-benar menarik. Apakah ini memungkinkan kita mengetahui bias model tersebut, atau ketiadaan biasnya? Apakah bisa dipakai untuk melatih model pesaing? Saya ingin memahami perbedaan, kelebihan, dan kekurangan open-source dan open-weight, serta apakah di era LLM ungkapan ‘weights are the source’ itu masuk akal
Jika saat ini LLM sudah menabrak batas skalabilitas dan ke depan efisiensi menjadi penentu, saya penasaran apakah akan muncul pasar model kecil yang berfokus pada use case tertentu. Saya benar-benar menggunakan Gemini untuk mengekstrak data terstruktur dari gambar, dan model flash sangat efektif. Saya penasaran seberapa besar usaha yang dibutuhkan untuk membuat model ringan yang hanya memenuhi kebutuhan tertentu pada perangkat kecil seperti NUC dan AMD APU. Atau menarik juga membayangkan kemungkinan munculnya perangkat seperti stik GPU eksternal mini untuk use case tertentu. Secara komersial mungkin bukan pasar besar, tetapi rasanya cukup keren
- Topik 'model kecil yang berfokus pada use case tertentu' sudah menjadi diskusi penting di HN: "Small language models are the future of agentic AI"
- Saat mencari model untuk named entity extraction, saya menemukan model dslim/bert-base-NER. Parameternya 108 juta
- Arah seperti ini sebenarnya sudah ada dengan nama ‘model distillation’, yaitu LLM besar membuat label dan model kecil khusus melakukan inferensi 1000 kali lebih murah
- Ini mengingatkan pada masa ketika orang menancapkan ASIC ke port USB untuk menambang Bitcoin
Saya rasa sanksi hanyalah solusi sementara. Idealnya itu dipakai untuk membeli waktu guna memperkuat kapasitas domestik, tetapi justru dengan pemotongan dana riset di AS dan penekanan arus masuk mahasiswa serta peneliti asing, kapasitas AS akan terkuras, sementara Tiongkok akan masuk ke lintasan pertumbuhan
Berita ini sudah beberapa hari berlalu. Untuk kabar open source model AI hibrida Tencent, lihat TechInAsia, dan turut dibagikan tautan GitHub
Sic transit gloria nvidii (demikianlah kejayaan Nvidia berlalu)
- Sedikit latar belakang linguistik: 'invidia' dalam bahasa Latin berarti ‘iri’
- Inilah momen ketika 5 tahun belajar bahasa Latin terbayar
- Koreksi kecil saja, tetapi bentuk genitif tunggal yang benar adalah nvidiae. Huruf i adalah akhiran deklinasi o
- Bentuk yang benar adalah Sic transit gloria nvidiae
- Kesan saya: ini tulisan terbaik yang saya baca hari ini, bravo
Saya punya teman orang Tiongkok. Enam tahun lalu dia bergabung sebagai insinyur pendiri di startup HW di Tiongkok. Lalu sanksi datang. Dalam pertemuan baru-baru ini dia berkata bahwa sanksi adalah peristiwa terbaik dalam hidupnya. Perusahaan-perusahaan lokal Tiongkok jadi sama sekali tidak membeli produk asal Barat, dan perusahaannya tumbuh pesat. Kini sanksi diterima semua orang sebagai sesuatu yang ‘sudah sewajarnya’, sehingga hasilnya hanyalah fokus pada kemandirian dan pertumbuhan
- Ada perbedaan dampak menurut industrinya. Sebelum sanksi, perusahaan perangkat lunak EDA kecil nyaris hanya bisa bertahan di tengah kesenjangan teknologi yang sangat besar dibanding perusahaan EDA raksasa seperti Synopsys, tetapi sekarang, berkat permintaan penghindaran risiko, mereka mendapatkan banyak pelanggan baru. Ini disebut ‘hormesis’
Saya penasaran makna semua ini setelah sanksi. Apakah ini berarti smartphone Huawei yang terkena pukulan besar akibat sanksi kini mendapat peluang untuk bangkit dengan GPU buatannya sendiri? Bagaimana performa GPU seperti ini dibanding GPU terbaru dari Barat? Apakah ini berarti Huawei sekarang punya kemampuan untuk mengomersialkan GPU ini?
- Huawei adalah perusahaan yang jauh lebih besar dari dugaan banyak orang. Bukan hanya stasiun basis 5G, tetapi juga sangat besar di berbagai bidang seperti ponsel dan mobil listrik
- Soal ungkapan “peluang untuk bangkit”, penjualan smartphone Huawei di Tiongkok sebenarnya sudah melampaui Apple. Tautan data pangsa pasar rinci
- Dari sisi perangkat keras, Huawei bisa membuat ponsel yang cukup kompetitif. Hanya saja, tanpa Google Play Store, sulit menjelaskan alasan kuat untuk membelinya
- Direkomendasikan juga untuk melihat tautan video YouTube yang menjelaskan situasi umum Huawei
Agar bisa menyaingi TSMC dan Nvidia, dunia membutuhkan terbentuknya kompetisi antara Huawei dan Tiongkok dari sisi node size
- Jika mengabaikan isu geopolitik, ini skenario yang sangat baik. Tetapi teknologi AI adalah pedang bermata dua, dan persaingan di ranah konsumen kemungkinan besar akan berlanjut menjadi perlombaan senjata. Mengingat kemampuan manufaktur dan biaya tenaga kerja Tiongkok, pada akhirnya Tiongkok kemungkinan besar akan menang. Namun, untuk mewujudkannya, pertama-tama dibutuhkan duplikasi produksi ASML, dan itu tidak realistis dalam waktu dekat
- Jika AS mencabut kontrol ekspor chip, saya justru mendapat kesan bahwa pemerintah Tiongkok mungkin akan menerapkan pembatasan impor. Keuntungan dari membesarkan pesaing nyata untuk Nvidia/TSMC/Apple/Google jauh lebih besar

Huawei merilis model open-weight yang dilatih di GPU Ascend

Gambaran umum

Pengenalan arsitektur Mixture of Grouped Experts (MoGE)

Model Pangu Pro MoE dan optimasi platform Ascend

Pre-training dan desain data pelatihan

Komposisi data

Tahap dan strategi pelatihan

Evaluasi data

Lingkungan pre-training dan optimasi

Post-training (fine-tuning lanjutan dan reinforcement learning)

Supervised Fine-tuning (SFT)

Reinforcement learning (RL)

Optimasi sistem dan infrastruktur

Sistem pelatihan Ascend NPU

Performa dan benchmark

Kesimpulan dan implikasi

Bacaan terkait

1 komentar

Komentar Hacker News