Alibaba Cloud, Sistem Pooling GPU ‘Aegaeon’ Memotong Penggunaan GPU Nvidia 82%

(tomshardware.com)

5 poin oleh GN⁺ 2025-10-21 | Belum ada komentar. | Bagikan ke WhatsApp

Sistem Aegaeon pooling yang dikembangkan oleh Alibaba Cloud meningkatkan efisiensi pemanfaatan GPU sampai 9 kali, dan mengurangi jumlah GPU Nvidia yang dibutuhkan untuk layanan LLM yang sama sebesar 82%
Sistem ini mendukung beberapa model menggunakan satu GPU secara bersamaan dengan mem-virtualisasikan GPU per token dan menjadwalkannya secara dinamis di shared pool, bukan mengunci GPU per model
Dalam uji layanan produksi yang mencakup LLM beragam dengan skala 72B parameter, jumlah GPU berkurang dari 1.192 menjadi 213
Di lingkungan pasokan H20 GPU yang terbatas, performanya tetap stabil, dan mencatat peningkatan goodput 1,5~9 kali dibanding ServerlessLLM·MuxServe
Paper ini dipublikasikan melalui presentasi SOSP 2025 di Seoul, dan diperkirakan akan menarik perhatian besar dari perusahaan cloud global yang menghadapi kekurangan sumber daya GPU

Sistem dan Latar Belakang Aegaeon

Alibaba Cloud mengumumkan bahwa melalui Aegaeon pooling system, dalam uji beta yang berjalan beberapa bulan di marketplace Model Studio-nya berhasil meraih pengurangan penggunaan GPU Nvidia sebesar 82%
Hasil ini diperkenalkan lewat paper peer-reviewed yang dipublikasikan pada ACM Symposium on Operating Systems (SOSP) 2025 yang diadakan di Seoul
Teknologi ini bertujuan agar penyedia layanan cloud dapat memaksimalkan penggunaan sumber daya yang sudah dimiliki dalam lingkungan di mana pasokan GPU mutakhir seperti Nvidia H20 di China relatif terbatas

Aegaeon bukan sistem untuk meningkatkan efisiensi pelatihan model, melainkan penjadwal yang ditujukan untuk memaksimalkan penggunaan GPU pada tahap inference
- Pendekatan lama menempatkan 1 GPU tetap untuk 1 model, sementara Aegaeon dirancang untuk membagi per unit token agar beberapa model bisa dipakai bersama secara bersamaan
- Meningkatkan goodput (throughput efektif) GPU hingga 9 kali, sekaligus mencapai laju pemrosesan yang stabil meski pola permintaan LLM tidak teratur

Kinerja dibuktikan melalui uji beta berbulan-bulan yang melibatkan peneliti dari Peking University dan divisi infrastruktur Alibaba (termasuk CTO Jinglun Zhou)
- Selama uji, 1.192 GPU berhasil direduksi menjadi 213 GPU sambil mempertahankan beban kerja inferensi LLM pada tingkat yang sama
- Tetap menunjukkan efisiensi tinggi di lingkungan layanan beberapa LLM sekaligus, termasuk model berskala hingga 72B parameter
Pengujian dilakukan menggunakan GPU H20 yang secara legal dapat dibeli di China setelah kontrol ekspor AS
- Menurut South China Morning Post, saat ini H20 digunakan sebagai akselerator pengganti utama di China

1. Multi-model packing: Menempatkan beberapa model sekaligus dalam satu GPU untuk meminimalkan idle resource antar permintaan
2. Token-level autoscaling: Menyesuaikan beban komputasi secara real-time berdasarkan jumlah token output yang dihasilkan, bukan seluruh permintaan
- Dengan cara ini, reservasi GPU yang tidak perlu dapat dihapus, sehingga efisiensi biaya terhadap throughput menjadi maksimal
Benchmark menunjukkan pencapaian peningkatan performa 1.5~9 kali dibanding ServerlessLLM·MuxServe

Paper tidak merinci detail arsitektur jaringan yang digunakan (berbasis eRDMA),
- Namun, Alibaba diketahui memiliki jaringan eRDMA (Elastic RDMA) dan GPU stack yang terintegrasi padat
- Karena itu, hasil ini kemungkinan besar bergantung pada lingkungan infrastruktur internal yang sangat teroptimasi

Dalam pasar China yang pasokannya terbatas, dianggap sebagai jalan keluar strategis untuk mengekstrak efisiensi maksimum dari sumber daya chip yang ada
Pendekatan ini berpotensi menjadi model referensi bagi AWS, Google Cloud, Microsoft Azure, dan hyperscaler lain untuk meningkatkan efisiensi inferensi
Di luar batasan perangkat keras GPU itu sendiri, teknologi scheduling dan virtualisasi berbasis software muncul sebagai pilar baru daya saing infrastruktur AI