- Sistem Aegaeon pooling yang dikembangkan oleh Alibaba Cloud meningkatkan efisiensi pemanfaatan GPU sampai 9 kali, dan mengurangi jumlah GPU Nvidia yang dibutuhkan untuk layanan LLM yang sama sebesar 82%
- Sistem ini mendukung beberapa model menggunakan satu GPU secara bersamaan dengan mem-virtualisasikan GPU per token dan menjadwalkannya secara dinamis di shared pool, bukan mengunci GPU per model
- Dalam uji layanan produksi yang mencakup LLM beragam dengan skala 72B parameter, jumlah GPU berkurang dari 1.192 menjadi 213
- Di lingkungan pasokan H20 GPU yang terbatas, performanya tetap stabil, dan mencatat peningkatan goodput 1,5~9 kali dibanding ServerlessLLM·MuxServe
- Paper ini dipublikasikan melalui presentasi SOSP 2025 di Seoul, dan diperkirakan akan menarik perhatian besar dari perusahaan cloud global yang menghadapi kekurangan sumber daya GPU
Sistem dan Latar Belakang Aegaeon
- Alibaba Cloud mengumumkan bahwa melalui Aegaeon pooling system, dalam uji beta yang berjalan beberapa bulan di marketplace Model Studio-nya berhasil meraih pengurangan penggunaan GPU Nvidia sebesar 82%
- Hasil ini diperkenalkan lewat paper peer-reviewed yang dipublikasikan pada ACM Symposium on Operating Systems (SOSP) 2025 yang diadakan di Seoul
- Teknologi ini bertujuan agar penyedia layanan cloud dapat memaksimalkan penggunaan sumber daya yang sudah dimiliki dalam lingkungan di mana pasokan GPU mutakhir seperti Nvidia H20 di China relatif terbatas
Aegaeon: Penjadwal Khusus Inference untuk Memaksimalkan Efisiensi GPU
- Aegaeon bukan sistem untuk meningkatkan efisiensi pelatihan model, melainkan penjadwal yang ditujukan untuk memaksimalkan penggunaan GPU pada tahap inference
- Pendekatan lama menempatkan 1 GPU tetap untuk 1 model, sementara Aegaeon dirancang untuk membagi per unit token agar beberapa model bisa dipakai bersama secara bersamaan
- Meningkatkan goodput (throughput efektif) GPU hingga 9 kali, sekaligus mencapai laju pemrosesan yang stabil meski pola permintaan LLM tidak teratur
Hasil Uji dan Efek Penghematan
- Kinerja dibuktikan melalui uji beta berbulan-bulan yang melibatkan peneliti dari Peking University dan divisi infrastruktur Alibaba (termasuk CTO Jinglun Zhou)
- Selama uji, 1.192 GPU berhasil direduksi menjadi 213 GPU sambil mempertahankan beban kerja inferensi LLM pada tingkat yang sama
- Tetap menunjukkan efisiensi tinggi di lingkungan layanan beberapa LLM sekaligus, termasuk model berskala hingga 72B parameter
- Pengujian dilakukan menggunakan GPU H20 yang secara legal dapat dibeli di China setelah kontrol ekspor AS
- Menurut South China Morning Post, saat ini H20 digunakan sebagai akselerator pengganti utama di China
Komposisi Teknis: Dua Strategi Inti
- 1. Multi-model packing: Menempatkan beberapa model sekaligus dalam satu GPU untuk meminimalkan idle resource antar permintaan
- 2. Token-level autoscaling: Menyesuaikan beban komputasi secara real-time berdasarkan jumlah token output yang dihasilkan, bukan seluruh permintaan
- Dengan cara ini, reservasi GPU yang tidak perlu dapat dihapus, sehingga efisiensi biaya terhadap throughput menjadi maksimal
- Benchmark menunjukkan pencapaian peningkatan performa 1.5~9 kali dibanding ServerlessLLM·MuxServe
Integrasi Jaringan dan Stack
- Paper tidak merinci detail arsitektur jaringan yang digunakan (berbasis eRDMA),
- Namun, Alibaba diketahui memiliki jaringan eRDMA (Elastic RDMA) dan GPU stack yang terintegrasi padat
- Karena itu, hasil ini kemungkinan besar bergantung pada lingkungan infrastruktur internal yang sangat teroptimasi
Implikasi
- Dalam pasar China yang pasokannya terbatas, dianggap sebagai jalan keluar strategis untuk mengekstrak efisiensi maksimum dari sumber daya chip yang ada
- Pendekatan ini berpotensi menjadi model referensi bagi AWS, Google Cloud, Microsoft Azure, dan hyperscaler lain untuk meningkatkan efisiensi inferensi
- Di luar batasan perangkat keras GPU itu sendiri, teknologi scheduling dan virtualisasi berbasis software muncul sebagai pilar baru daya saing infrastruktur AI
Belum ada komentar.