5 poin oleh GN⁺ 2025-10-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • Sistem Aegaeon pooling yang dikembangkan oleh Alibaba Cloud meningkatkan efisiensi pemanfaatan GPU sampai 9 kali, dan mengurangi jumlah GPU Nvidia yang dibutuhkan untuk layanan LLM yang sama sebesar 82%
  • Sistem ini mendukung beberapa model menggunakan satu GPU secara bersamaan dengan mem-virtualisasikan GPU per token dan menjadwalkannya secara dinamis di shared pool, bukan mengunci GPU per model
  • Dalam uji layanan produksi yang mencakup LLM beragam dengan skala 72B parameter, jumlah GPU berkurang dari 1.192 menjadi 213
  • Di lingkungan pasokan H20 GPU yang terbatas, performanya tetap stabil, dan mencatat peningkatan goodput 1,5~9 kali dibanding ServerlessLLM·MuxServe
  • Paper ini dipublikasikan melalui presentasi SOSP 2025 di Seoul, dan diperkirakan akan menarik perhatian besar dari perusahaan cloud global yang menghadapi kekurangan sumber daya GPU

Sistem dan Latar Belakang Aegaeon

  • Alibaba Cloud mengumumkan bahwa melalui Aegaeon pooling system, dalam uji beta yang berjalan beberapa bulan di marketplace Model Studio-nya berhasil meraih pengurangan penggunaan GPU Nvidia sebesar 82%
  • Hasil ini diperkenalkan lewat paper peer-reviewed yang dipublikasikan pada ACM Symposium on Operating Systems (SOSP) 2025 yang diadakan di Seoul
  • Teknologi ini bertujuan agar penyedia layanan cloud dapat memaksimalkan penggunaan sumber daya yang sudah dimiliki dalam lingkungan di mana pasokan GPU mutakhir seperti Nvidia H20 di China relatif terbatas

Aegaeon: Penjadwal Khusus Inference untuk Memaksimalkan Efisiensi GPU

  • Aegaeon bukan sistem untuk meningkatkan efisiensi pelatihan model, melainkan penjadwal yang ditujukan untuk memaksimalkan penggunaan GPU pada tahap inference
    • Pendekatan lama menempatkan 1 GPU tetap untuk 1 model, sementara Aegaeon dirancang untuk membagi per unit token agar beberapa model bisa dipakai bersama secara bersamaan
    • Meningkatkan goodput (throughput efektif) GPU hingga 9 kali, sekaligus mencapai laju pemrosesan yang stabil meski pola permintaan LLM tidak teratur

Hasil Uji dan Efek Penghematan

  • Kinerja dibuktikan melalui uji beta berbulan-bulan yang melibatkan peneliti dari Peking University dan divisi infrastruktur Alibaba (termasuk CTO Jinglun Zhou)
    • Selama uji, 1.192 GPU berhasil direduksi menjadi 213 GPU sambil mempertahankan beban kerja inferensi LLM pada tingkat yang sama
    • Tetap menunjukkan efisiensi tinggi di lingkungan layanan beberapa LLM sekaligus, termasuk model berskala hingga 72B parameter
  • Pengujian dilakukan menggunakan GPU H20 yang secara legal dapat dibeli di China setelah kontrol ekspor AS
    • Menurut South China Morning Post, saat ini H20 digunakan sebagai akselerator pengganti utama di China

Komposisi Teknis: Dua Strategi Inti

  • 1. Multi-model packing: Menempatkan beberapa model sekaligus dalam satu GPU untuk meminimalkan idle resource antar permintaan
  • 2. Token-level autoscaling: Menyesuaikan beban komputasi secara real-time berdasarkan jumlah token output yang dihasilkan, bukan seluruh permintaan
    • Dengan cara ini, reservasi GPU yang tidak perlu dapat dihapus, sehingga efisiensi biaya terhadap throughput menjadi maksimal
  • Benchmark menunjukkan pencapaian peningkatan performa 1.5~9 kali dibanding ServerlessLLM·MuxServe

Integrasi Jaringan dan Stack

  • Paper tidak merinci detail arsitektur jaringan yang digunakan (berbasis eRDMA),
    • Namun, Alibaba diketahui memiliki jaringan eRDMA (Elastic RDMA) dan GPU stack yang terintegrasi padat
    • Karena itu, hasil ini kemungkinan besar bergantung pada lingkungan infrastruktur internal yang sangat teroptimasi

Implikasi

  • Dalam pasar China yang pasokannya terbatas, dianggap sebagai jalan keluar strategis untuk mengekstrak efisiensi maksimum dari sumber daya chip yang ada
  • Pendekatan ini berpotensi menjadi model referensi bagi AWS, Google Cloud, Microsoft Azure, dan hyperscaler lain untuk meningkatkan efisiensi inferensi
  • Di luar batasan perangkat keras GPU itu sendiri, teknologi scheduling dan virtualisasi berbasis software muncul sebagai pilar baru daya saing infrastruktur AI

Belum ada komentar.

Belum ada komentar.