5 poin oleh GN⁺ 2025-10-21 | 5 komentar | Bagikan ke WhatsApp
  • Sistem Aegaeon pooling yang dikembangkan oleh Alibaba Cloud meningkatkan efisiensi pemanfaatan GPU sampai 9 kali, dan mengurangi jumlah GPU Nvidia yang dibutuhkan untuk layanan LLM yang sama sebesar 82%
  • Sistem ini mendukung beberapa model menggunakan satu GPU secara bersamaan dengan mem-virtualisasikan GPU per token dan menjadwalkannya secara dinamis di shared pool, bukan mengunci GPU per model
  • Dalam uji layanan produksi yang mencakup LLM beragam dengan skala 72B parameter, jumlah GPU berkurang dari 1.192 menjadi 213
  • Di lingkungan pasokan H20 GPU yang terbatas, performanya tetap stabil, dan mencatat peningkatan goodput 1,5~9 kali dibanding ServerlessLLM·MuxServe
  • Paper ini dipublikasikan melalui presentasi SOSP 2025 di Seoul, dan diperkirakan akan menarik perhatian besar dari perusahaan cloud global yang menghadapi kekurangan sumber daya GPU

Sistem dan Latar Belakang Aegaeon

  • Alibaba Cloud mengumumkan bahwa melalui Aegaeon pooling system, dalam uji beta yang berjalan beberapa bulan di marketplace Model Studio-nya berhasil meraih pengurangan penggunaan GPU Nvidia sebesar 82%
  • Hasil ini diperkenalkan lewat paper peer-reviewed yang dipublikasikan pada ACM Symposium on Operating Systems (SOSP) 2025 yang diadakan di Seoul
  • Teknologi ini bertujuan agar penyedia layanan cloud dapat memaksimalkan penggunaan sumber daya yang sudah dimiliki dalam lingkungan di mana pasokan GPU mutakhir seperti Nvidia H20 di China relatif terbatas

Aegaeon: Penjadwal Khusus Inference untuk Memaksimalkan Efisiensi GPU

  • Aegaeon bukan sistem untuk meningkatkan efisiensi pelatihan model, melainkan penjadwal yang ditujukan untuk memaksimalkan penggunaan GPU pada tahap inference
    • Pendekatan lama menempatkan 1 GPU tetap untuk 1 model, sementara Aegaeon dirancang untuk membagi per unit token agar beberapa model bisa dipakai bersama secara bersamaan
    • Meningkatkan goodput (throughput efektif) GPU hingga 9 kali, sekaligus mencapai laju pemrosesan yang stabil meski pola permintaan LLM tidak teratur

Hasil Uji dan Efek Penghematan

  • Kinerja dibuktikan melalui uji beta berbulan-bulan yang melibatkan peneliti dari Peking University dan divisi infrastruktur Alibaba (termasuk CTO Jinglun Zhou)
    • Selama uji, 1.192 GPU berhasil direduksi menjadi 213 GPU sambil mempertahankan beban kerja inferensi LLM pada tingkat yang sama
    • Tetap menunjukkan efisiensi tinggi di lingkungan layanan beberapa LLM sekaligus, termasuk model berskala hingga 72B parameter
  • Pengujian dilakukan menggunakan GPU H20 yang secara legal dapat dibeli di China setelah kontrol ekspor AS
    • Menurut South China Morning Post, saat ini H20 digunakan sebagai akselerator pengganti utama di China

Komposisi Teknis: Dua Strategi Inti

  • 1. Multi-model packing: Menempatkan beberapa model sekaligus dalam satu GPU untuk meminimalkan idle resource antar permintaan
  • 2. Token-level autoscaling: Menyesuaikan beban komputasi secara real-time berdasarkan jumlah token output yang dihasilkan, bukan seluruh permintaan
    • Dengan cara ini, reservasi GPU yang tidak perlu dapat dihapus, sehingga efisiensi biaya terhadap throughput menjadi maksimal
  • Benchmark menunjukkan pencapaian peningkatan performa 1.5~9 kali dibanding ServerlessLLM·MuxServe

Integrasi Jaringan dan Stack

  • Paper tidak merinci detail arsitektur jaringan yang digunakan (berbasis eRDMA),
    • Namun, Alibaba diketahui memiliki jaringan eRDMA (Elastic RDMA) dan GPU stack yang terintegrasi padat
    • Karena itu, hasil ini kemungkinan besar bergantung pada lingkungan infrastruktur internal yang sangat teroptimasi

Implikasi

  • Dalam pasar China yang pasokannya terbatas, dianggap sebagai jalan keluar strategis untuk mengekstrak efisiensi maksimum dari sumber daya chip yang ada
  • Pendekatan ini berpotensi menjadi model referensi bagi AWS, Google Cloud, Microsoft Azure, dan hyperscaler lain untuk meningkatkan efisiensi inferensi
  • Di luar batasan perangkat keras GPU itu sendiri, teknologi scheduling dan virtualisasi berbasis software muncul sebagai pilar baru daya saing infrastruktur AI

5 komentar

 
jjpark78 2025-10-21

Sepertinya terdengar suara saham NVIDIA jatuh dari suatu tempat.

 
jeongsoop 2025-10-21

Biasanya dalam kasus seperti ini, penghematan 80% berarti kita tidak membeli hanya seperlima GPU, melainkan bergerak ke arah pemrosesan lima kali lipat data.

 
shakespeares 2025-10-21

Benarkah begitu? Bukankah ada hal di baliknya?

 
GN⁺ 2025-10-21
Komentar Hacker News
  • Alibaba Cloud mengklaim berhasil menurunkan penggunaan GPU Nvidia untuk layanan model yang tidak populer hingga 82%. Menurut paper, di marketplace Alibaba Cloud hanya 1,35% dari total permintaan yang memakai 17,7% dari GPU, dan sebelumnya diperlukan 1.192 GPU, sedangkan sekarang permintaan yang sama ditangani hanya dengan 213 GPU
    • Saya belum terlalu paham cara kerjanya secara persis, apakah model hanya dipasang di atas GPU dan dibiarkan menganggur saat tidak digunakan. Saya kira biasanya alokasi tugas dilakukan secara dinamis. Memang ada keuntungan karena mengurangi jumlah pemuatan ulang model, tetapi bila model+GPU menganggur lebih dari beberapa menit, resource tentu bisa dilepaskan. Secara pribadi, saya bukan dari bidang AI jadi biasa saja mengalokasikan node lewat SLURM setiap saat
    • Menurut Figure 1(a) di paper, 17,7% itu adalah terhadap total 30.000 GPU (yakni 5.310 GPU yang menangani 1,35% permintaan), dan penurunan ini diukur pada lingkungan eksklusif beta kecil yang hanya memuat 47 model. Jika secara kasar dihitung berdasarkan jumlah model dari total 733 model "cold", maka dibutuhkan 3.321 GPU, yang setara penghematan 37,5% dibanding sebelumnya; pada cluster 30.000 GPU seluruhnya setara dengan penghematan 6,6%
    • Dulu para insinyur software dan komputer menghadapi masalah secara langsung dan merancang algoritma serta solusi secara kreatif. Karena regulasi industri semikonduktor AS, insinyur Tiongkok pun kini bergerak menuju jalur inovasi dan pemecahan masalah sendiri, mirip Silicon Valley dulu
  • Inti dari ini adalah, hanya sedikit model seperti Alibaba Qwen dan DeepSeek yang punya banyak permintaan inferensi, sementara mayoritas model lain dipakai secara sporadis. Akibatnya 17,7% alokasi GPU dipakai hanya untuk 1,35% permintaan, jadi sangat tidak efisien
    • Model-model lain ini kemungkinan jauh lebih kecil ukurannya
  • Link yang lebih baik adalah artikel Tom's Hardware, paper-nya bisa dilihat di sini
    • Saya mengganti URL di atas (awal mula artikel SCMP) dengan tautan ini, dan link paper juga akan saya tambahkan di bagian atas tulisan
  • Usaha AS untuk memperlambat kemajuan teknologi Tiongkok memang berhasil mencegah Tiongkok mengikuti jalur yang sama, tetapi ironisnya justru mendorongnya berinovasi dengan cara lain. Kalau inovasi perusahaan Tiongkok itu di-open source, maka akhirnya secara keseluruhan kita bisa dapat efisiensi dan kemajuan yang lebih tinggi, dan mungkin dalam jangka panjang kita justru berterima kasih atas "gatekeeping peradaban" ala AS
    • Secara historis, sekalipun teknologi diblokir, Tiongkok biasanya bisa mengejarnya dalam beberapa tahun atau membuat yang lebih baik. Dari sudut pandang Barat ada nada kesombongan, dan memang kontribusi ilmuwan maupun manufaktur Tiongkok terhadap banyak produk perusahaan Barat sangat besar—tanpa mereka mungkin tidak ada apa-apa. Kalau lihat daftar peneliti AI pun, orang-orang Tiongkok sangat banyak
    • Sentimen anti-imigrasi di AS justru bisa jadi penghambat terbesar inovasi AS. Nyatanya, talenta pembuat inovasi sedang hengkang. Tanpa keunggulan rekrut talenta global, AS bisa berada pada posisi yang tidak menguntungkan dari sisi skala populasi. Dunia sedang mencari pemimpin baru; Tiongkok memang belum di posisi itu, tapi beberapa tahun lagi mungkin bisa, meskipun kelemahan Tiongkok adalah ambisinya yang kurang keluar ke luar dan kecenderungan terlalu fokus ke kawasan (Taiwan, Laut Cina Selatan)
    • Kini AS tak bisa lagi menahan perkembangan Tiongkok. Karena di dalam Tiongkok sendiri impor chip juga dibatasi, tindakan AS menjadi kurang berarti. Artikel terkait (larangan impor chip AI Nvidia ke Tiongkok 2025): artikel CNBC
    • Semua ini mengingatkan saya pada Jepang pascaperang dunia kedua yang bisa membuat mesin hemat bahan bakar dan mobil ringan meski sumber daya terbatas. Karena AS atau sebagian Eropa tidak punya batasan seperti itu, perbedaannya besar, dan pada akhirnya mobil-mobil AS kalah daya saing
    • Saya pikir sudah terlambat kalau menyebutnya sebagai "efek boomerang": pada 2024 laboratorium Barat sempat unggul telak, tetapi pada 2025 Tiongkok memunculkan deretan model state-of-the-art seperti deepseek, qwen, kimi, glm, ernie, dan kini lebih banyak laboratorium Tiongkok yang merilis model terbaru dibanding laboratorium Barat
  • Saya penasaran dengan blog engineering/research perusahaan-perusahaan Tiongkok. Dulu saya banyak membaca blog perusahaan Barat, tetapi sekarang saya mulai ingin menjadikan studi kasus dari non-FAANG sebagai benchmark
  • Sepertinya eksperimennya hanya untuk model yang sangat kecil. Saya ingin tahu apakah ini benar-benar bisa diskalakan ke model besar
    • Semua adalah LLM, jadi tidak begitu kecil. Saat ini operasi berjalan di beberapa region dengan cluster 213 GPU H20 melayani 28 model 1.8–7B (TP=1), dan 19 model 32–72B (TP=4)
  • Sistem GPU virtual ini terlihat seperti scheduler tersendiri (job scheduler), dan saya penasaran seberapa besar latency dari perpindahan data
  • Saya penasaran apakah pendekatan ini bisa diterapkan ke workload lain
  • Pada akhirnya ini terdengar seperti memotong perilaku yang tidak perlu (pemakaian sumber daya yang tidak efisien)
  • Organisasi dengan sumber daya yang melimpah bisa memindahkan model yang sudah dilatih ke hardware baru untuk mengurangi "pajak NVDA" (biaya karena dominasi Nvidia), tetapi riset dan pelatihan model sendiri tetap sulit dilakukan di luar ekosistem Nvidia yang matang