1 poin oleh ragingwind 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Penjadwalan GPU job dengan memanfaatkan Inference GPU Pool yang menganggur: studi kasus efisiensi infrastruktur LG AI Research

Tulisan yang dipublikasikan oleh Platform&Infra Team LG AI Research ini membahas bagaimana sumber daya GPU yang menganggur selama pengoperasian layanan model bahasa besar (LLM) didaur ulang untuk pekerjaan riset dan eksperimen. Perusahaan yang mengoperasikan layanan AI biasanya menyiapkan GPU terlebih dahulu berdasarkan puncak trafik, sehingga pada jam-jam ketika trafik menurun, GPU yang mahal hanya terpakai memorinya dan menganggur. Tim riset membangun pipeline yang secara otomatis mengalokasikan GPU kosong pada periode tersebut ke pekerjaan pelatihan dan evaluasi, sehingga berhasil mengamankan sumber daya komputasi tanpa membeli perangkat tambahan.

Masalah inti

  • Batasan auto scaling pada layanan LLM: Tidak seperti layanan web umum, pada LLM konsumsi GPU per permintaan sangat bervariasi tergantung panjang token input-output dan struktur model. Karena itu, beban aktual sulit diukur dengan metrik tradisional seperti utilisasi CPU atau penggunaan memori.
  • Skala sumber daya menganggur: Dalam lingkungan di mana satu replika (salinan instance layanan) menggunakan 4 GPU, pada jam non-sibuk malam hari (20.00 hingga 08.00 keesokan harinya) rata-rata 52 GPU per hari menganggur selama sekitar 12 jam.

Pendekatan penyelesaian

  • Memanfaatkan metrik internal vLLM: Alih-alih metrik sistem umum, metrik seperti throughput real-time dan status antrean yang disediakan oleh mesin inferensi LLM vLLM dijadikan dasar auto scaling, sehingga memungkinkan penyesuaian sumber daya yang presisi sesuai karakteristik LLM.
  • Eksekusi job dengan pendekatan best-effort: Job riset dijalankan pada GPU malam yang menganggur, tetapi dirancang agar kapan pun trafik meningkat kembali, job riset bisa dihentikan dan GPU dikembalikan ke layanan, sehingga stabilitas layanan tidak terganggu.
  • Pipeline berbasis Argo Workflows: Job didefinisikan per Docker image, lalu prapemrosesan data, pretraining, fine-tuning supervised, reinforcement learning, dan evaluasi dibagi menjadi step (tahap) yang bisa dijalankan secara berurutan atau paralel.

Keunggulan prinsip desain

  • Generik: Baik pelatihan maupun inferensi, framework apa pun dapat dijalankan apa adanya selama dibungkus sebagai Docker image.
  • Skalabilitas dan fleksibilitas: Meski jenis job baru ditambahkan, sistem tetap dapat menanganinya tanpa mengubah kode pipeline.
  • Reproduktibilitas: Semua konfigurasi disuntikkan sebagai parameter eksternal, bukan ditulis di dalam kode, dan input-output dikelola di cloud storage sehingga kondisi yang sama menjamin hasil yang sama. Arsitektur pipeline yang stateless karena tidak menyimpan state juga berkontribusi pada stabilitas operasional.

Hasil operasional

  • Penggunaan kumulatif: Selama sekitar 3 bulan dari November 2025 hingga Januari 2026, sebanyak 85 job dijalankan dan total penggunaan GPU mencapai 95.000 GPU-jam.
  • Tren peningkatan: Penggunaan GPU pada Januari meningkat sekitar 70% dibanding November, dan jika dikonversi ke operasi 24 jam, efeknya setara dengan memperoleh tambahan sekitar 55 GPU baru.
  • Penghematan biaya: Jika volume komputasi yang sama dihitung berdasarkan komitmen 3 tahun public cloud, penghematan yang dihasilkan mencapai sekitar 75 juta won pada Januari saja, dan sekitar 185 juta won secara kumulatif selama 3 bulan.

Rencana ke depan

  • Penyempurnaan metrik scaling: Pola penggunaan per layanan akan dianalisis lebih rinci untuk memperhalus logika alokasi sumber daya.
  • Perluasan ke penjadwalan sepanjang waktu: Dengan memanfaatkan Kubernetes dan model internal EXAONE, sistem akan diperluas dari hanya malam hari menjadi skema eksekusi kontinu yang langsung menjalankan job begitu sumber daya kosong tersedia.
  • Peningkatan UX: Tim berencana menyiapkan antarmuka yang memungkinkan peneliti melakukan proses dari permintaan job hingga pemantauan secara intuitif.

Kasus ini menunjukkan pendekatan yang menyelesaikan tantangan umum industri berupa kekurangan GPU bukan lewat penambahan hardware, melainkan lewat perbaikan struktur operasional. Yang menonjol adalah cara mereka mengatasi kesulitan pengukuran beban khas layanan LLM melalui metrik internal vLLM, sekaligus menempatkan job riset sebagai best-effort agar dua tujuan yang saling bertentangan—stabilitas layanan dan pemanfaatan sumber daya—dapat dicapai bersamaan. Hasil kuantitatif berupa penghematan biaya sekitar 180 juta won tanpa investasi tambahan juga memberikan model operasional yang sangat layak dijadikan referensi oleh organisasi lain yang mengelola infrastruktur GPU.

Belum ada komentar.

Belum ada komentar.