Menskalakan Kubernetes hingga 7500 node

(openai.com)

4 poin oleh xguru 2021-01-27 | 1 komentar | Bagikan ke WhatsApp

OpenAI membagikan pengalaman mereka menskalakan k8s untuk GPT-3, DALL·E, dan lainnya
Umumnya cluster tunggal tidak diskalakan hingga 7500 node, sehingga diperlukan pengelolaan khusus, tetapi dengan cara ini mereka mendapatkan struktur infrastruktur yang sederhana dan dapat melakukan ekspansi dengan mudah tanpa perubahan kode
Lingkungan aplikasi/perangkat kerasnya sedikit berbeda dari perusahaan pada umumnya

→ GPU harus menggunakan seluruh perangkat keras node melalui NVLink/GPUDirect dan sejenisnya

→ Karena itu, biasanya satu Pod menempati seluruh node

→ Artinya jumlah node banyak, tetapi beban pada scheduler relatif lebih rendah

Jaringan

→ Karena jumlah pod/node bertambah banyak, beralih ke Native Pod Networking

→ Mengubah penanganan alamat IP berbasis alias sehingga 200 ribu IP dapat digunakan kapan saja

API Server

→ Menggunakan dashboard Grafana yang disediakan oleh kube-prometheus

→ Berguna untuk memberi peringatan pada HTTP 429 (Too Many Requests) dan 5xx (Server Error) sebagai sinyal masalah tingkat tinggi

→ API server selalu dijalankan di luar cluster

1 komentar

xguru 2021-01-27

Tulisannya cukup panjang.. sepertinya tidak akan ada kebutuhan untuk membangun klaster pada skala sebesar ini, jadi saya hanya memindahkan poin-poin sederhananya saja.

Menskalakan Kubernetes hingga 7500 node

Bacaan terkait

1 komentar