4 poin oleh xguru 2021-01-27 | 1 komentar | Bagikan ke WhatsApp
  • OpenAI membagikan pengalaman mereka menskalakan k8s untuk GPT-3, DALL·E, dan lainnya

  • Umumnya cluster tunggal tidak diskalakan hingga 7500 node, sehingga diperlukan pengelolaan khusus, tetapi dengan cara ini mereka mendapatkan struktur infrastruktur yang sederhana dan dapat melakukan ekspansi dengan mudah tanpa perubahan kode

  • Lingkungan aplikasi/perangkat kerasnya sedikit berbeda dari perusahaan pada umumnya

→ GPU harus menggunakan seluruh perangkat keras node melalui NVLink/GPUDirect dan sejenisnya

→ Karena itu, biasanya satu Pod menempati seluruh node

→ Artinya jumlah node banyak, tetapi beban pada scheduler relatif lebih rendah

  • Jaringan

→ Karena jumlah pod/node bertambah banyak, beralih ke Native Pod Networking

→ Mengubah penanganan alamat IP berbasis alias sehingga 200 ribu IP dapat digunakan kapan saja

  • API Server

→ Menggunakan dashboard Grafana yang disediakan oleh kube-prometheus

→ Berguna untuk memberi peringatan pada HTTP 429 (Too Many Requests) dan 5xx (Server Error) sebagai sinyal masalah tingkat tinggi

→ API server selalu dijalankan di luar cluster

1 komentar

 
xguru 2021-01-27

Tulisannya cukup panjang.. sepertinya tidak akan ada kebutuhan untuk membangun klaster pada skala sebesar ini, jadi saya hanya memindahkan poin-poin sederhananya saja.