컴퓨팅 프로비저닝
이 섹션에서는 Inferentia 및 Trainium EC2 인스턴스 생성을 허용하도록 Karpenter를 구성합니다. Karpenter는 inf2 또는 trn1 인스턴스가 필요한 대기 중인 Pod를 감지할 수 있습니다. 그런 다음 Karpenter는 Pod를 스케줄링하는 데 필요한 인스턴스를 시작합니다.
팁
이 워크샵에서 제공하는 Karpenter 모듈에서 Karpenter에 대해 자세히 알아볼 수 있습니다.
Karpenter는 EKS 클러스터에 설치되어 있으며 Deployment로 실행됩니다:
~$kubectl get deployment -n kube-system
NAME READY UP-TO-DATE AVAILABLE AGE
...
karpenter 2/2 2 2 11m
Karpenter가 노드를 프로비저닝하려면 NodePool이 필요합니다. 다음은 우리가 생성할 Karpenter NodePool입니다:
~/environment/eks-workshop/modules/aiml/inferentia/nodepool/nodepool.yaml
apiVersion: karpenter.sh/v1
kind: NodePool
metadata:
name: aiml
spec:
template:
metadata:
labels:
instanceType: "neuron"
provisionerType: "karpenter"
spec:
requirements:
- key: karpenter.sh/capacity-type
operator: In
values:
- on-demand
- key: karpenter.k8s.aws/instance-family
operator: In
values:
- inf2
- trn1
nodeClassRef:
group: karpenter.k8s.aws
kind: EC2NodeClass
name: aiml
---
apiVersion: karpenter.k8s.aws/v1
kind: EC2NodeClass
metadata:
name: aiml
spec:
amiFamily: AL2023
amiSelectorTerms:
- alias: al2023@latest
blockDeviceMappings:
- deviceName: /dev/xvda
ebs:
deleteOnTermination: true
volumeSize: 100Gi
volumeType: gp3
iops: 16000
throughput: 1000
role: ${KARPENTER_NODE_ROLE}
userData: |
MIME-Version: 1.0
Content-Type: multipart/mixed; boundary="//"
--//
Content-Type: text/x-shellscript; charset="us-ascii"
#!/bin/bash
sed -i "s/^max_concurrent_downloads_per_image = .*$/max_concurrent_downloads_per_image = 10/" /etc/soci-snapshotter-grpc/config.toml
sed -i "s/^max_concurrent_unpacks_per_image = .*$/max_concurrent_unpacks_per_image = 10/" /etc/soci-snapshotter-grpc/config.toml
--//
Content-Type: application/node.eks.aws
apiVersion: node.eks.aws/v1alpha1
kind: NodeConfig
spec:
featureGates:
FastImagePull: true
--//
securityGroupSelectorTerms:
- tags:
karpenter.sh/discovery: ${EKS_CLUSTER_NAME}
subnetSelectorTerms:
- tags:
karpenter.sh/discovery: ${EKS_CLUSTER_NAME}
tags:
app.kubernetes.io/created-by: eks-workshop
A
이 섹션에서 이 NodePool이 프로비저닝할 수 있는 인스턴스를 지정합니다
B
여기에서 이 NodePool이 inf2 및 trn1 인스턴스 생성만 허용하도록 구성한 것을 볼 수 있습니다
NodePool 및 EC2NodeClass 매니페스트를 적용합니다:
~$kubectl kustomize ~/environment/eks-workshop/modules/aiml/inferentia/nodepool \
| envsubst | kubectl apply -f-
이제 NodePool은 트레이닝 및 추론 Pod 생성을 위한 준비가 완료되었습니다.