EKS로 카오스 엔지니어링

시작하기 전에

이 섹션을 위한 환경을 준비합니다:

~$prepare-environment observability/resiliency

이는 랩 환경에 다음과 같은 변경 사항을 적용합니다:

이러한 변경 사항을 적용하는 Terraform은 여기에서 확인할 수 있습니다.

복원력이란?

클라우드 컴퓨팅에서 복원력은 장애와 정상 작동에 대한 문제가 발생했을 때 시스템이 허용 가능한 성능 수준을 유지하는 능력을 의미합니다. 이는 다음을 포함합니다:

Amazon EKS는 관리형 Kubernetes 플랫폼을 제공하지만, 복원력 있는 아키텍처를 설계하고 구현하는 것은 여전히 중요합니다. 그 이유는 다음과 같습니다:

이 랩에서는 다양한 고가용성 시나리오를 탐색하고 EKS 환경의 복원력을 테스트합니다. 일련의 실험을 통해 다양한 유형의 장애를 처리하고 Kubernetes 클러스터가 이러한 문제에 어떻게 대응하는지 이해하는 실습 경험을 얻게 됩니다.

다음을 시뮬레이션하고 대응합니다:

Pod 장애: ChaosMesh를 사용하여 개별 Pod 장애에 대한 애플리케이션의 복원력을 테스트합니다.
노드 장애: 노드 장애를 수동으로 시뮬레이션하여 Kubernetes의 자가 치유 능력을 관찰합니다.
- AWS Fault Injection Simulator 없이: 노드 장애를 수동으로 시뮬레이션하여 Kubernetes의 자가 치유 능력을 관찰합니다.
- AWS Fault Injection Simulator 사용: 부분적 및 완전한 노드 장애 시나리오를 위해 AWS Fault Injection Simulator를 활용합니다.
가용 영역 장애: 전체 AZ의 손실을 시뮬레이션하여 다중 AZ 배포 전략을 검증합니다.

이 챕터를 마치면 다음을 할 수 있습니다:

이러한 실험을 통해 다음을 이해할 수 있습니다:

이 챕터 전체에서 다음을 사용합니다:

카오스 엔지니어링은 시스템의 약점을 식별하기 위해 의도적으로 제어된 장애를 도입하는 실천입니다. 시스템의 복원력을 능동적으로 테스트함으로써 다음을 할 수 있습니다:

이 랩을 마치면 EKS 환경의 고가용성 능력과 잠재적 개선 영역에 대한 포괄적인 이해를 갖게 됩니다.

정보

AWS 복원력 기능에 대한 더 자세한 정보는 다음을 확인하는 것을 권장합니다: