AWS ELB에서 내 서비스가 실패했다고 판단하는 이유를 어떻게 알 수 있습니까?

AWS ELB에서 내 서비스가 실패했다고 판단하는 이유를 어떻게 알 수 있습니까?

두 개의 대상 그룹에 등록된 서비스가 있습니다: albwwwalb.

대상 alb그룹은 내부 요청용이고 wwwalb대상 그룹은 외부 요청용입니다.

서비스를 배포하면 서비스가 정상적으로 시작되고 요청을 수락하기 시작합니다. 액세스 로그를 보면 과 가 모두 alb서비스 wwwalb를 조사하고 있음을 알 수 있습니다. 서비스가 3개 영역에서 실행되므로 각 영역에 대해 3개의 요청, 총 6개의 요청이 표시됩니다.

 - - - [19/Jun/2022:20:45:28 +0200] "GET /api/system/status HTTP/1.1" 204 -
 - - - [19/Jun/2022:20:45:28 +0200] "GET /api/system/status HTTP/1.1" 204 -
 - - - [19/Jun/2022:20:45:28 +0200] "GET /api/system/status HTTP/1.1" 204 -
 - - - [19/Jun/2022:20:45:30 +0200] "GET /api/system/status HTTP/1.1" 204 -
 - - - [19/Jun/2022:20:45:30 +0200] "GET /api/system/status HTTP/1.1" 204 -
 - - - [19/Jun/2022:20:45:30 +0200] "GET /api/system/status HTTP/1.1" 204 -

그럼에도 불구하고 대상 그룹은 서비스가 건강하지 않다고 믿기 때문에 서비스는 결국 중단됩니다. 사실 결코 서비스가 건전하다고 생각하는 것 같지는 않습니다.

여기에 이미지 설명을 입력하세요

대상 그룹을 확인하기 위한 API 호출은 다음을 알려줍니다.

{
    "TargetHealthDescriptions": [
        {
            "Target": {
                "Id": "10.1.143.94",
                "Port": 8182,
                "AvailabilityZone": "eu-north-1b"
            },
            "HealthCheckPort": "8182",
            "TargetHealth": {
                "State": "unhealthy",
                "Reason": "Target.FailedHealthChecks",
                "Description": "Health checks failed"
            }
        }
    ]
}

나는 한동안 대상 그룹 지표, 로드 밸런서 구성을 살펴봤지만 이 동작을 설명할 수 있는 설정에 대해서는 아무 것도 찾을 수 없습니다. 상태 확인 설정도 괜찮은 것 같습니다.

여기에 이미지 설명을 입력하세요

최근에 을 추가했기 wwwalb때문에 어떻게든 이 서비스를 두 대상 그룹에 두는 것이 원인이라고 생각하고 있습니다. 그런 다음 다시 두 개의 대상 그룹에 서비스를 제공하는 것이 AWS에서 지원되고 설명됩니다.

이 문제의 실제 원인에 대해 AWS로부터 자세한 내용을 얻을 수 있는 방법이 있습니까? AWS가 서비스가 실패했다고 생각하는 이유를 조사할 수 있는 방법이 있습니까?

답변1

나는 일반적으로 건강에 해로운 임계값을 건강한 임계값보다 높은 값으로 설정합니다. 10초 간격으로 2개의 성공적인 호출이 정상인 것처럼 10초 간격으로 6개의 실패한 호출은 비정상입니다.

즉, 문제가 되지 않으며 설정이 작동해야 합니다. 대상이 등록되면 "초기" 상태가 발생합니다. 이 기간 동안 AWS는 상태 확인을 검증하려고 시도하며 상태 확인이 성공한 경우에만 정상 상태로 전환해야 합니다.

등록 프로세스가 완료되고 상태 확인이 시작되는 데 몇 분 정도 걸릴 수 있습니다.

애플리케이션이 성공적으로 응답하지 않고 오랜 시간 동안 실패하여 다시 비정상 상태가 되는 것이 확실합니까? 아니면 시작하는 데 시간이 너무 오래 걸리고 "초기" 상태에서 벗어나지 못하는 것이 사실입니까?

관련 정보