영향력있는 관측치 는 회귀 모형의 예측에 상대적으로 큰 영향을주는 관측치입니다.
레버리지 포인트 는 독립적 인 변수의 극한 또는 외부 값에서 수행 된 관측 값으로, 주변 관측치가 부족하면 적합 회귀 모형이 해당 특정 관측치에 가깝게 통과 함을 의미합니다.
Wikipedia 에서 다음과 같은 비교 를 하는 이유
있지만 영향력있는 점은 일반적으로해야합니다 높은 영향력을 하는 높은 레버리지 포인트 필요는 없다 영향력있는 점 .
영향력있는 관측치 는 회귀 모형의 예측에 상대적으로 큰 영향을주는 관측치입니다.
레버리지 포인트 는 독립적 인 변수의 극한 또는 외부 값에서 수행 된 관측 값으로, 주변 관측치가 부족하면 적합 회귀 모형이 해당 특정 관측치에 가깝게 통과 함을 의미합니다.
Wikipedia 에서 다음과 같은 비교 를 하는 이유
있지만 영향력있는 점은 일반적으로해야합니다 높은 영향력을 하는 높은 레버리지 포인트 필요는 없다 영향력있는 점 .
답변:
일부 데이터에 맞는 회귀선을 상상해보십시오.
이제 데이터의 주 몸체에서 약간 떨어진 거리에있는 추가 데이터 포인트를 생각해 보자.
회귀선을 다시 장착하면 계수가 변경되지 않습니다. 반대로 여분의 특이 치를 삭제하면 계수에 영향을주지 않습니다.
따라서 특이 치 또는 레버리지 포인트가 나머지 데이터 및 나머지 모델과 완벽하게 일치하는 경우 영향을 미치지 않습니다.
"line"의 경우 "plane"또는 "hyperplane"을 읽으십시오. 그러나 두 변수와 산포도의 가장 간단한 예는 여기에 충분합니다.
그러나 정의를 좋아하는 경우가 많습니다. 종종 너무 많이 읽는 경향이 있습니다. 여기에 내가 가장 좋아하는 이상 값이 있습니다.
"이상 값은 대부분의 샘플과 관련하여 놀람을 일으키는 샘플 값입니다"(WN Venables 및 BD Ripley. 2002. S. New York : Springer, p.119의 최신 통계 적용 ).
결정적으로, 놀람은 보는 사람의 마음에 있으며 데이터의 암묵적이거나 명시적인 모델에 의존합니다. 특이 치가 전혀 놀랍지 않은 다른 모델이있을 수 있습니다. 예를 들어 데이터가 실제로 정상이 아니라 로그 정규인지 감마인지 여부입니다.
추신 : 나는 레버리지 포인트에 반드시 주변 관측치가 부족 하다고 생각하지 않습니다 . 예를 들어, 쌍으로 발생할 수 있습니다.
간단한 선형 모델의 경우 높은 레버리지 지점이 영향을 미치지 않는 방법을 쉽게 설명 할 수 있습니다.
파란색 선은 모든 데이터를 기반으로 한 회귀선이며 빨간색 선은 그림의 오른쪽 상단에있는 점을 무시합니다.
이 지점은 나머지 데이터와는 거리가 멀기 때문에 방금 제공 한 높은 레버리지 지점의 정의에 적합합니다. 이 때문에 회귀선 (파란색 선)이 가까이 와야합니다. 그러나 그 위치는 나머지 데이터에서 관찰 된 패턴에 크게 맞기 때문에 다른 모델은 매우 잘 예측할 것입니다 (즉, 빨간색 선은 이미 어떤 경우에도 그것에 가깝습니다). 따라서 특히 영향력이 없습니다.
이것을 다음 산점도와 비교하십시오.
여기서 플롯의 오른쪽에있는 점은 여전히 높은 레버리지 점이지만 이번에는 나머지 데이터에서 관찰 된 패턴에 맞지 않습니다. 파란색 선 (모든 데이터를 기반으로하는 선형 적합)은 매우 가까워 지지만 빨간색 선은 그렇지 않습니다. 이 1 점을 포함하거나 제외하면 모수 추정값이 크게 변경됩니다. 많은 영향을 미칩니다.
인용 한 정의와 방금 제공 한 예제는 높은 레버리지 / 영향 포인트가 어떤 의미에서는 일 변량의 "이상치"이고 적합 회귀선이 가장 큰 영향을 미치는 포인트에 근접하지만 필요로한다는 것을 암시하는 것처럼 보일 수 있습니다. 그렇지 않습니다.
이 마지막 예에서 오른쪽 하단의 관측 값은 모형 적합에 대해 (상대적으로) 큰 영향을 미치지 만 (빨간색과 파란색 선의 차이를 통해 다시 볼 수 있음) 여전히 회귀선에서 멀리 떨어져있는 것처럼 보입니다. 단 변량 분포 (여기서는 축을 따라 "러그"로 표시됨)에서 감지 할 수 없습니다.