영향력있는 지점, 높은 레버리지 지점 및 특이점 간의 정확한 의미와 비교


15

위키 백과에서

영향력있는 관측치 는 회귀 모형의 예측에 상대적으로 큰 영향을주는 관측치입니다.

위키 백과에서

레버리지 포인트 는 독립적 인 변수의 극한 또는 외부 값에서 수행 된 관측 값으로, 주변 관측치가 부족하면 적합 회귀 모형이 해당 특정 관측치에 가깝게 통과 함을 의미합니다.

Wikipedia 에서 다음과 같은 비교 하는 이유

있지만 영향력있는 점은 일반적으로해야합니다 높은 영향력을 하는 높은 레버리지 포인트 필요는 없다 영향력있는 점 .


2
아래 답변이 좋습니다. 또한 내 대답을 읽는 데 도움이 될 수 있습니다 . plot.lm () 해석 .
gung-모니 티 복원

답변:


13

일부 데이터에 맞는 회귀선을 상상해보십시오.

이제 데이터의 주 몸체에서 약간 떨어진 거리에있는 추가 데이터 포인트를 생각해 보자.

회귀선을 다시 장착하면 계수가 변경되지 않습니다. 반대로 여분의 특이 치를 삭제하면 계수에 영향을주지 않습니다.

따라서 특이 치 또는 레버리지 포인트가 나머지 데이터 및 나머지 모델과 완벽하게 일치하는 경우 영향을 미치지 않습니다.

"line"의 경우 "plane"또는 "hyperplane"을 읽으십시오. 그러나 두 변수와 산포도의 가장 간단한 예는 여기에 충분합니다.

그러나 정의를 좋아하는 경우가 많습니다. 종종 너무 많이 읽는 경향이 있습니다. 여기에 내가 가장 좋아하는 이상 값이 있습니다.

"이상 값은 대부분의 샘플과 관련하여 놀람을 일으키는 샘플 값입니다"(WN Venables 및 BD Ripley. 2002. S. New York : Springer, p.119의 최신 통계 적용 ).

결정적으로, 놀람은 보는 사람의 마음에 있으며 데이터의 암묵적이거나 명시적인 모델에 의존합니다. 특이 치가 전혀 놀랍지 않은 다른 모델이있을 수 있습니다. 예를 들어 데이터가 실제로 정상이 아니라 로그 정규인지 감마인지 여부입니다.

추신 : 나는 레버리지 포인트에 반드시 주변 관측치가 부족 하다고 생각하지 않습니다 . 예를 들어, 쌍으로 발생할 수 있습니다.


감사! 특이 치와 높은 레버리지 포인트가 동일한 개념입니까? en.wikipedia.org/wiki/Partial_leverage
Tim

1
아니; 당신은 우리에게 "아웃 라이어"의 정의를 표시하지했지만, 그들은 특이 할 필요가 없다는 것을 그것을 활용 점의 정의에서 다음과 sensu 베너 블스와 리플리. (나는 Wikipedia에서 자신을 떼어 놓는 것이 좋습니다.) @Gael의 답변도 참조하십시오.
닉 콕스

1
"기본적으로 놀라움은 보는 사람의 마음에 달려 있으며 데이터의 암묵적이거나 명시적인 모델에 의존합니다. 데이터가 실제로 대수적이거나 감마 라기보다는 특이 치가 전혀 놀랍지 않은 다른 모델이있을 수 있습니다. 표준." 따라서 특이점은 일부 모델로 정의되지만 높은 레버리지 점과 영향력있는 점은 그렇지 않습니다.
Tim

1
Venables와 Ripley는 내가 읽었을 때 재치있는 방식으로 현명한 지적을했으며 정확하고 공식적인 진술로 특이 치가 정의 될 수 있다는 순진한 생각을 전복하고있었습니다. 그러나 다른 치료법은 다른 스타일로 찾을 수 있습니다. 반대로, 레버리지와 영향력은 측정 방법으로 공식적으로 정의 할 수 있습니다. 용어를 사용하는 두 가지 스타일은 실제로 일관성이 없습니다. 특이 치가 무엇인지 아닌지를 더 잘 알기 위해 실제 데이터 분석 경험은 백과 사전 항목을 읽는 것보다 더 많은 것을 가르쳐줍니다.
Nick Cox

가엘은 2013 년 7 월 29 일에 의견을 인용하여 현재 @ 갈라 식별자를 사용하고 있습니다. 글을 쓰는 시점에 다른 답변은 하나만 있지만 변경 될 수 있습니다.
Nick Cox

20

간단한 선형 모델의 경우 높은 레버리지 지점이 영향을 미치지 않는 방법을 쉽게 설명 할 수 있습니다.

레버리지는 높지만 영향력은 크지 않습니다

파란색 선은 모든 데이터를 기반으로 한 회귀선이며 빨간색 선은 그림의 오른쪽 상단에있는 점을 무시합니다.

이 지점은 나머지 데이터와는 거리가 멀기 때문에 방금 제공 한 높은 레버리지 지점의 정의에 적합합니다. 이 때문에 회귀선 (파란색 선)이 가까이 와야합니다. 그러나 그 위치는 나머지 데이터에서 관찰 된 패턴에 크게 맞기 때문에 다른 모델은 매우 잘 예측할 것입니다 (즉, 빨간색 선은 이미 어떤 경우에도 그것에 가깝습니다). 따라서 특히 영향력이 없습니다.

이것을 다음 산점도와 비교하십시오.

높은 영향력 높은 영향력

여기서 플롯의 오른쪽에있는 점은 여전히 ​​높은 레버리지 점이지만 이번에는 나머지 데이터에서 관찰 된 패턴에 맞지 않습니다. 파란색 선 (모든 데이터를 기반으로하는 선형 적합)은 매우 가까워 지지만 빨간색 선은 그렇지 않습니다. 이 1 점을 포함하거나 제외하면 모수 추정값이 크게 변경됩니다. 많은 영향을 미칩니다.

인용 한 정의와 방금 제공 한 예제는 높은 레버리지 / 영향 포인트가 어떤 의미에서는 일 변량의 "이상치"이고 적합 회귀선이 가장 큰 영향을 미치는 포인트에 근접하지만 필요로한다는 것을 암시하는 것처럼 보일 수 있습니다. 그렇지 않습니다.

매우 영향력있는 숨겨진 지점

이 마지막 예에서 오른쪽 하단의 관측 값은 모형 적합에 대해 (상대적으로) 큰 영향을 미치지 만 (빨간색과 파란색 선의 차이를 통해 다시 볼 수 있음) 여전히 회귀선에서 멀리 떨어져있는 것처럼 보입니다. 단 변량 분포 (여기서는 축을 따라 "러그"로 표시됨)에서 감지 할 수 없습니다.


감사! 여기에서 사용 된 높은 레버리지 지점은 en.wikipedia.org/wiki/Partial_leverage의 "레버는 일반적으로 모자 매트릭스의 대각선으로 정의됩니다"와 일치 합니까?
Tim

훌륭한 설명. 세 가지 경우 모두에 대한 데이터를 제공하면 대단히 감사하겠습니다. 감사합니다
MYaseen208 1
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.