영향력있는 잔차 대 특이 치

먼저이 사이트에서 답변을 검색했다고 진술해야합니다. 내 질문에 대답 한 질문을 찾지 못했거나 지식 수준이 너무 낮아서 이미 답변을 읽은 것을 몰랐습니다.

AP 통계 시험을 준비 중입니다. 선형 회귀를 배워야하며 주제 중 하나는 잔차입니다. 253 페이지의 통계 및 데이터 분석 소개 사본이 있습니다.

이변 량 데이터 세트의 특이점은 산점도의 다른 점 대부분에서 방향 또는 방향으로 떨어진 점입니다. $x$ $y$

관측치가 나머지 데이터에서 멀리 떨어져 있는 값 ( 방향으로 나머지 데이터와 분리 된) 이있는 경우 잠재적으로 영향력있는 관측치 입니다. 관측치가 실제로 영향을 미치는지 확인하기 위해이 관측치의 제거가 기울기 값에 가장 큰 영향을 미치는지 또는 최소 제곱 선의 절편에 큰 영향을 미치는지 평가합니다. $x$ $x$

잔차가 큰 관측치는 특이 치 입니다. 이상치 관측은 방향 에서 최소 제곱 선에서 멀리 떨어져 있습니다 . $y$

Stattreck.com 은 잔차에서 특이 치를 결정하는 네 가지 방법을 설명합니다.

전체 패턴과 크게 다른 데이터 포인트를 이상치라고합니다. 데이터 포인트가 특이 치로 간주 될 수있는 네 가지 방법이 있습니다.

다른 데이터 포인트에 비해 극단적 인 X 값을 가질 수 있습니다.

다른 데이터 포인트와 비교하여 극단적 인 Y 값을 가질 수 있습니다.

극단적 인 X 및 Y 값을 가질 수 있습니다.

극단적 인 X 또는 Y 값이 없어도 나머지 데이터와 거리가 멀 수 있습니다.

이 두 출처는 서로 충돌하는 것 같습니다. 누구든지 내 혼란을 해결하는 데 도움이 될 수 있습니까? 또한 극한을 어떻게 정의합니까? 데이터 포인트가 (Q1-1.5IQR, Q3 + 1.5IQR) 외부에있는 경우 AP 통계는 규칙을 사용합니다. 잔차에서 그래프로 적용하는 방법을 모르겠습니다.

regression outliers residuals

— 마오 이이
소스

답변:

stattrek 사이트는 교과서보다 특이점과 영향력있는 점에 대해 훨씬 더 잘 설명하는 것처럼 보이지만 오해의 소지가있는 짧은 구절 만 인용했습니다. 나는 그 특정한 책을 가지고 있지 않기 때문에 문맥 상으로는 그것을 볼 수 없습니다. 인용 한 교과서에는 "잠재적으로"라고되어 있습니다. 독점적 인 것도 아닙니다. 이러한 점을 염두에두고 stattrek과 책이 반드시 동의하지는 않습니다. 그러나이 짧은 구절에서 특이점과 영향력있는 점의 유일한 차이점이 x 또는 y 축에서 벗어나는지 여부를 암시한다는 점에서 귀하의 책이 오도하는 것처럼 보입니다. 맞지 않습니다.

특이 치에 대한 "규칙"은 상황에 따라 다릅니다. 당신이 인용하는 규칙은 단지 경험의 법칙이며 그렇습니다. 실제로 회귀를 위해 설계된 것은 아닙니다. 그것을 사용하는 몇 가지 방법이 있습니다. 각 x에서 여러 y- 값을 상상하고 잔차를 검사하면 시각화하기가 더 쉬울 수 있습니다. 전형적인 교과서 회귀 예제는 그 특이 치 규칙이 어떻게 작동하는지 알기에는 너무 단순하며 대부분의 경우 매우 쓸모가 없습니다. 실제 생활에서는 훨씬 더 많은 데이터를 수집하기를 바랍니다. 특이 치에 대한 Quantile 규칙을 회귀 문제에 적용해야 할 경우 적절한 데이터를 제공해야합니다.

— 남자
소스

대답에 감사드립니다. 다른 책 이이 규칙을 실제로 말하지 않고 정직하게 말하지 않고 이러한 규칙을 진술하려고한다는 것은 성가신 일입니다.

— MaoYiyi

사실, 나는 그것이 틀렸다고 진술했다. 그것은 이론, 방법, 데이터에 달려있다.

— John

나는 존에 동의한다. 여기 몇 가지 더 있습니다. 영향력있는 관측 값은 (엄격히) 모수 추정값에 영향을줍니다. Y 값의 작은 편차는 추정 된 베타 파라미터에 큰 변화를줍니다. 하나의 변수를 다른 변수에 대한 간단한 회귀 분석에서 영향력있는 변수는 X 값이 X의 평균과 거리가 먼 변수입니다. 다중 회귀 (여러 독립 변수)에서는 상황이 더 복잡합니다. 소위 모자 행렬 의 대각선을보아야 합니다. 회귀 소프트웨어가이를 알려줄 것입니다. 구글 "레버리지". $X(X'X)^{-1}X'$

영향은 교과서에서 언급 한대로 디자인 포인트 (X 값)의 함수입니다.

영향력은 힘입니다. 설계된 실험에서 해당 Y 값을 정확하게 측정 할 수 있다고 가정하면 영향력있는 X 값을 원합니다. 그런 식으로 돈을 벌 수 있습니다.

나에게 이상 점은 기본적으로 실수입니다. 즉, 나머지 데이터와 동일한 모델을 따르지 않는 관측치입니다. 이는 데이터 수집 오류 또는 특정 주제가 어떤 식 으로든 비정상적이기 때문에 발생할 수 있습니다.

나는 몇 가지 이유로 stattrek의 이상치에 대한 정의를별로 좋아하지 않습니다. 회귀는 Y와 X에서 대칭이 아닙니다. Y는 랜덤 변수로 모델링되며 X는 고정되고 알려져 있다고 가정합니다. Y의 괴상함은 X의 괴상함과 같지 않습니다. 영향력과 특이점은 다른 것을 의미합니다. 다중 회귀 분석에서 잔차 그림을보고 영향이 감지되지 않습니다. 단일 변수 사례에 대한 특이 치 및 영향에 대한 자세한 설명은 다중 사례도 이해하도록 설정해야합니다.

나는 요한의 이유로 교과서를 더 싫어한다.

결론적으로 영향력있는 특이 치는 위험합니다. 그들은 면밀히 조사하고 다루어야합니다.

— 플라시 디아
소스

실제 실험이 표준 인 배경에서 온 경우 stattrek 회귀 설명을 싫어하는 것이 적절합니다. 당신의 이유는 모두 거기에 적용됩니다. 그러나 유사 실험 디자인이 더 일반적인 배경에서 온다면 stattrek 사이트는 더 관련성이 있습니다. 이 경우 x와 y 값은 종종 임의의 샘플 일뿐입니다.

— John

@John AP 통계 시험에 합격하려는 배경은 어떻습니까? 유사 실험 설계 란 무엇입니까? 시뮬레이션에 난수 테이블을 사용합니까?

— MaoYiyi

나는 AP 통계 시험에 대해 아무것도 모른다. 실제 실험은 예측 변수를 조작하고 여러 가설 또는 제어 및 실험 그룹 등을 테스트하기 위해 그룹을 만드는 실험입니다. 유사 실험 설계는 실험처럼 보이는 다른 모든 것입니다. 따라서 x 값이 weight이고 y 값이 스포츠 기술인 회귀를 상상해보십시오. 변수를 조작하지 않고 무작위로 두 가지를 모두 샘플링합니다. 따라서 Placidia의 stattrek에 대한 비판은 실제 실험에는 유효하지만 준은 아닙니다.

— John

@John ... 나는 설계된 실험이 금본위 제로 여겨지는 배경에서 왔습니다. 실제로, 나는 X와 Y가 종종 임의의 표본이라는 것을 알고 있습니다. 이는 회귀가 왜 사용되는지에 대한 질문을 제기하며 어떤 형태의 잠재 변수 분석이 아닙니다.

— Placidia

두 개의 변수 만 가지고있을 때 ... :) 때로는 하나의 것이 다른 것을 예측한다고 제안하는 좋은 이론이 있습니다. 예를 들어 NBA에 들어갈 확률과 높이는 무작위 샘플입니다. 하나 또는 몇 개의 (특히 상관되지 않은) 선형 관계 회귀가있는 경우에 좋습니다.

— John