회귀 : 왜 조건부 잔차 대신에 전체 잔차의 정규성을 테스트 합니까?


10

선형 회귀 분석에서 오류는 y의 예측 값에 따라 정규 분포로 가정된다는 것을 이해합니다. 그런 다음 잔차를 오류에 대한 일종의 프록시로 봅니다.

다음과 같이 출력을 생성하는 것이 좋습니다 여기에 이미지 설명을 입력하십시오. 그러나 각 포인트의 잔차를 가져 와서 단일 플롯으로 묶는 점이 무엇인지 이해하지 못합니다.

예측 된 각 y 값에서 정규 잔차가 있는지 여부를 제대로 평가하기에 충분한 데이터 포인트가 없을 것임을 이해합니다.

그러나 우리가 전반적으로 정규 잔차를 가지고 있는지에 대한 문제는 아니며, 각각의 예측 된 y 값에서 정규 잔차의 모형 가정과 명확하게 관련이없는 것입니까? 예측 된 각 y 값에서 정규 잔차를 가질 수는 없지만 전체 잔차는 상당히 비정규 적입니까?


1
개념 몇 가지 장점이있을 수 있습니다 - 아마 여기에 도움이 될 수 부트 스트랩 (잔차의 복제를 얻을 수 있습니다)
probabilityislogic

2
당신에 대한 참조 줄 수 Y의 예측 값을 조건으로 오류가 정규 분포되는 것으로 가정 선형 회귀를, (어떤이있는 경우)?
Richard Hardy

질문을 게시 할 때 특별한 소스를 염두에 두지 않았지만 "모델링 가정은 응답 변수가 일반적으로 일정한 분산으로 회귀선 (조건부 평균의 추정치) 주위에 분포되어 있다는 것입니다." 에서 여기 . 내가 잘못하면 추가 의견을 환영합니다.
user1205901-복원 Monica Monica

답변:


17

예측 된 각 y 값에서 정규 잔차를 가질 수는 없지만 전체 잔차는 상당히 비정규 적입니까?

최소한, 오류의 분산이 일정하다는 표준 가정 하에서는 아닙니다.

전체 잔차의 분포를 정규 분포의 혼합으로 생각할 수 있습니다 (각 레벨의 대해 하나씩 ). 가정하면, 이러한 정규 분포는 모두 평균 (0)과 분산이 같습니다. 따라서이 법선 혼합의 분포는 그 자체로 단순히 정규 분포입니다.y^

그래서 이것으로부터 우리는 작은 실로 즘을 형성 할 수 있습니다. 예측 변수 X의 값이 제공된 개별 분포가 정규 분포이고 분산이 같으면 전체 잔차 분포가 정규 분포입니다. 따라서 전체 잔차의 분포가 명백하게 정상이 아니라는 것을 알면 이는 X가 주어진 분포가 동일한 분산으로 정규적이지 않다는 것을 의미합니다. 이것은 표준 가정을 위반하는 것입니다.


1
@Jake_Westfall, 확실하지 않습니다. 공동 가우스 분포를 갖는 변수의 유한 선형 조합은 가우스 분포를 가짐을 알고 있습니다. 그러나 무한 조합은 어떻습니까? 즉, .Given 그 , 왜해야 반드시 정상? 에 따라 다릅니다 . 이후 있습니다 에 에어컨 또는 실제로 변경 아무것도하지 않습니다. P ( ε | X ) P ( ε ) P ( X ) Y = β 0 + β 1 X Y Xp(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)와이^=β0+β1엑스와이^엑스
DeltaIV

비정규 한계 한계는 비정규 조건을 "거부"할 수 있지만 정상 한계 한계는 정상 조건을 "수락"할 수 없다고 말하는 것이 적절합니까?
shadowtalker

6
@DeltaIV, 정규 분포에는 평균과 분산의 두 매개 변수 만 있습니다. 오차가 1) 정규 분포, 2) 평균이 0, 분산 상수가 3 인 경우 혼합 할 항목이 없습니다. 당신의 표기법에서 . 따라서 는 적분에서 제외되고 적분은 1로 적분되어 사라지고 정상적인 상태로 남게됩니다. 의 p- 혼합물 은 입니다. p ( ϵ ) N ( 0 , σ 2 ) N ( 0 , σ 2 )p(ϵ|x)=p(ϵ)p(ϵ)(0,σ2)(0,σ2)
Bill

1
@Bills 실제로 여기에 필요한 필수 포인트가 될 수 있습니다 : . 그것은 답변이 ε | 엑스(0,σ2)ε(0,σ2)
말하는

@ssdecontrol 답에서 : " 예측 자 X의 값이 주어진 개별 분포가 정상이고 분산이 같으면 전체 잔차의 분포가 정상입니다. "얼마나 더 명확한 지 확실하지 않습니까?
Jake Westfall

3

그것은 말했다오차가 동질적이고 연속적으로 상관되지 않을 때 선형 비 편향 추정기의 클래스에서 y (OLS)의 최소 최소 제곱이 최적이라는 점. 균일 성 잔차에 대해, 잔차의 분산은 x 축에서 잔차 크기의 변동을 측정하는 위치와 무관합니다. 예를 들어, 측정 오차가 y 값 증가에 비례하여 증가한다고 가정 해보십시오. 그런 다음 회귀 분석을 수행하기 전에 이러한 y 값의 로그를 취할 수 있습니다. 그렇게하면 대수를 취하지 않고 비례 오차 모델을 피팅하는 것과 비교하여 피팅 품질이 향상됩니다. 일반적으로 동질성을 얻기 위해서는 y 또는 x 축 데이터의 역수, 로그, 제곱 또는 제곱근을 취하거나 지수를 적용해야 할 수도 있습니다. 이에 대한 대안은 가중치 기능을 사용하는 것입니다. (y모델)2(와이모델)2와이2 는 최소화하는 것보다 효과적 입니다.(와이모델)2

많이 말했듯이 잔차를 더 균일하게 만드는 것이 더 정규 분포를 만들지 만, 종종 균일 성질이 더 중요합니다. 후자는 우리가 회귀를 수행하는 이유에 달려 있습니다. 예를 들어, 데이터의 제곱근이 대수를 사용하는 것보다 일반적으로 분포되어 있지만 오차가 비례 유형 인 경우, 대수의 t- 검정은 모집단 또는 측정 값의 차이를 탐지하는 데 유용하지만 예상치를 찾는 데 유용합니다 데이터의 제곱근 만 평균, 모드 및 중앙값이 같을 것으로 예상되는 대칭 분포이므로 값의 데이터는 제곱근을 사용해야합니다.

더욱이, y 축 값의 최소 오차 예측자를 제공하는 답을 원하지 않는 경우가 종종 있으며, 이러한 회귀는 심하게 편향 될 수 있습니다. 예를 들어, 때때로 x에서 최소 오류에 대해 회귀를 원할 수 있습니다. 또는 때때로 우리는 y와 x의 관계를 밝히기를 원하며 이는 일상적인 회귀 문제가 아닙니다. 그런 다음 Theil, 즉 중간 경사, 회귀를 x와 y 최소 오류 회귀 사이의 가장 단순한 절충으로 사용할 수 있습니다. 또는 x와 y에 대한 반복 측정의 분산이 무엇인지 알면 데밍 회귀를 사용할 수 있습니다. 이상 회귀가 많을수록 더 나은 회귀가 발생하는데, 이는 보통의 회귀 결과에 끔찍한 일을합니다. 그리고 중앙 경사 회귀의 경우 잔차가 정규 분포인지 여부는 중요하지 않습니다.

BTW, 잔차의 정규성이 반드시 유용한 선형 회귀 정보를 제공하지는 않습니다.예를 들어, 두 개의 독립적 인 측정을 반복 측정한다고 가정합니다. 우리는 독립성을 가지기 때문에 예상되는 상관 관계는 0이며 회귀선 기울기는 유용한 기울기가없는 임의의 숫자 일 수 있습니다. 우리는 위치의 추정, 즉 평균 (또는 평균 (또는 하나의 피크를 갖는 코카 또는 베타 분포) 또는 가장 일반적으로 모집단의 예상 값)을 설정하기 위해 측정을 반복하고 그로부터 x와 분산의 분산을 계산합니다. y로, 데밍 회귀 또는 기타로 사용될 수 있습니다. 또한, 원래 모집단이 정규 인 경우 중첩이 동일한 평균에서 정규적이라는 가정은 유용한 선형 회귀를 유발하지 않습니다. 이것을 더 수행하기 위해 그런 다음 초기 매개 변수를 변경하고 다른 Monte Carlo x 및 y- 값 함수 생성 위치로 새 측정을 설정하고 첫 번째 실행으로 해당 데이터를 대조한다고 가정하십시오. 그러면 모든 x 값에서 y 방향으로 잔차가 정상이지만 x 방향에서 히스토그램에는 두 개의 피크가 있으며, 이는 OLS 가정과 일치하지 않으며 기울기와 절편은 하나이므로 바이어스됩니다. x 축에 동일한 간격 데이터가 없습니다. 그러나 대조 된 데이터의 회귀는 이제 명확한 기울기와 절편을 가지지 만 이전에는 그렇지 않았습니다. 또한 반복 샘플링으로 두 점만 실제로 테스트하기 때문에 선형성을 테스트 할 수 없습니다. 실제로 상관 계수는 같은 이유로 신뢰할 수있는 측정이 아니며,

반대로, 때때로 오류가 회귀 변수에 대해 정규 분포를 갖는 것으로 가정됩니다. OLS 방법의 유효성에는이 가정이 필요하지 않지만, 경우에 따라 (특히 가설 검정 영역에서) 특정 추가 유한 샘플 특성을 설정할 수 있지만 여기를 참조 하십시오.. 그렇다면 OLS가 나중에 올바른 회귀 분석입니까? 예를 들어, 매일 같은 시간에 종가를 정확하게 측정 할 때 t- 축 (Think x- 축) 분산이 없습니다. 그러나 마지막 거래 (결산) 시간은 무작위로 분배되며 변수 간의 관계를 발견하기위한 회귀는 두 가지 분산을 모두 포함해야합니다. 그러한 상황에서, y의 OLS는 y 값의 최소 오차 만 추정 할 것인데, 이는 그 합의 시간 자체도 예측 될 필요가 있기 때문에 합의에 대한 거래 가격을 추정하기에는 좋지 않은 선택입니다. 또한 정규 분포 오차는 감마 가격 모델 보다 열등 할 수 있습니다 .

그게 무슨 상관이야? 음, 일부 주식은 1 분에 여러 번 거래되고 다른 주식은 매일 또는 매주 거래되지 않으며, 다소 큰 숫자 차이를 만들 수 있습니다. 그래서 그것은 우리가 원하는 정보에 달려 있습니다. 시장이 내일 마감 될 때 어떻게 행동 할 것인지 묻고 싶다면즉, OLS "유형"질문이지만 대답은 비선형 비정규 잔차 일 수 있으며 외삽을위한 올바른 곡률을 설정하기 위해 미분 적합치 (및 / 또는 높은 모멘트)와 일치하는 형상 계수를 갖는 적합 함수가 필요합니다. . (예를 들어 입방 스플라인을 사용하는 기능뿐만 아니라 파생 상품에 적합 할 수 있으므로 파생 계약의 개념은 거의 탐구되지 않더라도 놀라운 일이 아닙니다.) 우리가 돈을 벌지 여부를 알고 싶다면 특정 주식에 대해서는 문제가 이변 량이므로 OLS를 사용하지 않습니다.


1
정규성이 충분하지만 유효한 추론에 필요하지 않다고 말 하시겠습니까? 구체적으로 이분산성을 테스트하지 않는 이유는 무엇입니까? 확실히 잔차의 두꺼운 꼬리 분포가 조건부 정규성 가정이 틀렸다는 것을 의미하지는 않습니까? 그러나 두꺼운 꼬리 잔차는 설계 상 잔차에 대한 정규성 검정에 실패합니다.
shadowtalker

t- 검정의 동질성 검사는 종종 더 중요합니다. 특이 치 때문에 1.359 SD >> IQR이 t 테스팅의 힘을 줄입니다. 그런 다음 재 파라미터 화 또는 Wilcoxon 테스트를 시도하십시오.이 테스트는 분포 유형이나이 분산 정도에 관계없이 대부분의 환경에서 작동합니다 (r> 0.9999 일 때는 아닐 수 있음). 실제로, 몇 가지 유사한 매개 변수를 테스트하는 경우 Wilcoxon 또는 t-testing은 낮고 높은 확률을 정렬하는 데 더 효과적이므로 데이터 자체가 더 유용한 것을 종종 선언합니다.
Carl

1.349 SD >> IQR로 만드십시오. 1.349는 정규 분포가 하나의 사 분위수 범위 (IQR)에 대해 갖는 SD의 수입니다. Cauchy 분포와 같은 일부 분포 또는 자유도가 2 인 Student 's t에는 SD가없고, 특이 치가이를 죽이지 만 IQR이있는 경우 Wilcoxon 또는 기타 비모수 적 테스트를 위치 테스트로 사용합니다.
Carl

추가로 생각하면 (응답의 새로운 자료 참조) y 축 잔차의 정규성은 갖는 것이 좋지만 충분하지 않습니다.
Carl

두꺼운 꼬리 분포는 회귀 방정식에 끔찍한 일을합니다. 예를 들어, 데이터 세트에서 가능한 모든 기울기를 검사하면 일반적으로 1 자유도를 가진 AKA Student ' s t 기울기의 Cauchy 분포를 얻습니다 . 코시 분포에는 순간이 없습니다. 즉, 평균 및 표준 편차를 계산할 수 있고 데이터가 많을수록 평균 및 표준 편차가 더 불규칙하게됩니다. Cauchy 분포의 예상 값은 중앙값이며 평균을 계산하려면 극한 값을 검열해야합니다.
Carl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.