다중 회귀 가정 : 정규 가정은 상수 분산 가정과 어떻게 다릅니 까?


20

다중 회귀 모델을 사용하기위한 조건이라는 것을 읽었습니다.

  1. 모형의 잔차는 거의 정상입니다.
  2. 잔차의 변동성은 거의 일정합니다
  3. 잔차는 독립적이며
  4. 각 변수는 결과와 선형으로 관련됩니다.

1과 2는 어떻게 다릅니 까?

여기서 하나를 볼 수 있습니다.

여기에 이미지 설명을 입력하십시오

따라서 위의 그래프는 2 표준 편차 인 잔차가 Y-hat에서 10 떨어져 있다고합니다. 이는 잔차가 정규 분포를 따른다는 것을 의미합니다. 이것으로부터 2를 추론 할 수 없습니까? 잔차의 변동성이 거의 일정합니까?


7
나는 그 순서 가 잘못 되었다고 주장합니다 . 중요하게, 나는 4, 3, 2, 1이라고 말할 것입니다. 이런 식으로, 각각의 추가 가정은 가장 제한적인 가정에서 질문의 순서와 반대로 모델을 사용하여 더 큰 문제 세트를 해결할 수 있습니다. 첫 번째입니다.
Matthew Drury

2
추론 통계에는 이러한 가정이 필요합니다. 제곱 오차의 합계를 최소화 할 가정은 없습니다.
David Lane

1
나는 1, 3, 2, 4를 의미한다고 생각합니다 .1은 모델이 거의 유용하기 위해서는 적어도 대략적으로 충족되어야합니다 .3은 모델이 일관성을 유지하기 위해 필요합니다. 즉, 더 많은 데이터를 얻을 때 안정적인 것으로 수렴하십시오. , 2는 추정이 효율적이기 위해 필요하다. 즉, 동일한 라인을 추정하기 위해 데이터를 사용하는 다른 더 좋은 방법은 없으며, 적어도 대략 4는 추정 된 파라미터에 대해 가설 테스트를 실행하는 데 필요하다.
Matthew Drury


2
자신의 작품이 아닌 경우 다이어그램 소스를 제공하십시오.
Nick Cox

답변:


44

1. 잔차의 정규 분포 :

신뢰 구간 및 / 또는 p- 값을 얻으려고 할 때 정규성 조건이 적용됩니다.

Gauss Markov 조건이 아닙니다.ε|X(0,σ2나는)


여기에 이미지 설명을 입력하십시오

이 그림은 모집단의 회귀선이 단색 시안 색 선인 파란색으로 점의 분포를 나타내려고합니다 (추정 회귀선은 파선으로 표시됨). 분명히 이것은 의 각 값에 대해 무한대 점이 있기 때문에 개념적 소비만을위한 것입니다. 따라서 평균 주위의 값의 지속적인 분포 (예측 값에 해당)로서 회귀 개념의 그래픽 아이콘 화 회귀 변수 또는 설명 변수의 각 주어진 값에서 "독립적"변수).엑스=엑스

시뮬레이션 된 "인구"데이터에 대해 진단 R 플롯을 실행하면 다음과 같은 결과를 얻을 수 있습니다.

여기에 이미지 설명을 입력하십시오

X.

일반적인 줄거리는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오


개념적으로 여러 회귀 변수 나 설명 변수를 도입해도 아이디어가 바뀌지 않습니다. 패키지의 실습 튜토리얼은 swirl()다중 회귀가 실제로 종속 변수를 서로 회귀 처리하여 모델에서 설명 할 수없는 잔차를 전달하는 과정을 이해하는 데 매우 도움이됩니다. 또는 간단히 말해서, 벡터 선형 형태의 간단한 선형 회귀 :

일반적인 기술은 하나의 회귀자를 선택하고 다른 모든 변수를 해당 회귀의 잔차로 대체하는 것입니다.


2. 잔차의 변동성은 거의 일정합니다 (Homoskedasticity) .

E[εi2|X]=σ2

이 조건을 위반 하는 문제 는 다음과 같습니다.

이분산성은 OLS 추정기에 심각한 결과를 초래합니다. OLS 추정기는 편향되지 않은 상태로 남아 있지만 추정 된 SE는 잘못되었습니다. 이로 인해 신뢰 구간 및 가설 검정에 의존 할 수 없습니다. 또한 OLS 추정기는 더 이상 파란색이 아닙니다.


여기에 이미지 설명을 입력하십시오

이 그림에서 분산은 일정하게 유지되는 것과 반대로 회귀 변수 (설명 변수)의 값에 따라 증가합니다. 이 경우 잔차가 정규 분포를 따르지만이 정규 분포의 분산은 설명 변수에 따라 변경 (증가)됩니다.

"참"(인구) 회귀선은 첫 번째 도표 (진한 진한 파란색)의 동종 이력 하에서 모집단 회귀선과 관련하여 변하지 않지만 추정치가 더 불확실하다는 것은 직관적으로 분명합니다.

데이터 세트의 진단 플롯은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

이것은 "헤비 테일 (heavy-tailed)"분포 에 해당합니다. 이는 모든 "나란히"수직 가우시안 플롯을 단일 벨크로 망원경으로 만들어 종 모양을 유지하지만 꼬리는 매우 깁니다.


@Glen_b "... 둘 사이의 구별에 대한 완전한 적용은 또한 호 모스 케이크-하지만 비정규를 고려할 것입니다."

여기에 이미지 설명을 입력하십시오

잔차는 매우 치우치고 설명 변수의 값에 따라 분산이 증가합니다.

이것은 진단 플롯 일 것입니다 ...

여기에 이미지 설명을 입력하십시오

오른쪽으로 치우친 표시에 해당합니다.

루프를 닫으려면 가우시안이 아닌 오류 분포를 갖는 균일도 모델에서 기울어 짐을 볼 수 있습니다.

여기에 이미지 설명을 입력하십시오

진단 플롯으로 ...

여기에 이미지 설명을 입력하십시오


2
대단히 감사합니다. 시각화 도구로 활용 된 인구의 총 이산화를 연결하는 것이 필요하다고 느꼈습니다. 코드를 게시 할 수도 있지만 어느 정도 창의적인 수학이 있었기 때문에 주저합니다 :-)
Antoni Parellada

3
두 가지를 모두 만족시키는 플롯을 표시 한 다음 비정형 적이지만 정상적이지 않은 모 수성을 나타내는 플롯으로 정상 오차와 동정도 오차의 차이를 보여줍니다. 나는 둘 사이의 구별에 대한 완전한 적용 범위가 호 모스 케이크하지만 비정규라고 생각할 것입니다. [이러한 그림을 추가하지는 않겠지 만 사람들이 가정을 고려할 때 마음에 두는 데 유용한 제 3의 팔입니다.]
Glen_b -Reinstate Monica

7

그것은 OP의 잘못이 아니지만, 이런 식으로 읽는 잘못된 정보를 읽기 시작했습니다.

다중 회귀 모델을 사용하기위한 조건이라는 것을 읽었습니다.

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

"다중 회귀 모델"은 하나의 변수가 다른 변수의 함수로 표현 될 수 있음을 선언하는 레이블 일뿐입니다.

실제 오차 항이나 모형의 잔차가 특히 거의 필요하지는 않습니다. 잔차가 정상으로 보이면 후속 통계 추론에 좋습니다.

오차항의 변동성 (변동성)은 거의 일정 할 필요는 없습니다. 그렇지 않은 경우, 요즘에는 다소 쉽게 처리 할 수있는 이분산성을 갖는 모델이 있습니다.

각 샘플이 전체 샘플의 함수이므로 잔차는 어떤 경우에도 독립적이지 않습니다. 사실 오류 조건은 그렇지 않은 우리가 이분보다 더 어려운 있지만, 어느 정도까지 처리 할 수있다, 자기 상관 가진 모델이 -if 독립적 일 필요는 없다.

각 변수는 결과와 선형으로 관련 될 필요는 없습니다. 실제로 "선형"과 "비선형"회귀의 구별은 변수 간의 관계와 관련이 없지만 미지의 계수 가 관계에 들어가는 방식과는 관련이 없습니다.

말할 수있는 것은 처음 세 개의 홀드와 네 번째 홀드가 올바르게 언급되면, 다중 회귀 모델 중 하나 (역사적으로 첫 번째) 변형 인 "클래식 정규 선형 회귀 모델"을 얻는다는 것입니다.


3
XβXβ엑스
Glen_b-복지 모니카

2
그리고 오류 항의 조건부 기대치가 0이라는 절대적인 기본 가정이 문제에 빠졌습니다!
Matthew Gunn

1
@MatthewGunn 글쎄, 이것은 우리가이 모델로 무엇을하고 있는지에 대한 매우 큰 토론을 시작한다. 만약 우리가 "결정 론적 / 엔지니어링"관점을 취한다면, 특정 성 (deteratioatio)이 실제로 결정 론적 결정론적임을 확실히하기 위해서는이 가정이 필요하다. 특정 회귀 변수와 관련 하여 조건부 기대 함수를 추정하려면 좌표가 자동으로 충족됩니다 (또는 적어도 약한 형태, 직교성).
Alecos Papadopoulos

1
@AlecosPapadopoulos 네, 어떤 의미에서, 보통 최소 제곱은 항상 당신에게 무언가의 견적을 제공합니다! 그러나 그것은 당신이 원하는 것이 아닐 수도 있습니다. OP가 특정 회귀 변수에 대해 선형의 조건부 기대 함수를 원한다면 조건이 자동으로 가정된다는 데 동의합니다. 그러나 OP가 일부 매개 변수를 추정하려고하면 직교 조건을 정당화하는 것이 중요합니다!
Matthew Gunn

@MatthewGunn 사실, 이것은 확실합니다.
Alecos Papadopoulos 16:04에

3

Antoni Parellada는 멋진 그래픽 일러스트로 완벽한 답을 얻었습니다.

두 문장의 차이점을 요약하기 위해 하나의 주석을 추가하고 싶습니다.

  1. 모델의 잔차는 거의 정상입니다

  2. 잔차의 변동성은 거의 일정합니다

  • 명령문 1은 잔차 의 "모양""종 모양 곡선"을 나타 냅니다.
  • 성명서 2 는 Antoni Parellada의 도표 3에서 "모양"분포 를 수정합니다 (상수 임). 3 개의 종 모양 곡선이 있지만 서로 다른 분포입니다.

1

하나의 고유 한 회귀 가정 세트는 없지만 몇 가지 변형이 있습니다. 이러한 가정 중 일부는 다른 가정보다 더 엄격합니다. 또한 대부분의 경우 필요하지 않으며 대부분의 경우 분포가 정상이라고 가정 할 수 없습니다.

인용 한 가정은 가장 엄격한 가정이지만 불필요하게 느슨한 언어로 공식화됩니다. 예를 들어, 정확히 거의 무엇입니까? 또한 가정을 부과하는 잔차 가 아니며 오류 입니다. 잔차는 관측 가능한 오차의 추정치입니다. 이것은 당신이 가난한 출처에서 인용하고 있음을 말해줍니다. 버리세요.

귀하의 질문에 대한 간단한 대답은 오류에 대한 학생 분포 (예 : 학생 t 분포)를 고려하면 (정답에 올바른 용어를 사용하려고합니다) 오류가 "거의 일정하지 않은"변이를 가질 수있는 방법을 볼 수 있다는 것입니다 정규 분포에서 벗어나지 않고 "거의 일정한"분산을 갖는 방법에는 정규 분포가 필요하지 않습니다. 다시 말해서, 추가 요구 사항 없이는 하나의 가정을 다른 가정에서 고안 할 수 없습니다.

yi=Xiβ+εiεiN(0,σ2)
  1. N(.)
  2. σεi
  3. NX
  4. y=Xβ

따라서 모든 가정을 하나 또는 두 개의 방정식으로 묶으면 서로 의존하는 것처럼 보일 수 있습니다. 이는 사실이 아닙니다. 다음에 이것을 보여 드리겠습니다.

실시 예 1

yi=Xiβ+εiεitν
ν 자유도를 입니다. 물론 오차는 일정한 분산을 가지며 가우시안이 아닙니다.

실시 예 2

yi=Xiβ+εiεiN(0,σ2i)
i

1

토론에 새로운 차원을 추가하고 더 일반적으로 만들려고 노력했습니다. 너무 초보적인 경우 실례합니다.

회귀 모형은 통계적 관계의 두 가지 필수 요소를 표현하는 공식적인 수단입니다.

  1. 와이엑스
  2. 포인트 산란 통계적 관계의 곡선 주변.

와이

그것을 가정함으로써 :

  1. 확률 분포와이 각 레벨마다 엑스.

  2. 이러한 확률 분포수단은 다음 과 같은 체계적인 방식 으로 다양합니다.엑스.

회귀 모델의 형태와 다를 수 회귀 함수 (직선, 곡선) 에서 의 확률 분포의 형상와이 (대칭, 기울어 짐) 및 다른 방법으로.

변동이 무엇이든, 확률 분포의 개념은와이 어떤 주어진 엑스 통계적 관계에서 경험적 분산에 대한 공식적인 대응이다.

마찬가지로 회귀 곡선 은 확률 분포의 평균 간의 관계를 설명합니다.와이 그리고의 수준 엑스일반적인 경향에 대응와이 에 따라 엑스 체계적으로통계적 관계에서 .

출처 : 응용 선형 통계 모형, KNNL

정규 오차 회귀 모형에서 평균의 조건부 분포를 추정하려고합니다. 와이 주어진 엑스 그것은 아래와 같이 쓰여 있습니다 :

와이나는=β0 +β1엑스나는+ϵ
어디에:

와이나는 관찰 된 반응이다 엑스나는 알려진 상수, 예측 변수 수준

β0β1 매개 변수입니다

ϵ 독립적이다 (영형,σ2)

나는 = 1, ..., n

따라서 추정 이자형(와이|엑스) 우리는 다음 세 가지 매개 변수를 추정해야합니다. β0, β1σ2. 우도 함수 wrt의 부분 미분을 취함으로써β0, β1σ2그것들을 0과 동일시합니다. 이것은 정규성을 가정하면 비교적 쉬워집니다.

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

1과 2는 어떻게 다릅니 까?

질문에 오기

귀하가 명시한 첫 번째 및 두 번째 가정은 평균이 일정하고 분산이 일정한 정규성 가정의 두 부분입니다. 문제는 두 가정의 차이보다는 정상적인 오류 회귀 모델에 대한 두 가정의 의미로 간주되어야한다고 생각합니다. 나는 당신이 사과를 오렌지와 비교하는 것처럼 보이기 때문에 점의 분포에 대한 가정과 변동성에 대한 가정 사이의 차이를 찾으려고 노력하고 있습니다. 변동성은 분포의 속성입니다. 그래서 저는 두 가정의 의미에 대한보다 관련성있는 질문에 답하려고 노력할 것입니다.

정규성을 가정 할 때 최대 가능성 추정기 (MLE)는 최소 제곱 추정기와 동일하며 MLE은 UMVUE 라는 속성을 즐기므로 모든 추정기 사이에 최소 편차가 있습니다.

균일도 가정으로 매개 변수에 대한 구간 추정치를 설정할 수 있습니다. β0β1그리고 유의성 테스트를합니다. -test는 정규성에서 약간의 편차에 대한 통계적 유의성을 확인하는 데 사용됩니다.


1
이것은 회귀에 대한 훌륭한 설명입니다. 그러나이 스레드의 특정 질문에 어떻게 대답합니까?
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.