Y를 정규 분포해야한다는 오해는 어디에서 오는가?


45

겉보기에 평판이 좋은 소스는 종속 변수가 정상적으로 분포되어야한다고 주장합니다.

모형 가정 : 는 정규 분포, 오차는 정규 분포 및 독립적이며 는 고정되어 있으며 상수 분산은 입니다.YeiN(0,σ2)Xσ2

Penn State, STAT 504 불연속 데이터 분석

둘째, 선형 회귀 분석에서는 모든 변수가 다변량 정규이어야합니다.

통계적 해법, 선형 회귀 가정

이것은 반응 변수가 정규 분포를 가질 때 적합합니다

Wikipedia, 일반화 된 선형 모델

이 오해가 어떻게 또는 왜 퍼 졌는지에 대한 좋은 설명이 있습니까? 기원이 알려져 있습니까?

관련


17
슬퍼. 당신은 여기서 좋은 일을하고 있습니다 ...
jbowman

7
나는 의 한계 분포가 필요한 선형 회귀를 사용 하거나 모든 변수 의 결합 이 다변량 법선 인 상황을 알지 못합니다 . 저에게는 오해처럼 보입니다. Y
Matthew Drury

8
@MichaelChernick "Y is normal distribution"은 특허 적으로 허위입니다. R에서 체크 아웃 : X <- runif(n=100)다음 Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)다음 X 나 Y가 모두 정규 분포되어 자신을 설득하기 위해 히스토그램 재생합니다. 그런 다음 summary(lm(Y ~ X))절편이 3에 얼마나 가깝고 X의 기울기가 0.5에 얼마나 가까운 지주의를 기울이십시오. 오류가 정상적으로 분포되어 있다고 가정합니다.
Alexis

9
@Alexis 저는 Michael이 말하려고 한 것은 다변량 정규성 가정은 충분 하지만 필요 하지 않다고 믿습니다 . 그것이 위키피디아의 인용문을 읽어야하는 방식입니다. 이러한 가정이 필요하다고 주장하는 데있어서 두 번째 인용은 분명히 틀렸다. 첫 번째 인용문은 모호하지만 Michael이 밝힌 의미로 관대하게 읽을 수 있습니다.
whuber

6
내가 말한 것은 정규성 가정이 특정 속성을 암시한다는 것입니다. 예를 들어, 단순 선형 회귀 분석에서 오차 항이 평균이 0이고 일정 분산이있는 iid 정상이라고 가정하면 회귀 모수의 최소 제곱 추정값이 최대 우도입니다. 정규 최소 자승을 제외한 모든 가정을 유지하는 것은 더 이상 최대 가능성이 아니지만 여전히 최소 편차입니다.
Michael Chernick

답변:


13

'Y는 정규 분포이어야합니다'

곰팡내 나게 하다?


언급 한 경우 느슨한 언어 ( 'Y의 오류는 정상적으로 분포되어야'으로 약칭 )이지만 응답 이 정상적으로 분포 되어야 한다고 말하지 는 않습니다. 나는 그들의 말이 그렇게 의도되었다고 생각합니다.

펜 스테이트 코스 자료

에 대해 말하는 "연속 변수 "Y , 또한 "에 대한 에서와 같이" 우리가 생각 할 수 에서 호출 아메바로하고, 의견 '조건', 정규 분포,Yi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

이 기사는 와 서로 바꿔서 사용 합니다. 전체 기사에서 'Y의 분포'에 대해 말합니다. YYi

  • GLM (이진 로지스틱 회귀)의 변형을 설명 할 때

    임의 성분 : 분포 것으로 가정 , ...YBinomial(n,π)

  • 일부 정의에서

    랜덤 성분 – 반응 변수 ( ) 의 확률 분포를 나타냅니다 . 예를 들어 선형 회귀 분석에서 에 대한 정규 분포 또는 이항 로지스틱 회귀 분석에서 에 대한 이항 분포입니다 .YYY

그러나 다른 시점 에서는 대신 를 참조합니다 .YiY

  • 종속 변수 는 정규 분포가 필요하지 않지만 일반적으로 지수 군 (예 : 이항, 포아송, 다항식, 정규 분포)으로부터의 분포를 가정합니다.Yi

statisticssolutions 웹 페이지

매우 간단하고 단순화 된 양식화 된 설명입니다. 나는 당신이 이것을 진지하게 받아 들여야한다는 것을 확신하지 못한다. 예를 들어

.. 모든 변수가 다변량 정규 이어야 합니다 ...

그것은 단지 반응 변수가 아닙니다.

또한 '다변량'서술자는 모호합니다. 어떻게 해석 해야할지 모르겠습니다.

위키 백과 기사

괄호 안에 설명 된 추가 컨텍스트가 있습니다.

정규 선형 회귀 분석에서는 주어진 알 수없는 수량 (응답 변수, 랜덤 변수)의 예상 값을 일련의 관측 값 (예측 자)의 선형 조합으로 예측합니다 . 이는 예측 변수의 지속적인 변화가 반응 변수의 일정한 변화 (즉, 선형-반응 모델)로 이어진다는 것을 의미합니다. 이는 반응 변수가 정규 분포를 갖는 경우에 적합합니다 (직관적으로, 반응 변수가 고정 된 "제로 값"이없는 방향으로 본질적으로 무한정 변할 수 있거나 더 일반적으로 상대적으로 적은 양, 예를 들어 사람에 의해서만 변하는 양에 대해 변할 수있는 경우) 높이).

이 '고정 된 제로 값 없음'은 에 무한 도메인 (마이너스 무한대에서 무한대까지 이있는 경우 선형 조합 경우 가 많지만 종종 많은 변수에 일부가 있습니다 유한 컷오프 값 (음수 값을 허용하지 않는 카운트).y+ϵϵN(0,σ)

특정 행은 2012 년 3 월 8 일 에 추가 되었지만 Wikipedia 기사의 첫 번째 행에는 여전히 " 정규 분포 이외의 오차 분포 모델 이있는 반응 변수를 허용하는 정규 선형 회귀의 유연한 일반화 "라고 되어 있습니다. 너무나도 (어디서나) 잘못되었습니다.


결론

그래서, (실제로 수있는이 세 가지 예에 따라 생성 오해를, 또는 적어도 오해 될 수있다) 나는 그 언급하지 않았다 "이러한 오해가 확산있다" . 또는 적어도이 세 가지 예의 의도는 Y가 정규 분포이어야한다고 주장하는 것 같지는 않습니다 (이 문제는 이전에 스택 교환, 정규 분포 오류와 정규 분포 응답 변수 사이의 스왑에서 발생했음을 기억합니다) 만들기 쉽다).

따라서 'Y가 정상적으로 분포되어야한다'는 가정은 널리 퍼져있는 믿음 / 오해 (빨간 청어처럼 퍼지는 것에서처럼)가 아니라 일반적인 오류 ( 확산 되지 않고 매번 독립적으로 만들어 짐)와 비슷합니다. ).


추가 의견

이 웹 사이트의 실수의 예는 다음 질문에 있습니다

잔차가 정규 분포이지만 y가 분포되지 않은 경우 어떻게됩니까?

나는 이것을 초보자 질문으로 생각할 것입니다. 그것은 Penn State 코스 자료, Wikipedia 웹 사이트와 같은 자료에는 존재하지 않으며 최근에는 주석에서 'R을 사용한 선형 회귀 확장'이라는 책을 언급했습니다.

그 작품의 작가는 자료를 올바르게 이해합니다. 실제로, 그들은 'Y는 정규 분포해야합니다'와 같은 문구를 사용하지만, 문맥과 사용 된 공식에 따라 모두 'Y는 X에 대한 조건부, 정규 분포되어야 함'을 의미하며 '마진 Y는 반드시 정상적으로 배포됩니다. ' 그들은 아이디어 자체를 오해하지 않으며, 적어도 아이디어는 책과 다른 코스 자료를 쓰는 통계 학자와 사람들 사이에 널리 퍼져 있지 않습니다. 그러나 그들의 모호한 말을 오해하면 실제로 오해를 일으킬 수 있습니다.


3
+1 그건 : 우리 모두 여기에 Y의 한계 정규성을 주장하는 많은 질문을 본 것 같습니다 ... 오해의 확산이 있습니다. :)
Alexis

그렇습니다. 'y 정규 분포'라는 가정이 자주 발생한다는 데 동의합니다 (예를 쉽게 찾을 수는 없지만 사람들이 간단한 키워드가 아닌 행 사이에 이러한 내용을 설명하기 때문일 수 있습니다). 그러나 나는 이것이 '공통적 인'것이 아니라 '많은' 확산 되고있는 ' 것이 아니라고 믿는다 . 그리고 적어도 OP가 제시 한 세 가지 예는 그리 강력하지 않습니다 (언어의 병리 적 사용과 오류의 원인을 설명하지만 오해의 확산을 나타내는 의미로는 강력하지 않습니다).
Sextus Empiricus

@Martijn Weterings : "이 오해가 퍼졌다 고 말하지 않겠다"는 말에 동의하지 않습니다. 여러 대학원 통계 프로그램에서 필요한 독서로 사용되는 그의 저서 R을 사용한 선형 회귀 확장에서 율리우스 패 어웨이 (Julian Faraway)는이 책 서문의 xi 페이지에 "표준 선형 모델은 비정규 반응을 처리 할 수 ​​없습니다. 카운트 또는 비율로 ".
ColorStatistics

@ColorStatistics, ' 붉은 청어처럼 퍼지는 것에서처럼 '널리 퍼져 있는 맥락과 해석에 주목하십시오 . 사람들은 실수를 저지르며 이러한 실수는 어디에나있을 수 있습니다. 그러나하기에로 퍼지는처럼되지 않습니다 복사 (예 : 복사 및있어 실수의 예를 확산 아웃 을 사용했다 대신에 비상 테이블의 자유도 , 1900 년에서 1920 년 사이에 발생했습니다) .....n1(r1)(c1)
Sextus Empiricus

1
@ColorStatistics, 나는 방금 텍스트의 일부를 겪었고 저자가 혼란스럽지 않다는 것이 분명합니다 (모호하지 않은 수식을 기반으로 함). 예를 들어, 책은 " 여기서 이 정상적으로 배포됩니다"로 시작y=β0+β1x1+...βpxp+ϵϵ 합니다. 실제로 작가는 종종 "응답이 분배된다"와 같은 문구를 사용합니다. 그러나 조건부 응답을 의미합니다 . 나는 일손 서면으로이 더 고려하고 작가는 것을 그대로 전달하는 것을 의미하지 않는다 한계 응답이 언급 한 특정 분포를 가져야한다.
Sextus Empiricus

29

이 오해가 어떻게 / 왜 확산되었는지에 대한 좋은 설명이 있습니까? 기원이 알려져 있습니까?

우리는 일반적으로 학부생들에게 많은 분야에서 "간체 화 된"통계 버전을 가르칩니다. 저는 심리학에 있으며 학부생들에게 p- 값 은 "데이터의 확률 또는 더 극단적 인 데이터"라고 귀무 가설이 참일 수 있다고 말하려고합니다. 덮다. 수업 시간에 학생들이 통계에 대해 매우 넓은 위안 (또는 부족)을 갖기 때문에 강사는 일반적으로 간단하게 유지합니다. 예를 들어 p <.05 "대신 p- 값 의 실제 정의를 제공하지 않습니다 .

나는 이것이 오해가 퍼진 이유에 대한 설명이라고 생각합니다. 예를 들어, 다음과 같이 모델을 작성할 수 있습니다.

Y=β0+β1X+ϵ 여기서ϵN(0,σϵ2)

다음과 같이 다시 작성할 수 있습니다.

Y|XN(β0+β1X,σϵ2)

이는 "X에 조건부 인 Y는 일반적으로 예측 된 값의 평균과 약간의 분산으로 분포 됨"을 의미합니다.

속기가 부족한 사람들은 "Y는 정규 분포를 따라야한다"고 말하기 때문에 설명하기가 어렵습니다. 또는 원래 그들에게 설명되었을 때, 사람들은 조건부 부분을 오해했습니다. 정직하게 혼란 스럽기 때문입니다.

따라서 사물을 굉장히 복잡하게 만들지 않기 위해 강사는 대부분의 학생들을 혼동하지 않기 위해 말하는 내용을 단순화합니다. 그리고 사람들은 그 오해로 통계 교육이나 통계 실습을 계속합니다. Stan에서 베이지안 모델링을 시작하기 전까지는 개념을 완전히 이해하지 못했습니다. 이렇게 가정을 작성해야합니다.

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

또한 GUI가있는 많은 통계 패키지 (SPSS를보고)에서 잔차가 정상적으로 분포되어 있는지 확인하는 것보다 한계 분포가 정상적으로 분포되어 있는지 (단순 히스토그램) 확인하는 것이 더 쉽습니다 (회귀 실행, 잔차를 저장하고 해당 잔차에 대해 히스토그램을 실행하십시오).

따라서 오해는 주로 교수들이 학생들이 올바른 방법을 배우는 사람들 사이에서 혼란스럽고 진실하며 이해하기 쉬운 혼란을 피하기 위해 세부 사항을 줄이려고 노력하는 것으로 생각되며, 두 가지 모두에서 가장 사용자 친화적 인 통계 패키지.


2
당신이 맞다고 생각합니다. 많은 사람들이 조건부 부분을 이해하지 못합니다. 그들은 단지 정규 분포를 생각합니다.
SmallChess

3
이 오류가 발생하거나 확산되는 모드 중 하나 일 수 있음에 동의합니다. 그러나 펜 스테이트 코스 자료는이 '의도적 인'단순화로 인한 것이 아니라 조잡한 표기법으로 인한 것 같습니다. 작은 (코스) 음표와 비슷합니다. 또는 스택 교환에 대한 의견처럼 언어의 단순화. 어떤 곳에서는 올바른 단어를 사용합니다. (개인적으로, 나의 회로도 / 도표는 나의 단어 / 수식보다 낫지 만, 그것이 내가 쓴 것이 틀렸다면 반드시 잘못된 생각이라는 것을 의미하지는 않습니다)
Sextus Empiricus

1
@MartijnWeterings Agreed— 특정 언어를 사용하지 않으면 서 누군가를 혼동하기가 매우 쉽습니다. 통계적 가정과 같이 추상적 인 언어로 항상 언어를 구체적으로 지정하는 것은 어렵고 많은 똑똑한 사람들이 간단한 실수를하여 이와 같은 오해가 널리 퍼져 있습니다.
마크 화이트

1
MarkWhite, 나는 우리가 가르치는 방법에 대해 당신이 지시하는 관심에 정말로 감사합니다 ... 나는 이것이 "오해의 확산"에 대한 OP의 관심에 중요한 방식으로 말한다고 생각합니다. ).
Alexis

16

다른 시작 가정에 의해 암시되는 다른 결과가 있기 때문에 초보자에게는 회귀 분석이 어렵습니다. 약한 시작 가정은 일부 결과를 정당화 할 수 있지만 더 강한 가정을 추가하면 더 강한 결과를 얻을 수 있습니다. 결과의 전체 수학적 도출에 익숙하지 않은 사람들은 종종 결과를 얻기 위해 모델을 너무 약하게 포즈를 취하거나 결과에 필요하다는 믿음에 대해 불필요한 가정을 제시함으로써 결과에 필요한 가정을 오해 할 수 있습니다. .

추가 결과를 얻기 위해 더 강력한 가정을 추가 할 수 있지만 회귀 분석 자체 는 반응 벡터 의 조건부 분포 와 관련이 있습니다 . 모형이이 범위를 넘어 서면 다변량 분석의 영역으로 들어가고 엄격하게 회귀 모형이 아닙니다. 이 문제는 조건부 분포 (설계 행렬에 설명 변수가 있음)를 항상주의해서 지정하지 않고 회귀 분석에서 분포 결과를 참조하는 것이 일반적이기 때문에 더욱 복잡합니다. 설명 벡터에 대한 한계 분포를 가정하여 모델이 조건부 분포를 초과하는 경우 사용자는이 차이를 지정해야합니다. 불행히도 사람들은 항상 이것을 조심하지는 않습니다.


Homoskedastic 선형 회귀 모델 : 일반적으로 사용되는 가장 빠른 시작점은 정규성을 가정하지 않고 모델 형식과 처음 두 가지 오류 모멘트를 가정하는 것입니다.

Y=xβ+εE(ε|x)=0V(ε|x)I.

이 설정은 계수에 대한 OLS 추정기, 오차 분산에 대한 바이어스되지 않은 추정기, 잔차 및 이러한 임의의 모든 수량의 모멘트 (설계 매트릭스의 설명 변수에 따라 결정됨)를 확보하기에 충분합니다. 이 수량의 전체 조건부 분포를 얻을 수는 없지만 이 크고 의 제한 동작에 대한 추가 가정이있는 경우 점근 분포에 호소 할 수 있습니다. 더 나아가려면 오차 벡터에 대한 특정 분포 형태를 가정하는 것이 일반적입니다.nx

정규 오차 : 대부분의 등골 선형 회귀 모델 처리에서는 오차 벡터가 정규 분포를 따르는 것으로 가정합니다.

ε|xN(0,σ2I).

이 추가 가정은 계수에 대한 OLS 추정기가 모형에 대한 MLE임을 보장하기에 충분하며, 또한 계수 추정기와 잔차가 정상적으로 분포되고 오차 분산에 대한 추정기가 척도 화 된 제곱 분포 (모두 디자인 매트릭스의 설명 변수에 대한 조건부). 또한 응답 벡터가 조건부 정규 분포를 유지하도록합니다. 이는 해석의 설명 변수에 조건부 분포 결과를 제공하여 신뢰 구간 및 가설 검정을 구성 할 수 있습니다. 분석가가 반응의 한계 분포에 대해 찾으려면 더 나아가서 모형의 설명 변수에 대한 분포를 가정해야합니다.

공동 정규 설명 변수 : homoscedastic linear regression model의 일부 처리는 표준 처리보다 더 진행되며 고정 된 설명 변수에는 영향을 미치지 않습니다. (이것은 회귀 모델링에서 다변량 분석으로의 전환입니다.)이 종류의 가장 일반적인 모델은 설명 벡터가 IID 관절-정규 랜덤 벡터라고 가정합니다. 시키는 수 번째 벡터 설명합니다 ( 설계 행렬의 번째 행) 우리가 가지고X(i)ii

X(1),...,X(n)IID N(μX,ΣX).

이 추가 가정은 응답 벡터가 거의 정규 분포를 이루기에 충분합니다. 이것은 강력한 가정이며 일반적으로 대부분의 문제에는 부과되지 않습니다. 언급했듯이 회귀 모델링 영역 외부의 모델을 사용하고 다변량 분석을 수행합니다.


1
나는 당신이 더 강한 가정을 하나씩 소개하고 그 의미를 설명하는 방식에 대해 매우 통찰력이 있음을 발견했습니다.
ColorStatistics
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.