'Y는 정규 분포이어야합니다'
곰팡내 나게 하다?
언급 한 경우 느슨한 언어 ( 'Y의 오류는 정상적으로 분포되어야 함 '으로 약칭 )이지만 응답 이 정상적으로 분포 되어야 한다고 말하지 는 않습니다. 나는 그들의 말이 그렇게 의도되었다고 생각합니다.
펜 스테이트 코스 자료
에 대해 말하는 "연속 변수 "Y , 또한 "에 대한 에서와 같이" 우리가 생각 할 수 에서 호출 아메바로하고, 의견 '조건', 정규 분포,YiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
이 기사는 와 서로 바꿔서 사용 합니다. 전체 기사에서 'Y의 분포'에 대해 말합니다. YYi
그러나 다른 시점 에서는 대신 를 참조합니다 .YiY
종속 변수 는 정규 분포가 필요하지 않지만 일반적으로 지수 군 (예 : 이항, 포아송, 다항식, 정규 분포)으로부터의 분포를 가정합니다.Yi
statisticssolutions 웹 페이지
매우 간단하고 단순화 된 양식화 된 설명입니다. 나는 당신이 이것을 진지하게 받아 들여야한다는 것을 확신하지 못한다. 예를 들어
.. 모든 변수가 다변량 정규 이어야 합니다 ...
그것은 단지 반응 변수가 아닙니다.
또한 '다변량'서술자는 모호합니다. 어떻게 해석 해야할지 모르겠습니다.
위키 백과 기사
괄호 안에 설명 된 추가 컨텍스트가 있습니다.
정규 선형 회귀 분석에서는 주어진 알 수없는 수량 (응답 변수, 랜덤 변수)의 예상 값을 일련의 관측 값 (예측 자)의 선형 조합으로 예측합니다 . 이는 예측 변수의 지속적인 변화가 반응 변수의 일정한 변화 (즉, 선형-반응 모델)로 이어진다는 것을 의미합니다. 이는 반응 변수가 정규 분포를 갖는 경우에 적합합니다 (직관적으로, 반응 변수가 고정 된 "제로 값"이없는 방향으로 본질적으로 무한정 변할 수 있거나 더 일반적으로 상대적으로 적은 양, 예를 들어 사람에 의해서만 변하는 양에 대해 변할 수있는 경우) 높이).
이 '고정 된 제로 값 없음'은 에 무한 도메인 (마이너스 무한대에서 무한대까지 이있는 경우 선형 조합 경우 가 많지만 종종 많은 변수에 일부가 있습니다 유한 컷오프 값 (음수 값을 허용하지 않는 카운트).y+ϵϵ∼N(0,σ)
특정 행은 2012 년 3 월 8 일 에 추가 되었지만 Wikipedia 기사의 첫 번째 행에는 여전히 " 정규 분포 이외의 오차 분포 모델 이있는 반응 변수를 허용하는 정규 선형 회귀의 유연한 일반화 "라고 되어 있습니다. 너무나도 (어디서나) 잘못되었습니다.
결론
그래서, (실제로 수있는이 세 가지 예에 따라 생성 오해를, 또는 적어도 오해 될 수있다) 나는 그 언급하지 않았다 "이러한 오해가 확산있다" . 또는 적어도이 세 가지 예의 의도는 Y가 정규 분포이어야한다고 주장하는 것 같지는 않습니다 (이 문제는 이전에 스택 교환, 정규 분포 오류와 정규 분포 응답 변수 사이의 스왑에서 발생했음을 기억합니다) 만들기 쉽다).
따라서 'Y가 정상적으로 분포되어야한다'는 가정은 널리 퍼져있는 믿음 / 오해 (빨간 청어처럼 퍼지는 것에서처럼)가 아니라 일반적인 오류 ( 확산 되지 않고 매번 독립적으로 만들어 짐)와 비슷합니다. ).
추가 의견
이 웹 사이트의 실수의 예는 다음 질문에 있습니다
잔차가 정규 분포이지만 y가 분포되지 않은 경우 어떻게됩니까?
나는 이것을 초보자 질문으로 생각할 것입니다. 그것은 Penn State 코스 자료, Wikipedia 웹 사이트와 같은 자료에는 존재하지 않으며 최근에는 주석에서 'R을 사용한 선형 회귀 확장'이라는 책을 언급했습니다.
그 작품의 작가는 자료를 올바르게 이해합니다. 실제로, 그들은 'Y는 정규 분포해야합니다'와 같은 문구를 사용하지만, 문맥과 사용 된 공식에 따라 모두 'Y는 X에 대한 조건부, 정규 분포되어야 함'을 의미하며 '마진 Y는 반드시 정상적으로 배포됩니다. ' 그들은 아이디어 자체를 오해하지 않으며, 적어도 아이디어는 책과 다른 코스 자료를 쓰는 통계 학자와 사람들 사이에 널리 퍼져 있지 않습니다. 그러나 그들의 모호한 말을 오해하면 실제로 오해를 일으킬 수 있습니다.