이 문제는 항상 추악한 머리를 뒤로하는 것처럼 보이며, 나는 통계 (그리고 온전함)에 대한 내 자신의 이해를 위해 그것을 왜곡하려고합니다.
일반 선형 모형 (t- 검정, 분산 분석, 회귀 등)의 가정에는 "정상 가정"이 포함되지만, 이것이 명확하게 설명되지는 않습니다.
나는 종종 "정규 가정"이 각 그룹 (즉, 범주 형 X 변수)에 적용된다는 통계 교과서 / 매뉴얼 등을 접하게되며 , 각 그룹의 정규성에서 벗어나는지를 조사해야합니다 .
질문 :
Y 의 값 또는 Y의 잔차 를 가정 하는가?
특정 그룹에 대해 , Y 값 의 강하게 비정규 분포 (예를 들어, 기울어 짐) 를 가질 수 있지만, Y 의 잔차 의 대략 (또는 적어도 더 정규적으로) 분포는 ?
다른 출처들은이 가정이 모델 의 잔차와 관련이 있고 (예를 들어 t-tests / ANOVA와 같은 그룹이있는 경우), 이러한 잔차의 정규성 이탈을 조사해야합니다 (즉, 단 하나의 QQ 플롯 / 테스트 운영).
에 대한 잔차의 정규성 않는 모델은 에 대한 잔차의 정규성 의미 그룹을 ? 다시 말해, 우리는 모델 잔차를 조사해야합니까 (많은 텍스트의 지침과 달리)?
이것을 문맥에 넣으려면 다음과 같은 가상의 예를 고려하십시오.
- 두 모집단 (X) 사이의 나무 높이 (Y)를 비교하고 싶습니다.
- 한 인구 집단에서 Y 분포는 강하게 치우친 다 (즉, 대부분의 나무는 짧고 키가 거의 없음).
- 높이는 정규 분포 인구에서 전반적으로 더 높습니다 ( '실제'차이가있을 수 있음).
- 데이터의 변환은 제 1 모집단의 분포를 실질적으로 개선하지는 않는다.
첫째, 근본적으로 다른 높이 분포가 주어진 그룹을 비교하는 것이 유효합니까?
여기서 "정상 가정"에 어떻게 접근합니까? 한 모집단의 회수 높이는 정상적으로 분포되지 않습니다. 두 모집단의 잔차 를 개별적으로 검사 하거나 모형의 잔차를 검사합니까 (t- 검정)?
답글에서 숫자로 질문을 참조하십시오. 경험에 따르면 사람들이 쉽게 길을 잃거나 회피 할 수 있습니다 (특히 나!). 저는 통계학자가 아닙니다. 통계에 대한 합리적으로 개념적 (즉, 기술적이지 않은) 이해가 있습니다.
추신 : 나는 아카이브를 검색하고 내 이해를 뒷받침하지 않는 다음 스레드를 읽었습니다.