이미 로그 변환 된 DV에서 LOG 링크 기능과 함께 GLM 정규 분포를 사용할 수 있습니까?
예; 그 규모로 가정이 만족된다면
분산 균질성 검정이 정규 분포를 사용하여 정당화하기에 충분합니까?
분산의 평등이 왜 정규성을 의미합니까?
링크 기능 모델 선택을 정당화하기 위해 잔차 점검 절차가 정확합니까?
히스토그램과 적합도 검정을 모두 사용하여 가정의 적합성을 확인해야합니다.
1) 정규성을 평가하기 위해 히스토그램 을 사용 하십시오 . (또한 여기 참조 )
요컨대, 당신이 선택한 binwidth의 작은 변화 또는 bin 경계의 위치만큼 단순한 것에 따라 데이터 모양에 대해 상당히 다른 인상을 줄 수 있습니다.
동일한 데이터 세트의 두 히스토그램입니다. 여러 가지 다른 폭을 사용하면 노출이 그에 민감한 지 여부를 확인할 수 있습니다.
2) 정규성 가정이 합리적이라는 결론에 대해 적합도 검정을 사용하도록주의하십시오. 공식 가설 검정은 실제로 올바른 질문에 답하지 않습니다.
예를 들어 항목 2 의 링크를 참조하십시오 . 여기
분산에 대해서는 유사한 분포를 사용하는 일부 논문에서 "분포에 균일 한 분산이 있었기 때문에 가우시안 분포의 GLM이 사용되었습니다"라고 언급했습니다. 이것이 정확하지 않은 경우 어떻게 배포를 정당화하거나 결정할 수 있습니까?
정상적인 상황에서 질문은 '내 오류 (또는 조건부 분포)가 정상입니까?'가 아닙니다. -확인하지 않아도됩니다. 보다 관련성이 높은 질문은 '현재 존재하는 비정규도가 내 추론에 얼마나 나쁜 영향을 미치는가?'입니다.
커널 밀도 추정값 또는 일반 QQplot (잔류 그림 대 정규 점수)을 제안합니다. 분포가 합리적으로 보이면 걱정할 필요가 거의 없습니다. 사실, 분명히 비정규 적 일지라도 여전히 수행하려는 작업에 따라 중요하지 않을 수 있습니다 (예를 들어 정규 예측 간격은 실제로 정규성에 의존하지만 다른 많은 것들이 큰 표본 크기에서 작동하는 경향이 있습니다) )
재미있게도, 큰 표본에서 정규성은 일반적으로 덜 중요 해지고 (위에서 언급 한 PI와는 별개) 정규성을 거부하는 능력은 점점 커집니다.
편집 : 분산의 동등성에 대한 요점은 큰 표본 크기에서도 실제로 추론에 영향을 줄 수 있다는 것 입니다. 그러나 가설 검정으로도 평가해서는 안됩니다. 분산 가정을 잘못 얻는 것은 가정 한 분포에 관계없이 문제가됩니다.
올바른 적합을 위해 크기 조정 편차가 Np 주위에 있어야한다는 것을 읽었습니다.
정규 모형에 적합하면 척도 모수가 있으며,이 경우 분포가 정상이 아니더라도 축척 편차는 약 Np입니다.
귀하의 의견으로는 로그 링크가있는 정규 분포가 좋은 선택입니다
무엇을 측정하고 있는지 또는 추론을 사용하고 있는지를 계속 알지 못하는 경우에도 GLM에 다른 분포를 제안 할 것인지, 또는 추론에 대한 정규성이 얼마나 중요한지를 판단 할 수 없습니다.
그러나 다른 가정이 합리적이라면 (선형성과 분산의 동등성이 적어도 점검되어야하고 잠재적 인 의존성의 원인이 고려되어야 함), 대부분의 상황에서 CI를 사용하고 계수 또는 대비에 대한 테스트를 수행하는 것과 같은 일을하는 것이 매우 편안합니다 -잔차에 약간의 왜곡이 생길 수 있습니다. 실제 잔차 일지라도 그러한 종류의 추론에 실질적인 영향을 미치지 않아야합니다.
요컨대, 당신은 괜찮을 것입니다.
(다른 배포 및 링크 기능 은 적합 측면에서 조금 더 나을 수 있지만 제한된 상황에서만 더 이해하기 쉬울 것입니다.)