원시 데이터에 대해 회귀와 같은 모델 가정을 테스트하고 나머지에 대해 다른 사람들이 테스트하는 이유는 무엇입니까?


12

저는 실험 심리학 박사 과정 학생이며 데이터 분석 방법에 대한 기술과 지식을 향상시키기 위해 열심히 노력합니다.

심리학에서 5 년째까지 회귀 형 모델 (예 : 분산 분석)은 다음과 같은 사항을 가정한다고 생각했습니다.

  • 데이터의 정규성
  • 데이터에 대한 분산 동질성

학부 과정에서 데이터에 대한 가정이 있다고 믿게되었습니다. 그러나 5 학년 때, 일부 강사들은 가정이 원시 데이터가 아니라 오류 (잔차로 추정 됨)에 관한 것이라는 사실을 강조했습니다.

최근에 나는 몇몇 동료들과 함께 가정 문제에 관해 이야기하고 있었는데, 그들은 또한 지난 몇 년간의 대학에서만 잔존 가정을 확인하는 것이 중요하다는 것을 발견했다고 인정했습니다.

내가 잘 이해하면 회귀와 같은 모델이 오류를 가정합니다. 따라서 잔차에 대한 가정을 확인하는 것이 좋습니다. 그렇다면 왜 일부 사람들은 원시 데이터에 대한 가정을 확인합니까? 그러한 점검 절차가 잔류 물을 점검함으로써 얻을 수있는 것과 대략 비슷하기 때문입니까?

동료 나 저보다 더 정확한 지식을 가진 일부 사람들과이 문제에 대해 토론을하고 싶습니다. 답변 해 주셔서 감사합니다.

답변:


13

기본적으로, 당신은 올바른 길을 가고 있습니다. 종속 변수의 정규성 = 잔차 의 정규성에서 정규성의 측면에 대한 토론을 찾을 수 있습니까?

고전 선형 모델의 일부 가정은 실제로 오류에 대한 것입니다 (잔차를 실현으로 사용).

  • 상관이 없습니까? (OLS 추정기의 추론 및 최적 성과 관련됨)
  • 그들은 같은 분산이 있습니까? (OLS 추정기의 추론 및 최적 성과 관련됨)
  • 그들은 0을 중심으로합니까? (편견없는 추정 및 예측을 얻는 주요 가정)
  • 표본이 매우 작은 경우 : 정상이거나 적어도 대칭 적으로 분포되어 있습니까? (추론 관련)

다른 조건은 "원시 데이터"에 관한 것입니다.

  • 회귀 분석기에 총 이상 치가 없습니까? (높은 활용도 관측은 전체 모델을 파괴 할 수 있습니다)
  • 완벽한 다중 공선 성이 없습니까? (적어도 일부 소프트웨어 패키지에서는 계산 문제가 발생할 수 있음)

이제 학부 선생님도 정확할 것입니다.

  • 아마도 1- 표본 t- 검정과 같은 일 변량 검정에 집중하고 있었을 것입니다. 거기에는 원시 데이터에 대한 가정이 있습니다.
  • 가 매우 낮고 반응 변수가 정상을 제외한 모든 것을 보이면 잔차에 대해서도 마찬가지입니다.R2
  • 원시 데이터를 기반으로 동종 요법 등을 어떻게 확인합니까? 어쩌면 당신은 그를 오해했을 것입니다.

네 답변과 매우 유용한 링크에 대해 대단히 감사합니다. 내 동료 중 일부와 나는 최근까지 원시 데이터가 동일한 분산을 가져야한다고 믿었습니다. 당신이 말했듯이 우리는 우리 과정에서 무언가를 놓쳤을 것입니다. 어떤 책에서 우리는 다음을 읽을 수 있습니다 :
Psychokwak

"대부분의 일반적인 통계 절차는이 주제와 관련된 두 가지 가정을합니다. 변수의 분산이 다른 변수의 관측 된 범위에서 일정하게 유지됨을 의미합니다. " "가변"에 대해 이야기 할 때 "그들의 오류 용어"에 대해 체계적으로 이야기한다는 의미입니까? 그렇다면 나는 그것에 대해 괜찮지 만 명백한 언급 없이는 분명하지 않습니다 (적어도 나를 위해).
Psychokwak

마지막으로 귀하의 답변에 대한 마지막 질문이 있습니다. t- 검정과 분산 분석이 회귀의 특정 사례 인 경우, 왜 단일 표본 t- 검정의 데이터에 대한 가정이 적용됩니까? 유용한 답변에 다시 한번 감사드립니다.
Psychokwak

1
마지막 주석에 대답하려면 : 1 표본 t- 검정은 특별한 회귀 사례로 볼 수도 있습니다. 모델은 단순히 절편 (= 평균)과 오류 항으로 구성됩니다. 즉, 응답은 시프트 된 오류입니다. 교대는 어떤 가정과도 관련이 없으므로 데이터 또는 잔차에 대해 말하는 것과 같습니다.
Michael M

4

잔차와 원시 데이터의 차이는 도움이되지 않는 것으로 나타났습니다. 둘 다 기본 모집단 분포가 아니라 실제 표본을 더 많이 참조하기 때문입니다. 일부 요구 사항은 "그룹 내 요구 사항"이고 다른 요구 사항은 "그룹 가정 간"이라고 생각하는 것이 좋습니다.

예를 들어, 분산 동질성은 "그룹 간 가정"입니다. 그룹 내 분산이 모든 그룹에 대해 동일하기 때문입니다.

정규성은 각 그룹 내에서 y가 정상적으로 분포되어야하는 "그룹 내"가정입니다.

전체 생균 수에 대해 정규성을 갖는다는 것은 일반적으로 효과가 없다는 것을 의미합니다. 여성과 남성을 구분하지 않고 성별 분포를 살펴보십시오. 성 효과가 강하기 때문에 정상적으로 배포되지 않습니다. 그러나 각 성별 내에서 꽤 잘 유지됩니다.


1
답변 주셔서 감사합니다. 질문을 보는 흥미로운 방법입니다. 나는 그런 식으로 정규성에 대해 결코 생각하지 않았다.
Psychokwak
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.