역사의 사실로 회귀와 분산 분석은 별도로 개발되었으며, 전통에 따라 부분적으로 여전히 개별적으로 학습됩니다. 또한 사람들은 종종 ANOVA를 설계 실험 (예 : 가변 / 임의 할당의 조작) 및 관측 연구에 적합한 회귀 (예 : 정부 웹 사이트에서 데이터 다운로드 및 관계 찾기)에 적합하다고 생각합니다. 그러나이 모든 것이 약간 잘못된 것입니다. 분산 분석 은 모든 공변량이 범주 형인 회귀 분석 입니다 . ANCOVA 는질적이며 연속적인 공변량을 갖는 회귀이지만, 요인과 연속 설명 변수 사이의 상호 작용 항이없는 회귀 (즉, '병렬 기울기 가정'). 연구가 실험적이든 관찰 적이든, 이것은 분석 자체와 관련이 없습니다.
실험이 잘 들립니다. 나는 이것을 회귀로 분석 할 것입니다 (제 생각에는 모든 것을 회귀라고 부르는 경향이 있습니다). 당신이 그들에 관심이 있다면 그리고 / 또는 당신이 작업하고있는 이론들이 그것들이 중요 할 수 있다고 제안한다면 모든 공변량을 포함시킬 것입니다. 일부 변수의 효과가 다른 변수에 따라 달라질 수 있다고 생각되면 필요한 모든 교호 작용 항을 추가하십시오. 명심해야 할 것은 각각의 설명 변수 (상호 작용 항 포함)가 자유도를 소비하므로 표본 크기가 적절한 지 확인하십시오. 나는 것 하지 dichotomize, 또는 그렇지 않으면 연속 변수의 (할 일이 나쁜 일이 정말, 이러한 행위가 널리 퍼져 있다는 불행한 일이다), 범주합니다. 그렇지 않으면, 당신이 가고있는 것처럼 들립니다.
업데이트 : 연속 변수를 두 개 이상의 범주가있는 변수로 변환할지 여부에 대한 우려가있는 것 같습니다. 주석이 아닌 여기에서 다루겠습니다. 모든 변수를 연속적으로 유지 합니다 . 연속 변수를 분류하지 않는 몇 가지 이유가 있습니다.
- 분류하면 정보를 버릴 수 있습니다. 일부 관측치는 구분선에서 더 멀고 다른 관측치는 더 가깝지만, 마치 동일한 것으로 취급됩니다. 과학에서 우리의 목표는 점점 더 많은 정보를 수집하고 해당 정보를 더 잘 구성하고 통합하는 것입니다. 정보를 버리는 것은 단순히 내 의견으로는 좋은 과학에 반대되는 것입니다.
- @Florian이 지적한대로 통계적 힘을 잃는 경향이 있습니다 (링크 감사합니다).
- You lose the ability to detect non-linear relationships as @rolando2 points out;
- What if someone reads your work & wonders what would happen if we
drew the line b/t categories in a different place? (For example, consider your BMI example, what if someone else 10 years from now, based on what's happening in the literature at that time, wants to also know about people who are underweight and those who are morbidly obese?) They would simply be out of luck, but if you keep everything in its original form, each reader can assess their own preferred categorization scheme;
- There are rarely 'bright lines' in nature, and so by categorizing you fail to reflect the situation under study as it really is. If you are concerned that there may be an actual bright line at some point for a-priori theoretical reasons, you could fit a spline to assess this. Imagine a variable, X, that runs from 0 to 1, and you think the relationship between this variable and a response variable suddenly and fundamentally changes at .7, then you create a new variable (called a spline) like this:
XsplineXspline=0=X−.7if X≤.7if X>.7
then add this new Xspline variable to your model in addition to your original X variable. The model output will show a sharp break at .7, and you can assess whether this enhances our understanding of the data.
1 & 5 being the most important, in my opinion.
IV
의 경우, 각각이DV
지속적인 규모 와 어떻게 관련되어 있는지 알고 싶습니까, 아니면IV
과체중 사람들이 일반 체중 사람들보다 더 많은 슬라이스를 먹는다 는 등 그룹 의 영향에 더 관심이BMI
있습니까?