두 테스트는 모두 연령-응답 관계를 암시 적으로 모델링하지만 다른 방식으로 수행합니다. 선택할 관계는 해당 관계를 모델링하도록 선택한 방법에 따라 다릅니다. 당신의 선택은 기본이되는 이론에 의존해야합니다. 결과에서 어떤 종류의 정보를 추출 할 것인지; 샘플 선택 방법에 대해 설명합니다. 이 답변은이 세 가지 측면을 순서대로 설명합니다.
나는 잘 정의 된 사람들의 집단을 연구하고 표본에서이 집단으로 추론하기를 원하는 언어를 사용하여 t- 검정과 로지스틱 회귀 분석을 설명 할 것이다.
모든 종류의 통계적 추론을 지원하려면 표본이 무작위라고 가정해야합니다.
t- 검정 은 "아니오"라고 응답하는 표본의 사람들이 모집단의 모든 무응답 자의 간단한 무작위 표본이고 "예"라고 응답하는 표본의 사람들은 모든 응답자의 인구.
t- 검정은 모집단에서 두 그룹 각각의 연령 분포에 대한 추가적인 기술적 가정을합니다. 가능한 가능성을 처리하기 위해 다양한 버전의 t- 검정이 존재합니다.
로지스틱 회귀 분석 에서는 특정 연령대의 모든 사람이 해당 연령대의 인구에 대한 단순한 무작위 표본으로 가정합니다. 별도의 연령대는 서로 다른 비율의 "예"응답을 보일 수 있습니다. 이 비율은 일률이 아닌 대수 확률로 표현 될 때 연령 (또는 연령의 일부 결정된 기능)과 선형으로 관련된 것으로 가정합니다.
로지스틱 회귀는 연령과 응답 간의 비선형 관계를 수용하도록 쉽게 확장됩니다. 이러한 확장은 초기 선형 가정의 타당성을 평가하는 데 사용될 수 있습니다. 비선형 성을 표시하기에 충분한 디테일을 제공하지만 작은 데이터 세트에는 많이 사용되지 않을 수있는 큰 데이터 세트에서는 실용적입니다. 회귀 모형에 모수보다 10 배 많은 관측치가 있어야한다는 일반적인 경험 법칙은 비선형 성 (선형 함수의 절편 및 기울기 외에 세 번째 모수가 필요함)을 탐지하기 위해 20 개 이상의 관측치가 필요하다는 것을 제안합니다. ).
t- 검정은 모집단의 평균 응답 연령과 무 응답자 사이의 평균 연령이 다른지 여부를 감지합니다. 로지스틱 회귀 분석에서는 연령에 따라 반응률이 어떻게 달라지는 지 추정합니다. 따라서 t-test보다 더 유연하고 더 자세한 정보를 제공 할 수 있습니다. 반면, 그룹의 평균 연령 차이를 감지하는 기본 목적으로 t- 검정보다 덜 강력합니다.
한 쌍의 검정에서 유의성과 비의의 네 가지 조합이 모두 나타날 수 있습니다. 이 중 두 가지는 문제가 있습니다.
t- 검정은 유의하지 않지만 로지스틱 회귀는 중요합니다. 두 검정의 가정이 그럴듯한 경우, t- 검정이 로지스틱 회귀로 인한 특정 관계를 탐지하지 않기 때문에 그러한 결과는 실제로 불가능합니다. 그러나 그 관계가 가장 오래되고 가장 어린 대상이 한 의견과 중년의 주제를 다른 사람과 공유하도록하기 위해 충분히 비선형적일 때, 로지스틱 회귀의 비선형 관계로의 확장은 이러한 상황을 감지하고 정량화 할 수 있으며, t- 검정으로 탐지 할 수 없습니다 .
t- 검정은 유의하지만 문제에서와 같이 로지스틱 회귀는 그렇지 않습니다. 이는 특히 젊은 응답자 그룹, 이전 응답자 그룹 및 그 사이에 소수의 사람들이있을 때 발생합니다. 이는 무 응답자와 응답자의 응답 속도를 크게 분리 할 수 있습니다. t- 검정으로 쉽게 감지됩니다. 그러나 로지스틱 회귀 분석은 연령에 따라 실제로 반응 속도가 어떻게 변하는 지에 대한 자세한 정보가 거의 없거나, 결론이없는 결론을 내릴 수 있습니다. 그러나이 경우 두 테스트 모두 일반적으로 p- 값이 매우 낮습니다.
실험 설계는 일부 테스트 가정을 무효화 할 수 있습니다. 예를 들어 계층화 된 디자인에서 연령에 따라 사람들을 선택한 경우 t- 검정의 가정 (각 그룹이 단순한 임의의 연령 샘플을 반영한다고 가정)이 의심됩니다. 이 설계는 로지스틱 회귀에 의존하는 것이 좋습니다. 응답자가없는 응답자와 응답이없는 응답자가있는 두 개의 풀이 있고 연령을 확인하기 위해 무작위로 선택한 경우, 로지스틱 회귀의 샘플링 가정은 의심 스럽지만 t- 검정의 풀은 보류됩니다. 이 디자인은 어떤 형태의 t- 검정을 사용하는 것이 좋습니다.
(두 번째 디자인은 어리석은 것처럼 보일 수 있지만, "나이"가 측정하기 어렵거나 비용이 많이 들거나 시간이 많이 걸리는 특성으로 대체되는 상황에서는 매력적일 수 있습니다.