로지스틱 회귀 또는 T 테스트?


17

한 그룹의 사람들이 하나의 질문에 대답합니다. 대답은 "예"또는 "아니오"일 수 있습니다. 연구원은 연령이 답변 유형과 관련이 있는지 알고 싶어합니다.

연관성은 연령이 설명 변수이고 응답 유형 (예, 아니오)이 종속 변수 인 로지스틱 회귀 분석을 수행하여 평가되었습니다. "예"와 "아니오"로 응답 한 그룹의 평균 연령을 각각 계산하고 평균 을 비교하기 위해 T 테스트를 수행하여 별도로 해결되었습니다 .

두 시험 모두 다른 사람의 조언에 따라 수행되었으며 어느 쪽이 올바른 길인지 확실하지 않습니다. 연구 질문에 비추어 볼 때 어느 것이 더 나은 시험입니까?

가설 검정의 경우 p 값은 유의하지 않았으며 (회귀) 유의하지 않았습니다 (T 검정). 표본이 20 개 미만입니다.


2
이것이 진짜 질문인지 확실하지 않습니다. 당신은 이미 당신이 요구하는 두 가지 분석을 모두 실행했습니다. 나는 당신이 정말로 알고 싶어하는 것이 테스트 사이의 비교 또는 관계에 관한 것이라고 추측합니다. 문제를 해결하려면 문제를 수정하십시오.
John

두 가지 테스트 모두 다른 사람의 조언에 따라 수행되었으며, 이것이 올바른 방법인지 확실하지 않습니다. 더 나은 테스트, 나이에 대한 응답 유형의 로지스틱 회귀 또는 "예"라고 응답 한 사람의 평균 연령을 평균과 비교 한 T 테스트 인 연구 질문 (응답 유형과 관련된 연령입니까?)을 고려하십시오. "아니오"라고 대답 한 사람의 나이는?
그웬

답변:


19

두 테스트는 모두 연령-응답 관계를 암시 적으로 모델링하지만 다른 방식으로 수행합니다. 선택할 관계는 해당 관계를 모델링하도록 선택한 방법에 따라 다릅니다. 당신의 선택은 기본이되는 이론에 의존해야합니다. 결과에서 어떤 종류의 정보를 추출 할 것인지; 샘플 선택 방법에 대해 설명합니다. 이 답변은이 세 가지 측면을 순서대로 설명합니다.


나는 잘 정의 된 사람들의 집단을 연구하고 표본에서이 집단으로 추론하기를 원하는 언어를 사용하여 t- 검정과 로지스틱 회귀 분석을 설명 할 것이다.

모든 종류의 통계적 추론을 지원하려면 표본이 무작위라고 가정해야합니다.

  • t- 검정 은 "아니오"라고 응답하는 표본의 사람들이 모집단의 모든 무응답 자의 간단한 무작위 표본이고 "예"라고 응답하는 표본의 사람들은 모든 응답자의 인구.

    t- 검정은 모집단에서 두 그룹 각각의 연령 분포에 대한 추가적인 기술적 가정을합니다. 가능한 가능성을 처리하기 위해 다양한 버전의 t- 검정이 존재합니다.

  • 로지스틱 회귀 분석 에서는 특정 연령대의 모든 사람이 해당 연령대의 인구에 대한 단순한 무작위 표본으로 가정합니다. 별도의 연령대는 서로 다른 비율의 "예"응답을 보일 수 있습니다. 이 비율은 일률이 아닌 대수 확률로 표현 될 때 연령 (또는 연령의 일부 결정된 기능)과 선형으로 관련된 것으로 가정합니다.

    로지스틱 회귀는 연령과 응답 간의 비선형 관계를 수용하도록 쉽게 확장됩니다. 이러한 확장은 초기 선형 가정의 타당성을 평가하는 데 사용될 수 있습니다. 비선형 성을 표시하기에 충분한 디테일을 제공하지만 작은 데이터 세트에는 많이 사용되지 않을 수있는 큰 데이터 세트에서는 실용적입니다. 회귀 모형에 모수보다 10 배 많은 관측치가 있어야한다는 일반적인 경험 법칙은 비선형 성 (선형 함수의 절편 및 기울기 외에 세 번째 모수가 필요함)을 탐지하기 위해 20 개 이상의 관측치가 필요하다는 것을 제안합니다. ).

t- 검정은 모집단의 평균 응답 연령과 무 응답자 사이의 평균 연령이 다른지 여부를 감지합니다. 로지스틱 회귀 분석에서는 연령에 따라 반응률이 어떻게 달라지는 지 추정합니다. 따라서 t-test보다 더 유연하고 더 자세한 정보를 제공 할 수 있습니다. 반면, 그룹의 평균 연령 차이를 감지하는 기본 목적으로 t- 검정보다 덜 강력합니다.

한 쌍의 검정에서 유의성과 비의의 네 가지 조합이 모두 나타날 수 있습니다. 이 중 두 가지는 문제가 있습니다.

  • t- 검정은 유의하지 않지만 로지스틱 회귀는 중요합니다. 두 검정의 가정이 그럴듯한 경우, t- 검정이 로지스틱 회귀로 인한 특정 관계를 탐지하지 않기 때문에 그러한 결과는 실제로 불가능합니다. 그러나 그 관계가 가장 오래되고 가장 어린 대상이 한 의견과 중년의 주제를 다른 사람과 공유하도록하기 위해 충분히 비선형적일 때, 로지스틱 회귀의 비선형 관계로의 확장은 이러한 상황을 감지하고 정량화 할 수 있으며, t- 검정으로 탐지 할 수 없습니다 .

  • t- 검정은 유의하지만 문제에서와 같이 로지스틱 회귀는 그렇지 않습니다. 이는 특히 젊은 응답자 그룹, 이전 응답자 그룹 및 그 사이에 소수의 사람들이있을 때 발생합니다. 이는 무 응답자와 응답자의 응답 속도를 크게 분리 할 수 ​​있습니다. t- 검정으로 쉽게 감지됩니다. 그러나 로지스틱 회귀 분석은 연령에 따라 실제로 반응 속도가 어떻게 변하는 지에 대한 자세한 정보가 거의 없거나, 결론이없는 결론을 내릴 수 있습니다. 그러나이 경우 두 테스트 모두 일반적으로 p- 값이 매우 낮습니다.

실험 설계는 일부 테스트 가정을 무효화 할 수 있습니다. 예를 들어 계층화 된 디자인에서 연령에 따라 사람들을 선택한 경우 t- 검정의 가정 (각 그룹이 단순한 임의의 연령 샘플을 반영한다고 가정)이 의심됩니다. 이 설계는 로지스틱 회귀에 의존하는 것이 좋습니다. 응답자가없는 응답자와 응답이없는 응답자가있는 두 개의 풀이 있고 연령을 확인하기 위해 무작위로 선택한 경우, 로지스틱 회귀의 샘플링 가정은 의심 스럽지만 t- 검정의 풀은 보류됩니다. 이 디자인은 어떤 형태의 t- 검정을 사용하는 것이 좋습니다.

(두 번째 디자인은 어리석은 것처럼 보일 수 있지만, "나이"가 측정하기 어렵거나 비용이 많이 들거나 시간이 많이 걸리는 특성으로 대체되는 상황에서는 매력적일 수 있습니다.


연령 변수에 스플라인을 사용하여 대부분의 비선형 성 및 분리 문제가 완화되지 않습니까? 그 문제에 대해 사과하지만 "풀링 된"디자인이 왜 로지스틱 회귀 의 결과 를 무효화하는지 알 수 없습니다 . 물론, 랜덤 샘플의 가정은 사라졌지 만이 디자인을 선택하도록주의를 기울여야합니까? 선택 편견을 암시하고 있습니까? (분명히 +1) (... 당신이 설명하는 디자인은 나에게 환자 - 대조군 연구처럼 보이지만 제가 틀릴 수도)
usεr11852는 분석 재개 MONIC 말한다

당신의 사려 깊은 의견에 감사드립니다. 나는 당신이 제기 한 요점을 명확히하기 위해 몇 구절을 다시 썼습니다. 연령을 스플라인으로하면 로지스틱 회귀 분석의 비선형성에 대처할 수 있지만 완전히 분리 될 가능성이 높아질 수 있습니다. "풀링 된 디자인"이 무엇을 의미하는지 잘 모르겠지만 확률 모델을 정당화 할 수없는 로지스틱 회귀 분석의 p- 값을 해석하려는 노력이 의심됩니다 (임의의 샘플링을 통해 수행 할 수있는 작업).
whuber

감사합니다. 네, 당신이 완벽한 분리 (Hauck-Donner effect)에 대해 당신이 한 점을 충분히 고맙게 생각합니다. 좋아, 나는 지금 두 개의 수영장에 대해 당신이 무엇을 의미하는지 봅니다. 이 경우 우리는 합의 된 관찰 연구 개념 (우리는 두 개의 풀을 관찰 / 정의 함)을 가지게되므로이를 제어 할 수있는 방법 (성향 점수 등)을
즉시 조사해야합니다

5

엑스와이

엑스|와이=나는(μ나는,σ2).
와이베르누이()와이엑스=엑스
(와이=1|엑스=엑스)=에프엑스|와이=1(엑스)(와이=1)나는=01에프엑스|와이=나는(엑스)(와이=나는)=이자형12σ2(엑스μ1)2이자형12σ2(엑스μ1)2+(1)이자형12σ2(엑스μ0)2=11+1이자형12σ2(엑스μ0)2+12σ2(엑스μ1)2=로짓1(β0+β1엑스)
β0=ln112σ2(μ12μ02)β1=1σ2(μ1μ0).

따라서 이러한 의미에서 두 가지 조건부 모델이 호환됩니다.


3

더 나은 테스트는 귀하의 질문을 더 잘 해결하는 것입니다. 그것의 얼굴에도 좋지 않습니다. 여기서 차이는 x에서 y와 x에서 y를 회귀 분석 할 때 발견 된 것과 동일하며 다른 결과의 이유도 비슷합니다. 평가되는 분산은 모델에서 반응 변수로 취급되는 변수에 따라 다릅니다.

귀하의 연구 질문은 매우 모호합니다. 아마도 인과 관계의 방향을 고려한다면 어떤 분석을 사용할 것인지에 대한 결론을 얻을 수있을 것입니다. 나이가 사람들이 "예"라고 응답하게하거나 "예"로 응답하여 사람들이 나이가 들었습니까? 아마도 전자 일 가능성이 더 높으며,이 경우 "예"확률의 차이는 모델링하려는 것이므로 로지스틱 회귀가 최선의 선택입니다.

즉, 테스트의 가정을 조사해야합니다. 이것들은 wikipedia 또는 교과서에서 온라인으로 볼 수 있습니다. 로지스틱 회귀 분석을 수행하지 않는 데는 충분한 이유가있을 수 있으며, 그럴 경우 다른 질문을해야 할 수도 있습니다.


1
"물류 회귀 분석을 수행하지 않음"을 의미합니까?
mark999
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.