백분율에 분산 분석을 사용하십니까?


13

독립 변수 (인자)로 4 개의 그룹 (4 BMI 그룹)이있는 테이블이 있습니다. 나는 "임신 중 어머니 흡연율"인 종속 변수를 가지고 있습니다.

이것을 위해 분산 분석을 사용할 수 있습니까? 아니면 카이 제곱 또는 다른 테스트를 사용해야합니까?

답변:


21

이진 변수를 종속 변수로 사용하는 것과 비율을 종속 변수로 사용하는 것에는 차이가 있습니다.

  • 이항 종속 변수 :

    • 이것은 당신이 가진 것 같습니다. (즉, 각 어머니는 담배를 피우거나 담배를 피우지 않았습니다)
    • 이 경우 분산 분석을 사용하지 않습니다. 범주 형 예측 변수에 대해 일부 형태의 코딩 (아마 더미 코딩)을 사용한 로지스틱 회귀 분석은 이진 변수를 종속 변수로 개념화하는 경우 (즉, 카이 제곱을 수행 할 수 있음) 확실한 선택입니다.
  • 종속 변수로서의 비율 :

    • 이것은 당신이 가진 것처럼 들리지 않습니다. (즉, 임산부 흡연 샘플에서 임신 중 어머니가 흡연 한 총 깨우기 시간의 비율에 대한 데이터는 없습니다).
    • 이 경우 일반적으로 ANOVA 및 표준 선형 모형 접근 방식은 사용자의 목적에 맞지 않을 수도 있습니다. 문제에 대한 논의는 @Ben Bolker의 답변을 참조하십시오.

이진 종속 변수의 경우, 이진 비율에 대한 요약 데이터 만있는 경우 (예 : A, B 및 C 그룹의 # 및 A, B 및 C 그룹의 성공 횟수) 실제 미가공 데이터, 로지스틱 회귀를 어떻게 사용할 수 있습니까? 나는 원시 데이터와 함께 사용하는 것에 익숙합니다.
Bryan

15

다른 그룹 내 응답이 0 또는 100 %에 얼마나 가까운 지에 따라 다릅니다. 극단적 인 값이 많으면 (즉, 0 또는 100 %에 쌓인 많은 값) 이것이 어려워집니다. "분모"를 모르는 경우 (예 : 백분율을 계산하는 주제의 수) 어쨌든 우발 사태 테이블 접근 방식을 사용할 수 없습니다. 그룹 내의 값이 더 합리적인 경우 응답 변수 (예 : 클래식 arcsine-square-root 또는 아마도 로짓 변환). 변환 된 데이터가 ANOVA의 가정을 적절히 충족시키는 지 (변형과 정규성의 균질성, 전자가 후자보다 더 중요 함)를 결정하기위한 다양한 그래픽 (선호) 및 귀무 가설 검정 (덜 선호) 접근법이 있습니다. 그래픽 테스트 : 상자 그림 (분산의 동질성) 및 QQ 그림 (정상) [후자는 그룹 내에서 또는 잔차에서 수행되어야 함]. 귀무 가설 검정 : 예 : Bartlett 또는 Fligner 검정 (균일 성 분산), Shapiro-Wilk, Jarque-Bera 등


11

응답 변수가 0/1 (연기, 연기가 아님)이되도록 원시 데이터가 있어야합니다. 그런 다음 이항 로지스틱 회귀를 사용할 수 있습니다. BMI를 간격으로 그룹화하는 것은 올바르지 않습니다. 컷 포인트가 정확하지 않거나 존재하지 않을 수 있으며 BMI가 흡연과 관련이 있는지 공식적으로 테스트하고 있지 않습니다. 현재 많은 정보가 삭제 된 BMI가 흡연과 관련이 있는지 테스트 중입니다. 특히 외부 BMI 간격이 상당히 이질적이라는 것을 알 수 있습니다.


2
@Frank-BMI를 그룹화하는 것이 왜 "정확하지 않은"이유는 무엇입니까? 결과가 적절하게 해석되는 한 이것은 완벽하게 합리적입니다. 예를 들어, "저체중", "건강한 체중", "과체중"및 "비만"이 흡연과 관련이 있는지 테스트하는 것이 좋습니다. 여기서 이러한 용어는 BMI의 범위에 의해 정의됩니다. 나는 여기에 "잘못된"것이 없다.
probabilityislogic

OP가 공통 교육 데이터 세트와 함께 작동하며 원시 BMI가 없을 수 있다고 생각합니다. 연속적인 회귀자를 이산화시키는 것은 일반적으로 이상적이지 않지만 "잘못된"것은 아닙니다. 측정에 노이즈가 있고 다른 조치가없는 것으로 의심되는 경우이 방법을 사용하는 것이 도움이 될 수 있습니다. 실제로, 우리가 시험하고자하는 실제 가설은 비만이 흡연과 관련이 있는지 여부입니다. BMI는 비만을 측정하는 한 가지 방법 일뿐입니다.
JMS

4
측정에 노이즈가있는 경우에도 연속 변수를 분석하는 것이 우수합니다. BMI를 분류하면 다양한 분석 선택으로 해결할 수있는 것보다 더 많은 문제가 발생합니다. 실제로 분류에 대한 추정치에는 더 이상 과학적인 해석이 없습니다. 과학적인 양은 현재 실험 밖에서 의미가있는 양입니다. 그룹 추정치 (예 : X의 높음 대 낮음 간격에 대해 Y = 1 인 로그 확률)는 관찰 된 전체 BMI 세트의 함수라는 것을 알 수 있습니다. 예를 들어, 샘플에 매우 높거나 매우 낮은 BMI를 추가하면 "효과"가 더 강해집니다.
Frank Harrell

R과 RStudio를 설치 한 사람들을 위해, 대화 형 데모에서 찾을 수 있습니다 biostat.mc.vanderbilt.edu/BioMod - 녹색 NEW 마킹을 참조하십시오. 스크립트를 RStudio에로드하고 Hmisc 패키지도 설치해야합니다.
Frank Harrell

"측정이 시끄러울 때도 연속 변수로 분석하는 것이 우수합니다."이것은 잘못된 것입니다 (일반적인 것, 일반적으로 맞습니다). 예를 들어, 측정 오차가 크기에 따라 증가하는 연속 공변량이 있다고 상상해보십시오. 물론 가장 좋은 방법은 오류를 모델링하거나 더 나은 측정 값을 얻는 것입니다.
JMS

3

비례 데이터에 대해 일반적인 분산 분석을 수행하기로 선택한 경우 동종 오차 분산의 가정을 확인하는 것이 중요합니다. (비율 데이터와 마찬가지로) 오차 분산이 일정하지 않은 경우보다 현실적인 대안은 모델에서이 이분산성을 설명 할 수있는 베타 회귀를 시도하는 것입니다. 다음은 백분율 또는 비율 인 응답 변수를 처리하는 다양한 대체 방법을 설명하는 논문입니다. http://www.ime.usp.br/~sferrari/beta.pdf

R을 사용하면 패키지 베타 레그 가 유용 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.