연속 변수와 범주 형 (명목) 변수의 상관 관계


40

연속 형 (종속 변수)과 범주 형 (명목 : 성별, 독립 변수) 변수 사이의 상관 관계를 찾고 싶습니다. 연속 데이터는 정상적으로 배포되지 않습니다. 이전에는 Spearman 's 사용하여 계산했습니다 . 그러나 나는 그것이 옳지 않다는 말을 들었다.ρ

인터넷에서 검색하는 동안 상자 그림이 얼마나 관련되어 있는지 알 수 있습니다. 그러나 Pearson의 제품 모멘트 계수 또는 Spearman의 와 같은 정량화 된 값을 찾고있었습니다 . 이 작업을 수행하는 방법을 알려주십시오. 또는 어떤 방법이 적절한 지 알려주십시오.ρ

Point Biserial Coefficient가 올바른 옵션입니까?


일반적으로 데이터 형식을 기반으로 한 조언 만 할 수는 없습니다! 데이터는 무엇을 나타내며 분석을 통해 달성하고자하는 것은 무엇입니까?
kjetil b halvorsen

1
감사 kjetil, 나는 성별과 다른 연속 변수 사이의 연관성을 비교하고 싶습니다. 간단히 말해서, 어떤 연속 변수가 중간 / 강하게 상관되어 있고 어떤 변수가 그렇지 않은지 알고 있습니다.
Md. Ferdous Wahid

1
stats.stackexchange.com/questions/25229/ 와 중복 된 것 같습니다. 답변이 도움이되는지 알려주시겠습니까?
kjetil b halvorsen

예, 제 질문은 그와 비슷합니다. 그러나 리뷰어가 Spearman의 가 적합하지 않다는 의견을 받았습니다 . 내 샘플 크기는 31입니다. 답변 (제공 된 링크)에 따르면 비정규는 문제가되지 않으며 큰 데이터 세트에 상관 관계 방법 (Spearman / Pearson / Point-Biserial)을 사용할 수 있습니다. 작은 데이터 셋도 마찬가지입니까? 그건 그렇고, 성별은 인위적으로 만들어진 이분법적인 명목 척도가 아닙니다. 위의 링크는 biserial correlation coefficient를 사용해야합니다. ρ
M. Ferdous Wahid

3
공칭 간격 또는 순서 변수 사이의 상관 관계 stats.stackexchange.com/q/73065/3277은
ttnphns

답변:


25

검토자는 왜 Spearman 가 적합하지 않은지 알려 주어야합니다 . 그 중 하나의 버전이 있습니다. 데이터를 여기서 는 측정 된 변수이고 은 성별 표시기입니다 (예 : 0 (남자), 1 (여자)). 그런 다음 Spearman의 는 각각 의 순위에 따라 계산 됩니다. 인디케이터 가능한 값은 두 개뿐이므로 많은 관계가 있으므로이 공식은 적합하지 않습니다. 계급을 평균 계급으로 바꾸면 남성과 여성을위한 두 가지 다른 값만 얻게됩니다. 그런 다음( Z i , I i ) Z I ρ Z , I I ρρ(Zi,Ii)ZIρZ,IIρ기본적으로 두 그룹 간의 평균 순위가 일부 조정 된 버전이됩니다. 단순히 수단을 비교하는 것이 더 간단합니다 (더 해석 가능)! 다른 접근 방식은 다음과 같습니다.

하자 남자 사이에 연속 변수의 관찰 할 수 여성들 사이에서 동일. 이제 와 의 분포가 동일하면 는 0.5가됩니다 (분포가 순전히 연속적이므로 관계가 없다고 가정합니다). 일반적인 경우, 여기서 는 남성의 랜덤 드로우, 여성의 경우 입니다. 샘플에서 를 추정 할 수 있습니까 ? 모든 쌍 (타이가 없다고 가정) "man is "( ) (X1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjM) 및 '여자가 더 큰 여성'( ) ( )의 수 그런 다음 의 한 가지 샘플 추정값 은 이는 적절한 상관 관계 측정 방법입니다! (유일한 관계가있는 경우 무시하십시오). 그러나 이름이 있다면 그것이 무엇인지 확실하지 않습니다. 이 사람이 가까이 있습니다 https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaXi<YjWθ
MM+W

5
Spearman의 순위 상관은 숫자 변수의 순위와 원래 이진 변수의 값에 적용된 Pearson의 상관 관계입니다 (순위는 여기에 영향을 미치지 않습니다). Spearman의 rho는 Point-biserial 상관 관계의 순위 아날로그입니다. 이 상황에서 Spearman의 rho를 설명 적으로 사용하는 데 아무런 문제가 없습니다.
Michael M

마이클 메이어 : 예, 아마도 효과가 있을지 모르지만 어떤 점이 있습니까? 수단의 차이에 포함되지 않은 정보는 제공하지 않습니다! 더 직접적으로 해석 할 수 있습니다.
kjetil b halvorsen 2016 년

1
순위의 차이가 Spearman의 Rho로 해석하기가 훨씬 간단합니까? 그렇더라도 Spearman 's Rho를 잘못 부르시겠습니까? 우리가 리뷰어들의 추론을 보지 못해 슬프다.
Michael M

1
당신이 제안하는 것은 좋습니다. Wilcoxon의 2- 표본 검정의 검정 통계량과 관련이있는 것 같습니다. 이는 수치 결과와 이진 그룹 변수 간의 Kendall의 순위 상관과 유사합니다.
Michael M

1
@ tao.hong 어떤 의미에서 비대칭이라고 생각합니까? 레이블 (남성 / 여성)을 전환하면 및 가 같은 방식으로 됩니다. θ 1 - θθθ^1θ
kjetil b halvorsen

8

지금 같은 문제가 있습니다. 아무도 이것을 아직 참조하지는 않았지만 Pearson 상관 계수를 기반으로하는 점-비례 상관 관계를 연구하고 있습니다. 연속 변수와 이분법 변수를 의미합니다.

빠른 읽기 : https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

나는 R을 사용하지만 SPSS에 훌륭한 문서가 있다는 것을 알았습니다.


1
연속 변수와 이분법 변수 사이의 상관 관계를 찾기위한 훌륭한 참조! 그러나 나열된 가정은 약간 강력합니다.
SUNDONG

1

가장 적절한 비교는 (비정상이므로) 중앙값과 이진 범주 사이의 분포를 비교하는 것입니다. 비모수 Mann-Whitney 테스트를 제안합니다 ...


6
Mann-Whitney는 이진 범주 형 변수에서 변수 (또는보다 일반적인 형태의 확률 론적 지배력)에서 위치 이동을 식별하는 방법이지만 Mann-Whitney는 적어도 추가 가정없이 중앙값을 비교하지 않습니다.
Glen_b 2016 년

0

지정된 문제의 경우 수신기 작동 자 특성 곡선의 곡선 아래 면적을 측정하면 도움이 될 수 있습니다.

나는 이것에 대한 전문가가 아니므로 간단하게 유지하려고 노력합니다. 변경할 수 있도록 오류 또는 잘못된 해석에 대해 의견을 말하십시오.

y x x xx 는 연속 변수입니다. 는 당신의 범주입니다. 값을 양수와 음수 (또는 남성과 여성) 사이의 임계 값으로 선택하고 이를 실제 레이블과 비교하면 얼마나 많은 진 양성 및 거짓 양성이 표시되는지 확인하십시오 . 예를 들어 7을 선택하면 = 7 이상은 모두 여자 (1)이고 = 7 미만은 모두 남자 (0)입니다. 이것을 실제 레이블과 비교하고 예측의 참 긍정 및 거짓 긍정의 수를 얻으십시오.yxxx

위에서 설명한 절차를 min ( )에서 max ( ) 까지 반복하면 진 양성 비율과 오 양성 비율을 생성 한 다음 아래 그림과 같이 플롯하여 곡선 아래 면적을 계산할 수 있습니다.xxx

아이디어는 변수 사이에 상관 관계가 없으면 모든 값에 대해 동일한 양의 참 긍정 비율과 참 음의 비율을 얻을 수 있지만 , 좋은 상관 관계가 있고 (비 상관 관계의 비율) 비율이 같다면 변함에 따라 true 긍정에서 true 긍정으로xxx

위의 설명은 곡선 아래 면적으로 계산됩니다.

좋은 상관 관계의 예 (오른쪽)와 공정한 반 상관 관계 (왼쪽)좋은 상관 관계의 예 (오른쪽)와 올바른 반 상관 관계 (왼쪽).


1
이력서에 오신 것을 환영합니다! 답이 너무 짧아서 "연속 (종속 변수)와 범주 형 (명목 : 성별, 독립 변수) 변수 간의 상관 관계"를 찾는 데 도움이되지 않는 것 같습니다 . AUROC가이를 달성하는 방법을 포함하도록 답변을 편집 할 수 있습니까?
Frans Rodenburg

-3

독립성 대신 선형 추세 대안을 사용해야합니다. 이 방법을 모른다면 범주 형 데이터 분석 페이지 41 소개를 연구 할 수 있습니다.


4
이미 허용 된 답변이 있습니다. 그리고 귀하의 답변이 무엇을 제공하는지 명확하지 않습니다. 더 설명해 주시겠습니까? 범주 데이터 분석에 대한 Agresti의 소개를 참조한다고 가정합니다. 완전한 인용을 제공하십시오.
TEG-Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.