phi, Matthews 및 Pearson 상관 계수의 관계


13

phi와 Matthews 상관 계수는 동일한 개념입니까? 두 이진 변수에 대한 Pearson 상관 계수와 어떻게 관련이 있습니까? 이진 값이 0과 1이라고 가정합니다.


두 Bernoulli 랜덤 변수 와 간의 Pearson 상관 관계 는 다음 과 같습니다.yxy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

어디

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Wikipedia의 Phi 계수 :

통계에서, phi 계수 ( "평균 제곱 우연 계수"라고도하며 또는 로 표시됨 )는 Karl Pearson에 의해 도입 된 두 개의 이진 변수에 대한 연관 척도입니다. 이 측정 값은 해석시 피어슨 상관 계수와 유사합니다. 실제로 두 개의 이진 변수에 대해 추정 된 Pearson 상관 계수는 phi 계수를 반환합니다 .r ϕϕrϕ

두 개의 랜덤 변수 와 대해 2 × 2 테이블이있는 경우yxy

여기에 이미지 설명을 입력하십시오

와 의 연관성을 설명하는 phi 계수 는 xy

ϕ=n11n00n10n01n1n0n0n1

Wikipedia의 Matthews 상관 계수 :

Matthews 상관 계수 (MCC)는 다음 공식을 사용하여 혼동 행렬에서 직접 계산할 수 있습니다.

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

이 방정식에서 TP는 진양 수, TN 진 음수, FP는 오 탐지 수, FN은 거짓 음수입니다. 분모의 4 개의 합계 중 하나가 0이면 분모를 임의로 1로 설정할 수 있습니다. 이로 인해 Matthews 상관 계수가 0이되고 올바른 제한 값으로 표시 될 수 있습니다.

답변:


14

예, 동일합니다. Matthews 상관 계수는 Pearson 상관 계수를 혼동 테이블에 적용한 것입니다.

우발 사태 테이블은 기본 데이터의 요약 일뿐입니다. 우발성 표에 표시된 계수에서 관측치 당 한 행으로 다시 변환 할 수 있습니다.

위키피디아 기사 에서 사용 된 5 개의 참 긍정, 17 개의 참 긍정, 2 개의 거짓 긍정 및 3 개의 거짓 부정이있는 혼동 행렬의 예를 고려하십시오.

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

고마워, 피터! 수학적으로 왜 phi와 Mathew가 두 개의 이진 랜덤 변수에 대해 Pearson과 동등합니까?
Tim

Pearson 상관 관계의 정의를 가져 와서 개별 관측 값과 평균의 차이를 합산하기보다는 카운트를 참조하도록 조작하면 Matthews 공식을 얻게됩니다. 나는 실제로 이것을하지 않았지만 합리적으로 간단해야합니다.
피터 엘리스

2

첫째, 질문에 오타 오류가 있습니다. 는 아니라 오히려E[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

둘째, 임을 보여주는 열쇠 는ρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.