이진 데이터의 유사 계수 : 왜 Russell과 Rao보다 Jaccard를 선택해야합니까?

20

에서 통계 과학 백과 I가 주어진 이해 이분법을 (이진수 1 = 본 0 = 부재)은 우리가 임의의 두 개체 비상 테이블 형성 할 수있다 (변수) 특성을 I 및 J 시료를 : $p$

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

이러한 값으로부터 모든 객체 쌍 사이의 유사성 계수, 특히 Jaccard 계수 와 Russell 및 Rao 계수 사이의 유사성 계수를 계산할 수 있습니다

\frac{에이}{에이 + 비 + 기음}

$\frac{a}{a+b+c}$

\frac{에이}{에이 + 비 + 기음 + 디} = \frac{에이}{피} .

$\frac{a}{a+b+c+d} = \frac{a}{p}.$

이 계수를 계산하면 다른 값을 얻을 수 있지만 다른 것을 선택 해야하는 이유 를 설명하는 리소스를 찾을 수 없습니다 . 일부 데이터 세트의 경우 두 속성 ( ) 의 동시 부재가 정보를 전달하지 않기 때문입니까? $d$

binary-data similarities association-measure

— 플라이 니
소스

14

그러한 계수가 많이 있습니다 (대부분 여기 에 표시 됩니다 ). 특히 계수 행렬 을 계산할 때 수식의 차이로 인한 결과에 대해 묵상하십시오 .

예를 들어 객체 1과 2가 객체 3과 4와 유사하다고 상상해보십시오. 그러나 1과 2에는 목록에 많은 속성이 있지만 3과 4에는 속성이 거의 없습니다. 이 경우 Russell-Rao (고려되는 총 속성 수에 대한 공동 속성의 비율)는 1-2 쌍의 경우 높고 3-4 쌍의 경우 낮습니다. 그러나 Jaccard (두 객체 가 가진 속성의 결합 된 수에 대한 공동 속성의 비율 = 두 객체 모두에 속성 이 있으면 둘 다 가질 가능성)는 1-2과 3-4 쌍 모두에서 높을 것입니다.

(\frac{에이}{에이 + 비} + \frac{에이}{에이 + 기음}) / 2

$(\frac{a}{a+b} + \frac{a}{a+c}) /2$

\sqrt{\frac{에이}{에이 + 비} \frac{에이}{에이 + 기음}}

$\sqrt {\frac{a}{a+b} \frac{a}{a+c}}$

b

$b$

c

$c$

추신

일부 데이터 세트의 경우 두 속성 (d)의 동시 부재가 정보를 전달하지 않기 때문입니까?

$d$

또한 1+ 명목 속성 (이분 또는 다항)을 기반으로 객체 간의 유사성을 계산하려면 이러한 변수를 더미 이진 변수 세트로 다시 코딩하십시오. 그러면 계산할 추천 유사도 측정치는 것이다 다이스 ( 가변 수의 1+ 세트에 대해 계산하면, 오치아이 및 Kulczynski-2에 해당).

— ttnphns
소스

2

두 가지 이상의 범주를 가진 분류에 대해 "이분법"과 유사하다고 가정하여 다양한 용어가 제안되었습니다. "Polytomous"는 "polychotomous"보다 언어 적으로 선호됩니다. "dichotomous"가 두 개의 그리스어 "di"와 "chotomous"로 구문 분석된다는 잘못된 추측에 근거합니다. 라틴어 루트 사용으로 오류가 발생하는 "다중 선택"컴파운드. 라틴어와 그리스어가 분리 된 단어는 언어 학자 (예 : "텔레비전")의 경멸에서 살아남 았지만 여기서는 "다원성"을 사용하는 것이 좋습니다.

— Nick Cox

상기시켜 주셔서 감사합니다. 나는 당신이 무슨 말을하는지 알고 있었고, 서두르지 않을 때 스스로 순결 해 지려고 노력합니다. 편집하겠습니다.

— ttnphns 2016 년

3

전통적인 정확도 (즉, Russell-Rao)에 대한 Tanimoto 계수의 유용성은 분할을 금본위 제와 비교할 때 이미지 분석에서 분명합니다. 이 두 이미지를 고려하십시오.

이진 '마스크'인 각 이미지에는 크기가 같지만 약간 다른 위치에 배치 된 두 개의 객체가 있으며이 객체의 중첩을 평가하여이 객체의 모양과 위치가 동일한 정도를 평가하려고합니다. 일반적으로 하나 (예 : 자주색 마스크)는 세그먼테이션 (컴퓨터 알고리즘으로 생성)입니다. 예를 들어 의료 이미지에서 심장을 찾으려고 시도 할 수 있습니다. 다른 하나 (예 : 녹색)는 금 표준 (즉, 전문 임상의가 식별 한 심장)입니다. 흰색이있는 경우 두 모양이 겹칩니다. 검은 색 픽셀은 배경입니다.

두 번째 이미지에서 많은 배경 "패딩"을 제외하고 두 이미지는 동일합니다 (즉, 세그먼테이션 알고리즘의 결과와 골드 표준은 두 이미지에서 동일합니다). 두 번째 x-ray 기계, 두 번째 기계는 더 많은 신체 부위를 덮는 더 넓은 광선을 가졌지 만, 그렇지 않으면 심장의 크기가 두 이미지 세트에서 동일합니다).

두 이미지의 세그먼테이션과 골드 표준이 동일하므로 골드 표준에 대한 세그먼테이션 정확도를 평가하면 두 실험에서 동일한 '정확도'결과를 출력하기 위해 측정 항목을 원합니다.

그러나 Russel-Rao 접근 방식을 사용하여 분할의 품질을 평가하려고하면 "배경 픽셀로 올바르게 식별 된 배경 픽셀"이 세트의 전체 정확도 및 배경 픽셀은 제 2 세트에서 불균형 적으로 표현된다. 의료 세분화에서 겹치는 부분을 평가하려는 객체는 종종 거대한 배경에서 작은 얼룩이므로 매우 유용하지 않습니다. 또한 한 분할 알고리즘의 정확도를 다른 분할 알고리즘의 정확도와 비교하려고 시도하고 두 크기가 다른 이미지에서 평가되면 문제가 발생할 수 있습니다! (또는 다른 규모로 동등하게).임베딩 이미지의 스케일링 / 크기는 골드 표준에 대한 세그먼테이션 평가에 차이가 없어야합니다! .

반대로, tanimoto 계수는 배경 픽셀을 신경 쓰지 않으므로 '스케일'에 변하지 않습니다. tanimoto 계수에 관한 한,이 두 세트의 유사성은 동일하므로 분할 알고리즘의 품질을 평가하는 데 사용하는 것이 훨씬 유용한 유사성 메트릭이됩니다.

— 타 소스 파파 스타일 리아 누
소스