속성이 공칭 일 때 개인을위한 최적의 거리 기능은 무엇입니까?


12

명목 형 (정렬되지 않은 범주 형) 속성의 경우 개인간에 어떤 거리 기능을 사용해야하는지 모르겠습니다. 나는 교과서를 읽고 있었고 Simple Matching 기능 을 제안 했지만 일부 책은 공칭을 이진 속성으로 변경하고 Jaccard Coefficient 를 사용해야한다고 제안합니다 . 그러나 명목 속성의 값이 2가 아닌 경우 어떻게해야합니까? 해당 속성에 3-4 개의 값이 있으면 어떻게합니까?

공칭 속성에 어떤 거리 함수를 사용해야합니까?


1
Cramer 's V and Chi 제곱 통계 에서이 게시물이 유용하다는 것을 알았 습니다 .
KarthikS

답변:


18

기술적으로 명목 속성 에서 개인 간 불일치 측정을 계산하기 위해 대부분의 프로그램은 먼저 각 명목 변수를 더미 이진 변수 세트로 코딩 한 다음 이진 변수에 대한 일부 측정을 계산합니다. 다음은 자주 사용되는 이진 유사성 및 비 유사성 측정법 에 대한 공식입니다 .

더미 변수 (원핫이라고도 함) 란 무엇입니까? 아래는 5 명의 개인, 두 개의 명목 변수 (3 개의 범주가있는 A, 2 개의 범주가있는 B)입니다. A 대신에 3 개의 인형, B 대신에 2 개의 인형

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(모형과의 회귀에서 일반적으로하는 것처럼 하나의 더미 변수를 "중복"으로 제거 할 필요는 없습니다. 특별한 경우에는 해당 옵션을 고려할 수 있지만 군집화에서는 실행되지 않습니다.)

이진 변수에 대한 많은 조치는 모든 이들의 논리적 소송 그러나이있다 더미 이진 변수, 즉 이전의 공칭 것. 명목 형 변수의 경우 "2 개인 일치"사실과 "2 개인 일치하지 않음"사실이 모두 중요하다는 것을 알 수 있습니다. 그러나 인기있는 Jaccard 측정 . 여기서++

  • a-두 개인의 인형 수 1
  • b-이것에 대한 인형의 수 1 및 그에 대한 0
  • c-이것에 대한 인형의 수 0 및 그에 대한 1
  • d-둘 모두에 대한 인형 수 0

여기서 불일치는 와 의 두 가지 변형으로 구성됩니다 . 그러나 이미 말했듯이, 그들 각각은 와 일치 것과 같은 중요성을 있습니다. 따라서 우리는 가중치 두배로 하고 Dice (Lee Dice 이후) 또는 Czekanovsky-Sorensen 측정 값으로 알려진 공식을 얻어야 합니다. 더미 변수에 더 적합합니다. 사실, 유명한 복합 고 우어 계수 (공칭 속성과 함께 권장 됨)는 모든 속성이 공칭 일 때 주사위와 정확히 같습니다. 또한 유의 더미 대 (개인간) 변수 주사위 계수 = 오치아이 단순히 인 조치 (22++코사인 ) = 쿨친 스키 2 측정. 그리고 더 많은 정보를 위해, 1-Dice = 바이너리 Lance-Williams 거리는 Bray-Curtis 거리 라고도 합니다. 동의어가 몇 개인 지 확인하십시오-소프트웨어에서 그와 비슷한 것을 찾을 수 있습니다!

주사위 유사성 계수의 직관적 인 유효성은 그것이 단순히 동시 발생 비율 (또는 상대적 동의 ) 이라는 사실에서 비롯됩니다 . 위의 데이터 스 니펫의 경우, 명목 열을 취하고 (개인이 같은 범주에 속함) 또는 (같은 범주에 속하지 않음 ) 사각형 대칭 행렬을 A계산 하십시오. 에 대한 행렬도 마찬가지로 계산합니다 .5x510B

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

두 행렬의 해당 항목을 합산하고 2 (공칭 변수 수)로 나눕니다. 여기 주사위 계수의 행렬이 있습니다. 따라서 실제로 주사위를 계산하기 위해 인형을 만들 필요는 없으며 매트릭스 작업을 사용하면 방금 설명한 방법으로 더 빠르게 수행 할 수 있습니다. 공칭 속성 의 연관성에 대해서는 주사위 관련 항목을 참조하십시오 .

주사위는 속성이 범주 형인 경우 사이에 (비 유사) 함수를 원할 때 사용하는 가장 확실한 척도이지만, 공식이 공칭 데이터에 대한 고려 사항을 충족하는 경우 다른 이진 척도가 사용될 수 있습니다.

같은 조치 간단한 매칭 (SM, 또는 랜드) 포함 분자에 그들은 0-0 (두 사람이 할 치료의 이유로 당신을 적합하지 않습니다 일치하는 특정 공통 속성 / 카테고리를 갖지 않음) 은 원래 명목상의 정 성적 기능으로 명백 하지 않습니다 . 따라서 더미 변수 세트와 함께 사용하려는 유사성 또는 비 유사성 공식을 확인하십시오. 가 동일성을 근거로 하거나 암시 하는 경우 공칭 데이터에 대해 해당 측정 값을 사용하지 마십시오. 예를 들어, 제곱 유클리드 거리는 이진 데이터로만 계산됩니다.+++++(이 경우 맨해튼 거리 또는 해밍 거리와 동의어 임) 를 동일성의 기초로 취급 합니다. 실제로 여기서 는 이진 속성의 수입니다. 따라서 유클리드 거리는 SM과 정보 적으로 동일하며 원래 공칭 데이터에는 적용되지 않아야합니다.2=(1에스미디엄)

그러나 ...

이전의 "이론적"단락을 읽은 후에도 필자가 쓴 내용에도 불구하고 대부분의 이진 계수 ( 사용하는 계수 )가 실제로 대부분의 시간을 할 것이라는 것을 깨달았습니다 . 나는 여러 명목 변수에서 얻은 더미 변수를 사용하여 주사위 계수가 여러 다른 이진 측정과 기능적으로 밀접하게 관련되어 있음을 확인했습니다 (SPSS의 측정 키워드는 약어입니다).

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

다수의 클러스터 분석 방법과 같이 근접 매트릭스의 많은 응용에서 근접도의 선형 (및 때로는 단조로운) 변환에서 결과가 변경되지 않거나 매끄럽게 변경 될 수 있기 때문에 근접 행렬의 수에 정당화 될 수 있습니다. 주사위 이외의 이진 측정은 동일하거나 유사한 결과를 얻을 수 있습니다. 하지만 당신은 해야 첫번째 탐구 / 고려하는 방법을 특정의 (예를 들어, 방법 연결 근접성의 주어진 변화에 계층 적 클러스터링)에 반응한다.

계획된 군집화 또는 MDS 분석이 거리의 단조 변환에 민감한 경우 위 표에서 "단수"라고 표시된 측정 값을 사용하지 않는 것이 좋습니다 (따라서 Jaccard 유사성 또는 비 제곱 유클리드 거리를 더미와 함께 사용하는 것은 좋지 않습니다. 즉, 이전 명목, 속성).


네, 당신은 그 값이 맞습니다. 그래서 하나의 속성은 3 가지 가능한 값
Jane Doe

2
"ball", "nall", "pall"이라는 동일한 속성의 두 값이 있고 이것을 11 01과 00으로 변환했다고 가정합니다. 11과 00 사이의 Jaccard 거리를 측정하려고합니다.이 경우 거리 1? a = 0 b = 2 c = 0이고 d = 0이기 때문에? 알려주세요!
Jane Doe

나는 당신의 마지막 의견의 요점을 그리워합니다. 명확하게 문의하십시오. 또는 위의 예제 데이터를 5 명과 2 개의 명목 속성으로 사용하고 비교하려는 개인과 비 유사성에 의해 측정하십시오.
ttnphns
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.