기술적으로 명목 속성 에서 개인 간 불일치 측정을 계산하기 위해 대부분의 프로그램은 먼저 각 명목 변수를 더미 이진 변수 세트로 코딩 한 다음 이진 변수에 대한 일부 측정을 계산합니다. 다음은 자주 사용되는 이진 유사성 및 비 유사성 측정법 에 대한 공식입니다 .
더미 변수 (원핫이라고도 함) 란 무엇입니까? 아래는 5 명의 개인, 두 개의 명목 변수 (3 개의 범주가있는 A, 2 개의 범주가있는 B)입니다. A 대신에 3 개의 인형, B 대신에 2 개의 인형
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(모형과의 회귀에서 일반적으로하는 것처럼 하나의 더미 변수를 "중복"으로 제거 할 필요는 없습니다. 특별한 경우에는 해당 옵션을 고려할 수 있지만 군집화에서는 실행되지 않습니다.)
이진 변수에 대한 많은 조치는 모든 이들의 논리적 소송 그러나이있다 더미 이진 변수, 즉 이전의 공칭 것. 명목 형 변수의 경우 "2 개인 일치"사실과 "2 개인 일치하지 않음"사실이 모두 중요하다는 것을 알 수 있습니다. 그러나 인기있는 Jaccard 측정 . 여기서ㅏa + b + c
- a-두 개인의 인형 수 1
- b-이것에 대한 인형의 수 1 및 그에 대한 0
- c-이것에 대한 인형의 수 0 및 그에 대한 1
- d-둘 모두에 대한 인형 수 0
여기서 불일치는 와 의 두 가지 변형으로 구성됩니다 . 그러나 이미 말했듯이, 그들 각각은 와 일치 것과 같은 중요성을 있습니다. 따라서 우리는 가중치 두배로 하고 Dice (Lee Dice 이후) 또는 Czekanovsky-Sorensen 측정 값으로 알려진 공식을 얻어야 합니다. 더미 변수에 더 적합합니다. 사실, 유명한 복합 고 우어 계수 (공칭 속성과 함께 권장 됨)는 모든 속성이 공칭 일 때 주사위와 정확히 같습니다. 또한 유의 더미 대 (개인간) 변수 주사위 계수 = 오치아이 단순히 인 조치 (비씨ㅏㅏ22 a + b + c코사인 ) = 쿨친 스키 2 측정. 그리고 더 많은 정보를 위해, 1-Dice = 바이너리 Lance-Williams 거리는 Bray-Curtis 거리 라고도 합니다. 동의어가 몇 개인 지 확인하십시오-소프트웨어에서 그와 비슷한 것을 찾을 수 있습니다!
주사위 유사성 계수의 직관적 인 유효성은 그것이 단순히 동시 발생 비율 (또는 상대적 동의 ) 이라는 사실에서 비롯됩니다 . 위의 데이터 스 니펫의 경우, 명목 열을 취하고 (개인이 같은 범주에 속함) 또는 (같은 범주에 속하지 않음 ) 사각형 대칭 행렬을 A
계산 하십시오. 에 대한 행렬도 마찬가지로 계산합니다 .5x5
1
0
B
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
두 행렬의 해당 항목을 합산하고 2 (공칭 변수 수)로 나눕니다. 여기 주사위 계수의 행렬이 있습니다. 따라서 실제로 주사위를 계산하기 위해 인형을 만들 필요는 없으며 매트릭스 작업을 사용하면 방금 설명한 방법으로 더 빠르게 수행 할 수 있습니다. 공칭 속성 의 연관성에 대해서는 주사위 관련 항목을 참조하십시오 .
주사위는 속성이 범주 형인 경우 사이에 (비 유사) 함수를 원할 때 사용하는 가장 확실한 척도이지만, 공식이 공칭 데이터에 대한 고려 사항을 충족하는 경우 다른 이진 척도가 사용될 수 있습니다.
같은 조치 간단한 매칭 (SM, 또는 랜드) 포함 분자에 그들은 0-0 (두 사람이 할 치료의 이유로 당신을 적합하지 않습니다 일치하는 특정 공통 속성 / 카테고리를 갖지 않음) 은 원래 명목상의 정 성적 기능으로 명백 하지 않습니다 . 따라서 더미 변수 세트와 함께 사용하려는 유사성 또는 비 유사성 공식을 확인하십시오. 가 동일성을 근거로 하거나 암시 하는 경우 공칭 데이터에 대해 해당 측정 값을 사용하지 마십시오. 예를 들어, 제곱 유클리드 거리는 이진 데이터로만 계산됩니다.a + dㅏ + b + c + d디디b + c(이 경우 맨해튼 거리 또는 해밍 거리와 동의어 임) 를 동일성의 기초로 취급 합니다. 실제로 여기서 는 이진 속성의 수입니다. 따라서 유클리드 거리는 SM과 정보 적으로 동일하며 원래 공칭 데이터에는 적용되지 않아야합니다.디디2= p ( 1 − S미디엄)피
그러나 ...
이전의 "이론적"단락을 읽은 후에도 필자가 쓴 내용에도 불구하고 대부분의 이진 계수 ( 사용하는 계수 )가 실제로 대부분의 시간을 할 것이라는 것을 깨달았습니다 . 나는 여러 명목 변수에서 얻은 더미 변수를 사용하여 주사위 계수가 여러 다른 이진 측정과 기능적으로 밀접하게 관련되어 있음을 확인했습니다 (SPSS의 측정 키워드는 약어입니다).디
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
다수의 클러스터 분석 방법과 같이 근접 매트릭스의 많은 응용에서 근접도의 선형 (및 때로는 단조로운) 변환에서 결과가 변경되지 않거나 매끄럽게 변경 될 수 있기 때문에 근접 행렬의 수에 정당화 될 수 있습니다. 주사위 이외의 이진 측정은 동일하거나 유사한 결과를 얻을 수 있습니다. 하지만 당신은 해야 첫번째 탐구 / 고려하는 방법을 특정의 (예를 들어, 방법 연결 근접성의 주어진 변화에 계층 적 클러스터링)에 반응한다.
계획된 군집화 또는 MDS 분석이 거리의 단조 변환에 민감한 경우 위 표에서 "단수"라고 표시된 측정 값을 사용하지 않는 것이 좋습니다 (따라서 Jaccard 유사성 또는 비 제곱 유클리드 거리를 더미와 함께 사용하는 것은 좋지 않습니다. 즉, 이전 명목, 속성).