군집 분석에서 변수에 가중치를 할당


12

클러스터 분석에서 변수에 다른 가중치를 할당하고 싶지만 내 프로그램 (Stata)에 옵션이없는 것 같으므로 수동으로 수행해야합니다.

4 개의 변수 A, B, C, D를 상상해보십시오. 이러한 변수의 가중치는

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

다음 두 가지 방법 중 하나가 실제로 트릭을 수행하는지 궁금합니다.

  1. 먼저 모든 변수를 표준화합니다 (예 : 범위별로). 그런 다음 각 표준화 된 변수에 가중치를 곱합니다. 그런 다음 군집 분석을 수행하십시오.
  2. 모든 변수에 가중치를 곱한 후 표준화합니다. 그런 다음 군집 분석을 수행하십시오.

아니면 두 아이디어가 모두 넌센스입니까?

[편집] 사용하고자하는 클러스터링 알고리즘 (3 가지 시도)은 k- 평균, 가중 평균 연결 및 평균 연결입니다. 가중 평균 연결을 사용하여 나중에 k- 평균에 연결하는 클러스터의 수를 결정하려고합니다.


1
두 가지 방법 모두 일반적으로 올바르지 않습니다. 변수의 값을 곱하는 것은 클러스터링에 대한 가중치 변수의 중요도와 동일하지 않습니다. 프로그램에 가중치 옵션이없는 경우 원하는대로 데이터를 사용 하여 때때로 수행 할 수 있지만 이는 클러스터링의 정확한 특성에 따라 다릅니다. 따라서 클러스터링의 세부 사항, 즉 사용할 알고리즘과 방법을 설명하십시오.
ttnphns

2
변수에 가중치를 부여하는 가장 쉽고 보편적 인 방법 (및 가중치는 정수이거나 정수로 만들 수 있음)은 단순히 변수에 해당 가중치를 곱하는 것입니다. 예를 들어 클러스터링에서 50 As, 25 Bs, 10 Cs, 15 Ds를 사용할 수 있습니다.
ttnphns

8
또는, 대안 : 경우 당신은 유클리드 측정을 기반 클러스터링 사용하거나 K-수단, 그 무게의 제곱 루트에 의해 곱 각 변수 사용합니다.를. 이 multipication 완료, 물론해야 클러스터링하기 전에 수행 할 수 있습니다 (예 : 표준화 등) 어떤 전처리.
ttnphns

답변:


7

변수에 가중치를 할당하는 한 가지 방법은 스케일을 변경하는 것입니다. 이 트릭은 언급 한 클러스터링 알고리즘, 즉 작동합니다. k- 평균, 가중 평균 연계 및 평균 연계.

Kaufman, Leonard 및 Peter J. Rousseeuw. " 데이터에서 그룹 찾기 : 군집 분석 소개 ." (2005)-11 페이지 :

측정 단위를 선택하면 변수의 상대적 가중치가 발생합니다. 더 작은 단위로 변수를 표현하면 해당 변수의 범위가 더 커져 결과 구조에 큰 영향을 미칩니다. 반면에 표준화를 통해 객관성을 달성하기 위해 모든 변수에 동일한 가중치를 부여하려고합니다. 따라서 사전 지식이없는 실무자가 사용할 수 있습니다. 그러나 특정 응용 분야에서 일부 변수가 본질적으로 다른 변수보다 더 중요 할 수 있으며, 가중치 할당은 주제에 관한 지식을 바탕으로해야합니다 (예 : Abrahamowicz, 1985 참조).

한편, 변수의 규모와 무관 한 군집 기법을 고안하려는 시도가 있었다 (Friedman and Rubin, 1967). Hardy and Rasson (1982)의 제안은 클러스터의 볼록 껍질의 총 부피를 최소화하는 파티션을 검색하는 것입니다. 원칙적으로 이러한 방법은 데이터의 선형 변환과 관련하여 변하지 않지만 불행히도 구현에 알고리즘이 존재하지 않습니다 (2 차원으로 제한된 근사치 제외). 따라서 표준화의 딜레마는 현재 피할 수없는 것으로 보이며이 책에 설명 된 프로그램은 사용자에게 선택권을 남겨 둡니다.

Abrahamowicz, M. (1985), 비 유사성 측정을위한 비 숫자 pnon 정보의 사용, 영국의 캠브리지 (Cambridge)에서 7 월 2-5 일, 제 4 차 유럽 심리 학회 및 분류 사회 회의에서 발표 된 논문.

Friedman, HP 및 Rubin, J. (1967), 데이터 그룹화에 대한 일부 불변 기준. 제이 . 아 메르 통계 학자. ASSOC6., 2, 1159-1178.

Hardy, A. 및 RaP, JP (1982), Une nouvelle은 분류 자동, Statist에 대한 문제에 접근한다. 항문 도니, 7, 41-56.


1
첫 번째 참고 문헌은 어떻게 든 엉망입니다 : Leonard Kaufman과 Peter J. Rousseeuw는 당신이 링크하는 책의 저자입니다.
Nick Cox

이것을 지적 해 주셔서 감사합니다 ... Lavoisier에 의해 망쳤습니다. 그들의 페이지 "Auteurs : SEWELL Grandville, ROUSSEEUW Peter J."에서 실수를했습니다.
Franck Dernoncourt

감사합니다 @FranckDernoncourt! 변수의 스케일 (및 범위)이 가중치를 결정하면 첫 번째 질문에서 1에 접근하지 않을 것입니다. 어떻게 올바른 해결책입니까?
SPi

2
예 1 접근 방법이 옳은 것이며 Kaufman, Leonard 및 Peter J. Rousseeuw가 내가 대답에서 인용 한 단락에서 말한 것과 일치합니다. 접근법 2는 표준화가 가중치를 제거함에 따라 쓸모가 없을 것입니다 :)
Franck Dernoncourt
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.