k- 평균 군집화와 PCA의 관계는 무엇입니까?


60

클러스터링 알고리즘 (예 : k- 평균) 전에 PCA (주성분 분석)를 적용하는 것이 일반적입니다. 실제로 클러스터링 결과를 향상시키는 것으로 여겨집니다 (소음 감소).

그러나 저는 PCA와 k- 평균의 관계에 대한 비교적이고 심층적 인 연구에 관심이 있습니다. 예를 들어 Chris Ding과 Xiaofeng He (2004 )는 Principal Component Analysis를 통한 K-means Clustering 은 "주요 구성 요소는 K-means 클러스터링에 대한 개별 클러스터 멤버쉽 표시기에 대한 지속적인 솔루션"이라고 밝혔다. 그러나 나는이 논문을 이해하는데 어려움을 겪고 있으며 Wikipedia는 실제로 그것이 잘못되었다고 주장한다 .

또한 두 방법의 결과는 PCA가 분산을 유지하면서 "기능"의 수를 줄이는 데 도움이되는 반면, 클러스터링은 예상 / 평균으로 여러 포인트를 요약하여 "데이터 포인트"의 수를 줄인다는 점에서 다소 다릅니다. (k- 평균의 경우). 따라서 데이터 세트가 각각 특징을 갖는 포인트 로 구성되는 경우 , PCA는 특징을 압축하는 것을 목표로하고 클러스터링은 데이터 포인트 를 압축하는 것을 목표로합니다 .NTTN

이 두 기술의 관계에 대한 평신도 설명을 찾고 있습니다. 두 기술에 대한 기술 문서가 더 있습니다.


2
클러스터링은 기능 축소로 간주 될 수도 있습니다. 클러스터 할당으로 각 샘플을 표현하거나 희소 인코딩 (따라서 를 줄임 ) 이 두 가지 접근 방식은 데이터 포인트 수를 일정하게 유지하면서 "기능"차원을 줄입니다. Tk
제프

답변:


72

K- 평균 군집화와 PCA는 매우 다른 목표를 가진 것으로 보이며 첫눈에 관련이없는 것처럼 보입니다. 그러나 Pingcipal Component Analysis를 통한 Ding & He 2004 논문 K- 평균 군집화 에서 설명했듯이 , 이들 사이에는 깊은 연관성이 있습니다.

직감은 PCA가 모든 데이터 벡터를 소수의 고유 벡터의 선형 조합으로 나타내려고 노력 하며 평균 제곱 재구성 오류를 최소화하기 위해 수행한다는 것입니다. 대조적으로, K- 평균은 적은 수의 군집 중심을 통해 모든 데이터 벡터를 나타내려고한다 . 즉, 단일 제외하고 선형 조합 가중치가 모두 0이어야하는 소수의 군집 중심 벡터의 선형 조합으로 나타내려고한다 . 또한 평균 제곱 재구성 오류를 최소화하기 위해 수행됩니다.n 1nn1

따라서 K- 평균은 초 스파 스 PCA로 볼 수 있습니다.

Ding & He 논문은이 연결을보다 정확하게 만듭니다.


불행하게도, Ding & He 논문은 약간의 조잡한 공식을 포함하고 있으며 쉽게 오해 될 수 있습니다. 예를 들어 Ding & He는 K- 평균 군집 솔루션의 군집 중심이 차원 PCA 부분 공간에 있음을 증명 한 것으로 보입니다 .(K1)

정리 3.3. 군집 중심 부분 공간은 첫 번째 주요 방향 [...]으로 확장됩니다.K1

의 경우 이 PC1 축에 대한 예측이 반드시 즉 PC2 축 완벽 클러스터를 분리하는 것, 다른 클러스터에 대한 하나 개의 클러스터에 대한 부정과 긍정적는 것을 의미한다.K=2

이것은 실수이거나 어리석은 글입니다. 어쨌든 말 그대로,이 특별한 주장은 거짓입니다.

대한 2D의 장난감 예제를 살펴 보도록하겠습니다 . 공분산 행렬은 같지만 평균이 다른 두 정규 분포에서 일부 표본을 생성했습니다. 그런 다음 K- 평균과 PCA를 모두 실행했습니다. 다음 그림은 위의 데이터의 산점도와 아래의 K- 평균 솔루션에 따라 동일한 데이터의 색을 보여줍니다. 또한 첫 번째 주요 방향을 검은 선으로 표시하고 K- 평균이 검은 십자가를 가진 클래스 중심으로 표시합니다. PC2 축은 검은 색 점선으로 표시됩니다. K- 평균은 전 세계 최적의 수렴을 보장하기 위해 랜덤 시드로 번 반복되었습니다 .100K=2100

PCA vs K- 평균

클래스 중심이 첫 번째 PC 방향과 거의 비슷 하지만 정확하게 떨어지지 않는다는 것을 분명히 알 수 있습니다. 또한 PC2 축이 서브 플로트 1과 4에서 클러스터를 완벽하게 분리하더라도 서브 플로트 2와 3에서 잘못된쪽에 몇 개의 점이 있습니다.

따라서 K- 평균과 PCA 간의 합의는 상당히 좋지만 정확하지는 않습니다.

딩앤은 무엇을 증명 했는가? 간단히하기 위해 만 고려할 것 입니다. 각 클러스터에 할당 된 포인트 수는 및 이고 총 포인트 수는 입니다. Ding & He 다음에 다음과 같이 클러스터 표시기 벡터 을 정의합니다. 번째 점이 클러스터 1에 속하고 경우 클러스터 2에 속하는 경우) 클러스터 표시기 벡터의 단위 길이는 이고 "중심"입니다. 즉, 요소 ​​합계는 0 입니다.n 1 n 2 n = n 1 + n 2 qR n q i = K=2n1n2n=n1+n2 qRn 나는qi=n2/nn1iqi=n1/nn2q=1qi=0

Ding & He는 K- 평균 손실 함수 (K- 평균 알고리즘이 최소화하는 를 , 여기서 는 모든 점 사이의 스칼라 곱 의 그램 행렬입니다 : , 여기서 는 데이터 행렬이고 는 중심 데이터 행렬입니다.ki(xiμk)2qGqGn×nG=XcXcXn×2Xc

(참고 : 나는 종이와 약간 다른 표기법과 용어를 사용하고 있지만 더 명확합니다.)

따라서 K- 평균 솔루션 는 최대화하는 중심 단위 벡터 입니다. 첫번째 주요 성분 (제곱의 부 합이 때 정규화) 그람 행렬의 주요한 고유 벡터, 즉, 그것도 중심 단위 벡터 인 것을 표시하기 쉽다 극대화 된 . 유일한 차이점은 는 두 개의 다른 값만 갖도록 제한되는 반면 에는이 제약 조건이 없다는 것입니다.qqGqppGpqp

다시 말해, K- 평균과 PCA 는 동일한 목적 함수를 최대화 하는데 , 유일한 차이점은 K- 평균에는 추가적인 "범주 적"제약이 있다는 것입니다.

K-means (제약 된) 솔루션과 PCA (unontrained) 솔루션은 시뮬레이션에서 위에서 보았 듯이 서로 가깝게 접근 할 것이지만, 그것들이 동일하다고 기 대해서는 안되는 이유가 있습니다. 취하고 모든 부정 요소를 하고 모든 긍정적 요소를 하면 일반적으로 정확하게 제공 하지 않습니다 .pn1/nn2n2/nn1q

Ding & 그는 다음과 같이 정리를하기 때문에 이것을 잘 이해하고있는 것 같습니다.

정리 2.2. 인 평균 군집화 의 경우 군집 표시기 벡터의 연속 솔루션이 [제 1] 주성분입니다K=2

"연속 솔루션"이라는 단어에 유의하십시오. 이 정리를 증명 한 후에 그들은 또한 PCA를 사용하여 K- 평균 반복을 초기화 할 수 있다고 언급하는데 이는 가 가까울 것으로 예상 할 때 완전히 의미 가 있습니다 . 그러나 반복이 동일하지 않기 때문에 반복을 수행해야합니다.qp

그러나 Ding & He는 대한보다 일반적인 치료법을 개발하고 정리 3.3을 공식화합니다.K>2

정리 3.3. 군집 중심 부분 공간은 첫 번째 주요 방향 [...]으로 확장됩니다.K1

나는 섹션 3의 수학을 거치지 않았지만,이 정리는 실제로 K- 평균의 "연속적 해결"을 의미한다고 믿습니다. 스팬 [...] ".

그러나 Ding & He는이 중요한 자격을 부여하지 않으며, 요약서에

여기서 우리는 주요 구성 요소가 K- 평균 군집화를위한 개별 클러스터 구성원 표시기에 대한 지속적인 솔루션임을 증명합니다. 마찬가지로, 우리는 클러스터 중심에 의해 확장 된 부분 공간이 항 에서 잘린 데이터 공분산 행렬의 스펙트럼 확장에 의해 주어진다는 것을 보여준다 .K1

첫 번째 문장은 완전히 맞지만 두 번째 문장은 정확하지 않습니다. 이것이 (매우) 조잡한 글인지 또는 실수인지는 분명하지 않습니다. 설명을 요청하는 두 저자 모두에게 정중하게 이메일을 보냈습니다. (2 개월 후 업데이트 : 나는 그 소식을들은 적이 없다.)


Matlab 시뮬레이션 코드

figure('Position', [100 100 1200 600])

n = 50;
Sigma = [2 1.8; 1.8 2];

for i=1:4
    means = [0 0; i*2 0];

    rng(42)
    X = [bsxfun(@plus, means(1,:), randn(n,2) * chol(Sigma)); ...
         bsxfun(@plus, means(2,:), randn(n,2) * chol(Sigma))];
    X = bsxfun(@minus, X, mean(X));
    [U,S,V] = svd(X,0);
    [ind, centroids] = kmeans(X,2, 'Replicates', 100);

    subplot(2,4,i)
    scatter(X(:,1), X(:,2), [], [0 0 0])

    subplot(2,4,i+4)
    hold on
    scatter(X(ind==1,1), X(ind==1,2), [], [1 0 0])
    scatter(X(ind==2,1), X(ind==2,2), [], [0 0 1])
    plot([-1 1]*10*V(1,1), [-1 1]*10*V(2,1), 'k', 'LineWidth', 2)
    plot(centroids(1,1), centroids(1,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(1,1), centroids(1,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)
    plot(centroids(2,1), centroids(2,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(2,1), centroids(2,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)

    plot([-1 1]*5*V(1,2), [-1 1]*5*V(2,2), 'k--')
end

for i=1:8
    subplot(2,4,i)
    axis([-8 8 -8 8])
    axis square
    set(gca,'xtick',[],'ytick',[])
end    

2
방금 Ding & He 논문을 살펴 보았습니다. 정리 2.2에서는 p- 차원 데이터 클라우드의 k- 평균 (k = 2)을 수행하고 데이터의 공분산을 기반으로 PCA를 수행하면 군집 A에 속하는 모든 점이 음수이고 클러스터 B에 속하는 점수는 PC1 점수에서 긍정적입니다. 흥미로운 진술-시뮬레이션에서 테스트해야합니다. 그러나 문제는 그것이 전 세계적으로 최적의 K- 평균 솔루션을 가정한다는 것입니다. 그러나 달성 된 클러스터링이 최적인지 어떻게 알 수 있습니까?
ttnphns 2016

1
@ttnphns,이 주장을보다 명확하게 테스트하기 위해 시뮬레이션과 그림을 업데이트했습니다. PC1에 대한 투영이 클래스 A 및 B에 대해 양수 및 음수 여야하는 경우 PC2 축이 이들 사이의 경계 역할을해야합니다. 이것은 내 4 장난감 시뮬레이션의 경우와 매우 비슷하지만 예제 2와 3에서는 PC2의 잘못된면에 몇 가지 점이 있습니다. 수렴과 관련 kmeans하여 100 회 복제로 함수를 실행 했습니다. 매번 다른 임의의 초기화를 선택한 다음 최상의 솔루션을 선택하므로 글로벌 최적의 달성을 희망합니다.
amoeba는 Reinstate Monica가

1
@ttnphns : 무슨 일이 일어나고 있는지 알 것 같습니다. 내 업데이트를 참조하십시오.
amoeba 말한다 Reinstate Monica

아메바, 논의중인 기사를 우리 모두에게 소화시키고 결론을 전달해 주셔서 감사합니다 (+2). 개인적으로 알려 주셔서 감사합니다. 며칠 안에 답을 읽고 조사하기 위해 다시 방문하겠습니다. 그러나 이미 감사합니다.
ttnphns

뛰어난 게시물. R이 아닌 Matlab을 사용한 이유가 있습니까? ML Coursera 과정을 수강하고 Andrew Ng도 R 또는 Python 대신 Matlab을 사용하기 때문에 궁금합니다. 일반적인 ML 선택입니까?
Antoni Parellada 2016 년

10

PCA와 K- 평균은 다른 일을합니다.

PCA는 치수 공간 축소 / 특징 선택 / 표현 학습에 사용됩니다 (예 : 형상 공간에 관련이 없거나 중복 된 형상이 너무 많은 경우). 목표는 데이터의 고유 차원을 찾는 것입니다.

더 높은 차원의 공간으로 일반화 할 수있는 2 차원 예제가 있습니다. 데이터 집합에는 와 두 가지 기능 이 있으며 모든 원은 데이터 요소입니다.xy

여기에 이미지 설명을 입력하십시오

이미지에서 은 보다 큰 크기 입니다. 이들은 고유 벡터입니다. 데이터의 차원이 2 차원에서 1 차원으로 줄어들고 (이 경우에는 많이 선택되지 않음) 이것은 벡터 방향으로 투영하여 수행됩니다 ( 가 축 중 하나에 평행하거나 수직이 되는 회전 후 ). . 이것은 가 가장 큰 분산 방향에 직교하기 때문 입니다. 그것을 생각하는 한 가지 방법은 최소한의 정보 손실입니다. (하나의 좌표축이 손실되었으므로 여전히 손실이 있습니다).v1v2v2v2v2

K- 평균은 유사점을 기준으로 데이터 포인트의 자연스러운 그룹을 반환하는 클러스터링 알고리즘입니다. 가우스 혼합 모델특별한 경우입니다 .

아래 이미지에서 데이터 세트는 3 차원입니다. 왼쪽의 3D 플롯에서 많은 정보를 잃지 않고 치수를 '삭제'할 수 있음을 알 수 있습니다. PCA는 데이터를 2 차원으로 투영하는 데 사용됩니다. 왼쪽 그림에는 투영 평면도 표시되어 있습니다. 그런 다음 K- 평균을 사용하여 투영 된 데이터를 사용하여 오른쪽 그림에서 다른 색상으로 코딩 된 다른 그룹에 레이블을 지정할 수 있습니다.X

여기에 이미지 설명을 입력하십시오

PCA 또는 기타 차원 축소 기법은 머신 러닝의 비 감독 방법 또는 감독 방법보다 먼저 사용됩니다. 위에서 설명한 이유와 위에서 설명한 것 외에도 시각화 목적으로 사용됩니다 (고차원에서 2D 또는 3D로 투영).

이 기사에 관해서는 연결이 없다고 생각합니다 .PCA는 데이터의 자연 그룹에 관한 정보가 없으며 하위 집합 (그룹)이 아닌 전체 데이터에서 작동합니다. 일부 그룹이 하나의 고유 벡터로 설명 될 수 있다면 (특정 클러스터가 해당 방향을 따라 확산되기 때문에) 우연의 일치 일 뿐이며 일반적인 규칙으로 간주해서는 안됩니다.

"PCA는 T 기능을 압축하는 것을 목표로하지만 클러스터링은 N 데이터 포인트를 압축하는 것을 목표로합니다."

실제로 압축은 PCA에 대한 직관적 인 방법입니다. 그러나 K- 평균에서는 각 점을 클러스터와 관련하여 설명하려면 최소한 동일한 정보량 (예 : 차원) . 여기서 는 거리이고 는 저장됩니다 대신 . 또한 델타의 상대적인 을 알기 위해 를 저장해야 합니다. 물론 와 저장할 수는 있지만 데이터에서 실제 정보를 검색 할 수는 없습니다.xi=d(μi,δi)dδixiμidi

클러스터링은 정보를 실제로 추가합니다. 각 그룹의 레이블이 의미하는 바를 알지 못하고 (그룹 내 데이터를 볼 때까지) 데이터를 자연 그룹 (필수적으로 분리 할 필요는 없음)으로 분할하는 것으로 생각합니다.


3
줄거리에서 PC의 레이블이 표시되는 방식이 텍스트의 해당 설명과 일치하지 않는 것 같습니다. PCA는 일반적으로 열에 적용되고 k- 행은 행에 적용 되지만 둘 다에 적용 할 있습니다. 나는 신문을 읽지 않았지만 그것이 그들이 말하는 것입니다.
gung-Monica Monica 복원

죄송합니다. PC의 v1 및 v2 레이블 인 viz.
gung-Monica Monica 복원

좋은 점, 데이터 포인트 그룹을 압축하는 것이 유용 할 수 있습니다 (무엇을 알아낼 수 없음). k- 평균을 사용하여 그룹을 찾고 pca를 사용하여 레코드를 더 적게 압축합니다. 기능 그룹화와 관련하여 실제로 유용 할 수 있습니다.
shuriken x blue

2
본질적으로 종이가 잘못되었다고 말하는가? 그것은 명시 적으로 (초록의 3 번째 및 4 번째 문장 참조) 진술 하고 특정 연결 이 있음을 수학적으로 입증 했다고 주장 하지만 연결은 없다고 말합니다.
amoeba는 Reinstate Monica

내가 얻은 것 : PCA는 K- 평균 클러스터링 솔루션을 향상시킵니다. 연결은 클러스터 구조가 첫 번째 K-1 주요 구성 요소에 내장되어 있다는 것입니다. 이것이 기여입니다.
shuriken x blue 3

7

k- 평균을 사용하기 전에 데이터 를 희게 하는 것이 일반적 입니다. 그 이유는 k- 평균이 스케일에 매우 민감하기 때문에 속성이 혼합 된 경우 더 이상 "진정한"스케일이 없습니다. 그런 다음 데이터를 표준화, 표준화 또는 희게해야합니다. 완벽한 것은 없지만 미백은 전체적인 상관 관계를 제거 하여 때로는 더 나은 결과를 얻을 수 있습니다 . 공분산 행렬에서 조작하기 때문에 PCA / 미백은 입니다.O(nd2+d3)

내 이해에 따르면, k- 평균과 PCA의 관계 는 원래 데이터에 있지 않습니다 . 그것은 거리 행렬에서 PCA를 사용하는 것입니다 ( 항목이 있고 전체 PCA를 수행하면 . 즉, 특히 k- 평균에 비해 엄청나게 비쌉니다. 여기서 은 유일한 큰 항입니다), 아마도 에만 해당됩니다 . K- 평균은 최소 제곱 최적화 문제이므로 PCA도 마찬가지입니다. k- 평균은 데이터의 최소 제곱 파티션을 찾으려고합니다. PCA는 최소 제곱 군집 벡터를 찾습니다.n2O(n2d+n3)O(knid)nk=2

첫 번째 고유 벡터는 가장 큰 분산을 가지므로이 벡터를 분할하면 (입력 데이터 좌표가 아니라 클러스터 멤버쉽과 유사 함) 클러스터 분산 사이의 최대화를 의미 합니다 . 군집 분산을 최대화하면 클러스터 내 분산도 최소화됩니다.

그러나 실제 문제의 경우 이것은 쓸모가 없습니다. 이론적 인 관심사 일뿐입니다.


2
Ding & He 논문에 대한보다 구체적인 설명 / 개요 (OP가 링크 된)를 보는 것이 좋을 것입니다. 나는 그것에 익숙하지 않지만 (아직) 호기심을 가질 정도로 충분한 시간을 언급하는 것을 보았습니다.
amoeba는

3
당신은 이것을 의미 합니까? 그렇습니다. 나는 그것이 내 혼란에 추가한다고 생각합니다. 나는 이것이 나를 위해 그것을 명확히 할 수있는 실이되기를 바랐다. 이제 그것에 대해 생각하기 때문에, 아마도 그것에 현상금을 달아야 할 것이다. 다음 날이 주제를 스스로 공부할 시간이 없을 것 같습니다.
amoeba는

3
이 위키 단락은 매우 이상합니다. 그것은 Ding & He (2001/2004)가 틀 렸으며 새로운 결과는 아니라고 말합니다! 그것이 새로운 것이 아니라는 것을 증명하기 위해 2004 년 논문 (?!)을 인용합니다. 그것이 틀렸다는 것을 증명하기 위해 Ding & He를 인용하지 않은 새로운 2014 논문을 인용합니다. 수상한.
amoeba는

3
인용 스팸 일 수도 있습니다. Wikipedia는 자체 프로모션으로 가득합니다.
Anony-Mousse

1
나는 Ding & He에서 무슨 일이 일어나고 있는지 알았습니다. 내 대답을 참조하십시오. 그 외에도, 알고리즘 복잡성에 대한 당신의 주장은 완전히 정확하지는 않습니다. 왜냐하면 행렬 의 고유 벡터 분해 와 평균 "컴포넌트" 만을 추출하기 때문 입니다. 그것은 공정한 비교가 아닙니다. PCA에 반복 알고리즘을 사용하고 구성 요소 만 추출 하면 K- 평균 속도로 작동 할 것으로 예상됩니다. 따라서 실제 문제에 대해서는 쓸모가없고 이론적 인 관심에만 해당한다고 말하는 것이 옳지 않습니다. n×nkk
amoeba 말한다 Reinstate Monica

4

k- 평균을 O (k / epsilon) 낮은 순위 근사치에서 풀면 (즉, PCA에서와 같이 첫 번째로 큰 특이 벡터의 스팬에 투사) 곱셈 오차의 관점에서 (1+ 엡실론) 근사값을 얻을 수 있습니다.

특히, k- 가장 큰 벡터에 투영하면 2- 근사치가 생성됩니다.

실제로, 모든 k 중심 세트에 대한 제곱 거리의 합은이 투영법에 의해 근사 될 수 있습니다. 그런 다음 축소 된 데이터에서 코어 세트를 계산하여 입력을이 합계에 가까운 폴리 (k / eps) 포인트로 줄일 수 있습니다.

참조 : Dan Feldman, Melanie Schmidt, Christian Sohler : 빅 데이터를 작은 데이터로 전환 : k- 평균, PCA 및 프로젝션 클러스터링을위한 일정한 크기의 코어 세트. SODA 2013 : 1434-1453


3

PCA와 KMeans의 직관적 인 관계

  1. 이론적으로 PCA 차원 분석 (첫 번째 K 차원을 유지하면 분산의 90 %가 K 평균 군집과 직접적인 관계를 가질 필요는 없다고 말하지만) PCA 사용의 가치는 우리의 분석은 주요 구성 요소 (연령, 성별 등)에서 자연적으로 클러스터링 / 진화하는 경향이 있습니다. b) PCA는 저 분산 차원 (소음)을 제거하여 자체적으로 가치를 더하고 클러스터링과 유사한 감각을 형성합니다. ) 핵심 차원에 초점을 맞춤으로써 간단한 용어로, 그것은 XY 축과 마찬가지로 추상적 인 수학적 개념을 마스터하는 데 도움이되지만 더 진보 된 방식으로 진행됩니다.

  2. K는 주어진 K에 대해 군집 내 전체 거리를 최소화하려고 함

  3. N 차원 매개 변수가있는 개체 집합의 경우 기본적으로 유사한 개체에는 몇 가지 주요 차이점 (예 : 젊은 IT 학생, 젊은 댄서, 인간 그룹 등)을 제외하고는 "유사한"MOST 매개 변수가 있습니다. 그러나 여전히 매우 다양한 몇 가지 주요 기능이 있으며 이러한 핵심 핵심 구성 요소를 캡처하면 기본적으로 색상, 거주 지역 등의 대부분의 차이를 포착합니다. 따라서 사소한 차이점이나 낮은 PC는 많은 정보를 잃지 않을 것입니다
  4. 따라서 차이 (변이)를보기 위해 그룹화하여 데이터 평가에 적합한 것은 "매우"및 "매우 자연"입니다 (예 : 메인 스트리트에서 일주일에 1,000 번의 설문 조사를하는 경우 민족을 기준으로 클러스터링) K Means의 사명 하에서, 우리는 공정한 수의 K를 설정하여 (클러스터의) 그룹 요소가 Centroid 사이에서 가장 작은 거리 (최소)를 갖도록하고 비용은 K 클러스터를 설정하고 실행하는 것이 최적입니다 (클러스터 인 각 구성원은 유지 관리하기에는 비용이 많이 들고 값이 없으므로 의미가 없습니다)
  5. K 그룹이 최적의 상태로 쉽게 "시각적으로 검사"될 수 있음을 의미합니다. K가 주요 구성 요소를 따르는 경우 (예 : 연령이 다른 사람들의 경우 인종 / 정치적 집단이 비슷한 의견을 표현하는 경향이 있으므로 그런 다음 축소 목표를 달성 한 PC (참조 1) 또한 이러한 PC (민족, 연령, 종교 등)는 종종 직교하므로 PCA를 보면 시각적으로 구분됩니다.
  6. 그러나이 직관적 인 추론은 충분하지만 필요한 조건은 아닙니다. (참고 2 : 그러나 PCA는 k- 평균 군집의 유용한 완화라는 새로운 결과가 아니며 (예를 들어 [35] 참조), 군집 중심 부분 공간이 확장되었다는 진술에 대한 반례를 발견하는 것은 간단하다 주요한 지시에 따라. [36])

CP를 기반으로하거나 CP를 따라 클러스터를 선택하면 편안한 할당 메커니즘으로 이어질 수 있습니다.

x가 X 축을 따라 첫 번째 PC 인 경우이 예를들 수 있습니다. (........... CC1 ............... CC2 ..... ....... CC3 X 축) X 축이 분산의 9X % 이상을 캡처하고 유일한 PC라고 말하는 경우

6. K 평균을 수행 한 후 PCA를 사용하여 시각화합니다 (참고 4)

PCA 디스플레이 * K 클러스터링 결과가 직교 또는 근접한 경우, 클러스터링이 건전하다는 신호이며 각각 고유 한 특성을 나타냅니다.

(* 정의상 PCA는 K (PCA)가 아마도 대부분의 분산을 포착 할 수 있도록 주요 치수 (1D에서 3D)를 찾아 표시합니다.

따라서 PCA는 좋은 평균 군집을 시각화하고 확인하는 데 유용하며 K 평균 군집을 결정하는 데 본질적으로 유용한 요소이며 K 평균 이전에 사용됩니다.

참고:

  1. https://msdn.microsoft.com/en-us/library/azure/dn905944.aspx
  2. https://en.wikipedia.org/wiki/Principal_component_analysis
  3. 기본 구성 요소 분석을 사용하여 클러스터링 : 노인 자율 장애 (응용 프로그램 및 습진) 적용
  4. http://cs229.stanford.edu/notes/cs229-notes10.pdf Andrew Ng
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.