SVD
특이 값 분해는 3 가지 종류의 기법의 근본입니다. 하자 BE 실제 값의 테이블을. SVD는 입니다. 우리는 첫 번째 잠복 벡터와 근을 사용하여 의 최고의 순위 근사값으로 을 얻을 수 있습니다 . 입니다. 또한 , , 합니다.Xr×cX=Ur×rSr×cV′c×cm [m≤min(r,c)]X(m)mXX(m)=Ur×mSm×mV′c×mU=Ur×mV=Vc×mS=Sm×m
특이 값 및 그 제곱 인 고유 값 은 데이터의 척도 ( 관성 이라고도 함)를 나타냅니다 . 왼쪽 고유 벡터 는 주축 에 대한 데이터 행의 좌표입니다 . 오른쪽 고유 벡터 는 동일한 잠복 축에 대한 데이터 열의 좌표입니다. 전체 스케일 (관성)은 저장 되므로 좌표 및 는 단위 정규화됩니다 (열 SS = 1).SUmVSUV
SVD에 의한 주요 성분 분석
PCA에서는 행 을 임의의 관측치 (오고 나올 수 있음)로 간주하지만 열 을 고정 된 차원 수 또는 변수 로 간주하기로 합의했습니다 . 그러므로 SVD-분해에 의해, 특히 고유의 결과의 행 (단지 행)의 수의 영향을 제거하기 위해 적절하고 편리한 대신 . 이는 의 고유 분해에 해당하며 , 은 표본 크기 입니다. (주로 공분산이있는 경우가 종종 있습니다. 편향되지 않도록하기 위해 로 나누는 것을 선호 하지만 뉘앙스입니다.)XXZ=X/r√XX′X/rrn
r−1
상수에 의한 의 곱은 에만 영향을 미쳤다 ; 및 는 행과 열의 단위 정규화 좌표로 유지됩니다.XSUV
여기 저기 아래에서 우리 는 아니라 svd에 의해 주어진 , 및 를 재정의합니다 . 는 의 정규화 된 버전이며 정규화는 분석 유형에 따라 다릅니다.SUVZXZX
곱으로 우리가 가지고 평균 의 열 광장 행이 우리에게 임의의 경우이 점을 감안 1., 그것은 논리적이다. 따라서 우리는 PCA 표준 또는 표준화 된 주성분 관측치 에서 소위를 얻었습니다 . 변수는 고정 된 엔터티이므로 와 같은 작업을 수행하지 않습니다 .Ur√=U∗UU∗V
그런 다음 모든 관성으로 행을 부여하여 표준화되지 않은 행 좌표를 얻습니다. 또한 PCA 원시 주성분 관측치 라고도 합니다. 이 공식을 "직접"이라고합니다. 동일한 결과가 의해 리턴됩니다 . "간접적 방법"이라는 레이블을 붙입니다.U∗SXV
유사하게, 우리는 또한 구성 요소 변수 PCA에서 호출 표준화가 열 좌표를 얻기 위해, 모든 관성에 열을 부여 할 수 부하를 : [경우 전치을 무시할 수 , 정사각형 사항] - "직접적인 방법을". 동일한 결과가 "간접적 인 방법"인 의해 리턴됩니다 . (표준화 된 주성분 득점 위에도 가능 부가금으로부터 계산 등 여기서 . 부가금이다)VS′SZ′UX(AS−1/2)A
비 플롯
단순히 "이중 산점도"가 아니라 차원 축소 분석이라는 의미에서 이중도를 고려하십시오. 이 분석은 PCA와 매우 유사합니다. PCA와 달리 행과 열은 모두 임의의 관측치로 대칭 적으로 처리되므로 는 다양한 차원의 임의의 양방향 테이블로 표시됩니다. 그런 다음 당연히 svd 전에 과 둘 다로 정규화하십시오 . .X rcZ=X/rc−−√
SVD 후, 계산 표준 행 좌표를 우리가 PCA에 그랬던 것처럼 : . 수득 열 벡터와 (PCA 달리) 동일한 일을 기준 열 좌표 : . 행과 열의 표준 좌표는 평균 제곱이 1입니다.U∗=Ur√V∗=Vc√
PCA에서와 같이 고유 값의 관성으로 행 및 / 또는 열 좌표를 부여 할 수 있습니다. 표준화되지 않은 행 좌표 : (직접). 표준화되지 않은 열 좌표 : (직접). 간접적 인 방법은 무엇입니까? 표준화되지 않은 행 좌표의 간접 공식은 이고 표준화되지 않은 열 좌표의 경우 임을 대체하여 쉽게 추론 할 수 있습니다 .U∗SV∗S′XV∗/cX′U∗/r
Biplot의 특별한 경우 PCA . 위의 설명에서 PCA와 biplot은 를 로 정규화하는 방법 만 다르다는 것을 알게되었을 것입니다 . Biplot은 행 수와 열 수로 정규화됩니다. PCA는 행 수만큼만 정규화합니다. 결과적으로, 사후 DVD 계산에서 둘 사이에는 약간의 차이가 있습니다. biplot을 수행 할 때 공식에 을 설정 하면 정확히 PCA 결과를 얻을 수 있습니다. 따라서 biplot은 일반적인 방법으로, PCA는 biplot의 특별한 경우로 볼 수 있습니다.XZc=1
[ 열 중심 . 일부 사용자는 다음과 같이 말할 수 있습니다. 중지하지만 PCA는 분산 을 설명하기 위해 먼저 데이터 열 (변수)의 중심을 필요로하지 않습니까? Biplot이 센터링을 수행하지 않을 수 있습니까? 내 대답 : 좁은 PCA에서만 중심을 맞추고 분산을 설명합니다. 저는 선택한 원점과의 제곱 편차를 합한 선형 PCA-in-general-sense, PCA에 대해 논의하고 있습니다. 데이터 의미, 기본 0 또는 원하는대로 선택할 수 있습니다. 따라서 "센터링"작업은 PCA와 바이 플롯을 구별 할 수있는 것이 아닙니다.]
패시브 행과 열
Biplot 또는 PCA에서 일부 행 및 / 또는 열을 수동 또는 보충으로 설정할 수 있습니다. 수동 행 또는 열은 SVD에 영향을 미치지 않으므로 다른 행 / 열의 관성 또는 좌표에는 영향을 미치지 않지만 활성 (수동이 아닌) 행 / 열에 의해 생성 된 주축 공간에서 좌표를받습니다.
일부 점 (행 / 열)을 수동으로 설정하려면 (1) 과 를 활성 행과 열의 수만 정의하십시오. (2) svd 전에 에서 수동 행과 열을 0으로 설정하십시오 . (3) 고유 벡터 값이 0이므로 수동 행 / 열의 좌표를 계산하는 "간접적 인"방법을 사용하십시오.rcZ
PCA에서는 오래된 관측치 ( 점수 계수 행렬 사용)에서 얻은 하중을 사용하여 새로운 수신 사례에 대한 구성 요소 점수를 계산할 때 실제로 PCA에서 이러한 새로운 사례를 가져와 수동적으로 유지하는 것과 동일한 작업을 수행합니다. 마찬가지로, PCA에 의해 생성 된 구성 요소 점수와 일부 외부 변수의 상관 / 공분산을 계산하는 것은 해당 PCA에서 해당 변수를 가져 와서 수동으로 유지하는 것과 같습니다.
임의의 관성 확산
표준 좌표의 열 평균 제곱 (MS)은 1입니다. 표준화되지 않은 좌표의 열 평균 제곱 (MS)은 각 주축의 관성과 같습니다. 모든 고유 값의 관성이 고유 벡터에 기증되어 표준화되지 않은 좌표가 생성됩니다.
에서는 행렬도 : 행 표준 좌표 각각의 주축에 대해 MS = 1을 갖는다. 표준화가 좌표를 행이라고도 행 주체 좌표 의 고유 값에 대응하는 MS가 = . 열 표준 및 비표준 (주) 좌표에 대해서도 마찬가지입니다.U∗U∗S=XV∗/cZ
일반적으로 관성이있는 좌표를 전체 또는 전혀 부여 할 필요는 없습니다. 어떤 이유로 필요한 경우 임의의 확산이 허용됩니다. 하자 수 관성의 비율 행으로 이동하는 것입니다. 그런 다음 행 좌표의 일반 공식은 다음과 같습니다. (직접) = (간접). 경우 에 반면에 우리는 표준 행 좌표를 얻을 우리는 주요 행 좌표를 얻는다.p1U∗Sp1XV∗Sp1−1/cp1=0p1=1
마찬가지로 는 열로 이동하는 관성 의 비율입니다 . 그런 다음 열 좌표의 일반 공식은 다음과 같습니다. (직접 방법) = (간접 방법). 경우 에 반면에 우리는 표준 열 좌표를 얻을 우리는 주요 열 좌표를 얻는다.p2V∗Sp2X′U∗Sp2−1/rp2=0p2=1
일반적인 간접 공식은 패시브 포인트에 대한 좌표 (표준, 기본 또는 중간)를 계산할 수 있다는 점에서 보편적입니다.
경우 그들은 관성이 행 및 열 사이에 분배 지점 말한다. , 즉 행 교장 열 표준은, 행렬도 때때로 "폼 행렬도"또는 "행 메트릭 보존"행렬도 불린다. , 즉 행 열 교장 표준, 행렬도 종종 PCA 문학 "공분산 행렬도"또는 "열 메트릭 보존"행렬도 내에서 호출된다 PCA 내에서 적용되는 경우 가변 하중 ( 공분산 과 병행) 및 표준화 된 구성 요소 점수를 표시합니다.p1+p2=1p1=1,p2=0p1=0,p2=1
에 대응 분석 , 자주 사용되며 "대칭"또는 관성에 의한 "표준"정규화라고 - 행 사이 부근과 비교는 (유클리드 기하학적 엄격 일부 expence이기는하지만) 허용 과 우리 같은 열 점 다차원 전개도에서 할 수 있습니다.p1=p2=1/2
대응 분석 (유클리드 모델)
양방향 (= 단순) 대응 분석 (CA)은 양방향 우연성 테이블, 즉 항목이 행과 열 사이의 일종의 친화도의 의미를 갖는 음 이 아닌 테이블을 분석하는 데 사용되는 이중 플롯 입니다. 표가 빈도 인 경우 카이-제곱 모형 대응 분석이 사용됩니다. 항목이 평균 또는 다른 점수 인 경우 더 단순한 유클리드 모델 CA가 사용됩니다.
유클리드 모델 CA 는 위에서 설명한 Biplot 일 뿐이며, 테이블 은 Biplot 작업에 들어가기 전에 추가로 사전 처리됩니다. 특히, 값은 과 뿐만 아니라 총합 의해 정규화됩니다 .XrcN
전처리는 중심화 후 평균 질량으로 정규화로 구성됩니다. 센터링은 다양 할 수 있으며, 대부분 다음과 같습니다. (1) 컬럼의 센터링; (2) 행의 중심; (3) 주파수 잔차의 계산과 동일한 동작 인 양방향 센터링; (4) 열 합을 균등화 한 후 열의 중심화; (5) 행 합계를 균등화 한 후 행을 중심으로합니다. 평균 질량에 의한 정규화는 초기 테이블의 평균 셀 값으로 나뉩니다. 전처리 단계에서 수동 행 / 열 (있는 경우)은 수동으로 표준화됩니다. 활성 행 / 열에서 계산 된 값에 의해 중앙화 / 정규화됩니다.
그런 다음 에서 시작 하여 사전 처리 된 에서 일반적인 biplot이 수행됩니다 .XZ=X/rc−−√
가중 비 플롯
행 또는 열의 활동 또는 중요도는 지금까지 설명한 클래식 Biplot에서와 같이 0 (수동) 또는 1 (활성)뿐만 아니라 0과 1 사이의 숫자 일 수 있다고 상상해보십시오. 이 행 및 열 가중치를 기준으로 입력 데이터에 가중치를 부여하고 가중치가있는 이중 플롯을 수행 할 수 있습니다. 가중 바이 플롯의 경우 가중치가 클수록 모든 결과에 대한 행 또는 열에 영향을줍니다 (관성 및 주축에 대한 모든 점의 좌표).
사용자는 행 가중치와 컬럼 가중치를 제공합니다. 이것들과 그것들은 먼저 1로 합산하기 위해 개별적으로 정규화됩니다. 그리고 정규화 단계는 이며, 와 는 행 i와 열 j의 가중치입니다. . 정확히 0의 가중치는 행 또는 열이 수동임을 나타냅니다.Zij=Xijwiwj−−−−√wiwj
이 시점에서 클래식 biplot은 모든 활성 행에 대해 동일한 가중치 및 모든 활성 컬럼에 대해 동일한 가중치 를 갖는이 가중치 biplot이라는 것을 알 수 있습니다. 과 는 활성 행과 활성 열의 수입니다.1/r1/crc
svd of 수행하십시오 . 모든 작업은 고전 행렬도에서와 동일하고, 유일한 차이점은 존재 대신에 및 대신에 . 표준 열 좌표 : 표준 열 좌표 : . (이것은 가중치가 0이 아닌 행 / 열에 대한 것입니다. 가중치가 0이 아닌 값은 0으로두고 아래의 간접 공식을 사용하여 표준 또는 그에 대한 좌표를 얻습니다.)Zwi1/rwj1/cU∗i=Ui/wi−−√V∗j=Vj/wj−−√
원하는 비율로 좌표에 관성을 부여하십시오 ( 및 경우 좌표가 완전히 표준화되지 않았거나 기본입니다. 및 표준으로 유지됨 ). 행 : (직접 방법) = (간접 방법). 열 : (직접 방법) = (간접 방법). 괄호 안의 행렬은 각각 열과 행 가중치의 대각선 행렬입니다. 패시브 포인트 (무게가 0 인)의 경우 간접 계산 방식 만 적합합니다. 활성 (양성 가중치) 포인트의 경우 어느 쪽이든 갈 수 있습니다.p1=1p2=1p1=0p2=0U∗Sp1X[Wj]V∗Sp1−1V∗Sp2([Wi]X)′U∗Sp2−1
Biplot의 특정 사례 인 PCA가 다시 방문했습니다 . 비가 중 biplot을 이전에 고려할 때, PCA와 biplot이 동일하다고 언급 한 유일한 차이점은 biplot이 데이터의 열 (변수)을 임의의 경우 관측 값 (행)과 대칭으로 보는 것입니다. 이제 biplot을보다 일반적인 가중치 biplot으로 확장 한 후에는 (가중치) biplot이 입력 데이터의 열 가중치 합계를 1로, (가중치) PCA-( 활성) 열 여기에 가중 PCA가 소개되었습니다. 결과는 가중 바이 플롯의 결과와 비례합니다. 특히c 는 활성 컬럼의 수이며, 두 분석의 클래식 버전뿐만 아니라 가중치가 적용되는 경우 다음 관계가 적용됩니다.
- PCA의 고유 값 = biplot의 고유 값 ;⋅c
- 로딩 = 열의 "주체 정규화"하의 열 좌표;
- 표준화 된 구성 요소 점수 = 행의 "표준 정규화"하의 행 좌표;
- PCA의 고유 벡터 = 열의 "표준 정규화"하의 열 좌표 ;/c√
- 원시 성분 점수 = 행의 "주체 정규화"하의 행 좌표 .⋅c√
대응 분석 (Chi-square 모델)
이것은 기술적으로 가중 바이 플롯이며 가중치는 사용자가 제공하지 않고 테이블 자체에서 계산됩니다. 주로 주파수 교차 테이블을 분석하는 데 사용됩니다. 이 biplot은 도표의 유클리드 거리를 기준으로 카이-제곱 거리와 비슷합니다. 카이-제곱 거리는 수학적으로 총계에 의해 역 가중 된 유클리드 거리입니다. 카이-제곱 모델 CA 형상에 대해서는 더 이상 설명하지 않겠습니다.
주파수 테이블 의 전처리는 다음과 같습니다 : 각 주파수를 예상 주파수로 나눈 다음 1을 뺍니다. 먼저 주파수 잔류를 구한 다음 예상 주파수로 나눕니다. 행 가중치를 하고 컬럼 가중치를 . 여기서 는 행 i의 한계 합계 (활성 컬럼 만), 는 j 열의 한계 합계 (활성 행만), 은 테이블 총 활성 합계 (세 개의 숫자는 초기 테이블에서 나옴).Xwi=Ri/Nwj=Cj/NRiCjN
그런 다음 가중 biplot을 수행하십시오. (1) 를 로 정규화하십시오 . (2) 가중치는 절대 0 이 아닙니다 (CA에서는 0 및 는 허용되지 않음). 그러나 에서 행 / 열을 0으로 설정하여 수동적으로 행 / 열을 강제로 만들 수 있으므로 가중치는 svd에서 비효율적입니다. (3) svd. (4) 가중 biplot에서와 같이 표준 및 관성 투자 좌표를 계산합니다.XZRiCjZ
카이-제곱 모델 CA와 양방향 중심화를 사용하는 유클리드 모델 CA에서 하나의 마지막 고유 값은 항상 0이므로 가능한 최대 기본 치수 수는 입니다.min(r−1,c−1)
이 답변 의 카이 제곱 모델 CA에 대한 훌륭한 개요도 참조하십시오 .
삽화
다음은 몇 가지 데이터 테이블입니다.
row A B C D E F
1 6 8 6 2 9 9
2 0 3 8 5 1 3
3 2 3 9 2 4 7
4 2 4 2 2 7 7
5 6 9 9 3 9 6
6 6 4 7 5 5 8
7 7 9 6 6 4 8
8 4 4 8 5 3 7
9 4 6 7 3 3 7
10 1 5 4 5 3 6
11 1 5 6 4 8 3
12 0 6 7 5 3 1
13 6 9 6 3 5 4
14 1 6 4 7 8 4
15 1 1 5 2 4 3
16 8 9 7 5 5 9
17 2 7 1 3 4 4
28 5 3 3 9 6 4
19 6 7 6 2 9 6
20 10 7 4 4 8 7
이러한 값의 분석을 기반으로 구축 된 몇 가지 이중 산점도 (첫 번째 기본 치수 2 개)가 이어집니다. 시각적 강조를 위해 열점은 스파이크에 의해 원점과 연결됩니다. 이 분석에는 수동 행이나 열이 없었습니다.
첫 번째 바이 플롯은 "있는 그대로"분석 된 데이터 테이블의 SVD 결과입니다. 좌표는 행과 열 고유 벡터입니다.
다음은 PCA 에서 나오는 가능한 이중 행성 중 하나입니다 . PCA는 열을 중앙에 두지 않고 "있는 그대로"데이터에 대해 수행되었습니다. 그러나 PCA에 채택 된대로, 처음에는 행 수 (사례 수)에 의한 정규화가 수행되었습니다. 이 특정 biplot은 기본 행 좌표 (즉, 원시 구성 요소 점수) 및 기본 열 좌표 (예 : 가변 하중)를 표시합니다.
다음은 biplot sensu stricto입니다 . 테이블은 처음에 행 수와 열 수에 의해 정규화되었습니다. 위의 PCA에서와 같이 행 및 열 좌표 모두에 기본 정규화 (관성 확산)가 사용되었습니다. PCA biplot과의 유사성에 주목하십시오. 유일한 차이점은 초기 정규화의 차이 때문입니다.
카이-제곱 모델 대응 분석 biplot. 데이터 테이블은 특별한 방식으로 사전 처리되었으며 양방향 센터링과 한계 총계를 사용한 정규화가 포함되었습니다. 가중 biplot입니다. 관성이 행과 열 좌표에 대칭으로 퍼져 있습니다. 둘 다 "기본"좌표와 "표준"좌표의 중간입니다.
이 모든 산점도에 표시된 좌표 :
point dim1_1 dim2_1 dim1_2 dim2_2 dim1_3 dim2_3 dim1_4 dim2_4
1 .290 .247 16.871 3.048 6.887 1.244 -.479 -.101
2 .141 -.509 8.222 -6.284 3.356 -2.565 1.460 -.413
3 .198 -.282 11.504 -3.486 4.696 -1.423 .414 -.820
4 .175 .178 10.156 2.202 4.146 .899 -.421 .339
5 .303 .045 17.610 .550 7.189 .224 -.171 -.090
6 .245 -.054 14.226 -.665 5.808 -.272 -.061 -.319
7 .280 .051 16.306 .631 6.657 .258 -.180 -.112
8 .218 -.248 12.688 -3.065 5.180 -1.251 .322 -.480
9 .216 -.105 12.557 -1.300 5.126 -.531 .036 -.533
10 .171 -.157 9.921 -1.934 4.050 -.789 .433 .187
11 .194 -.137 11.282 -1.689 4.606 -.690 .384 .535
12 .157 -.384 9.117 -4.746 3.722 -1.938 1.121 .304
13 .235 .099 13.676 1.219 5.583 .498 -.295 -.072
14 .210 -.105 12.228 -1.295 4.992 -.529 .399 .962
15 .115 -.163 6.677 -2.013 2.726 -.822 .517 -.227
16 .304 .103 17.656 1.269 7.208 .518 -.289 -.257
17 .151 .147 8.771 1.814 3.581 .741 -.316 .670
18 .198 -.026 11.509 -.324 4.699 -.132 .137 .776
19 .259 .213 15.058 2.631 6.147 1.074 -.459 .005
20 .278 .414 16.159 5.112 6.597 2.087 -.753 .040
A .337 .534 4.387 1.475 4.387 1.475 -.865 -.289
B .461 .156 5.998 .430 5.998 .430 -.127 .186
C .441 -.666 5.741 -1.840 5.741 -1.840 .635 -.563
D .306 -.394 3.976 -1.087 3.976 -1.087 .656 .571
E .427 .289 5.556 .797 5.556 .797 -.230 .518
F .451 .087 5.860 .240 5.860 .240 -.176 -.325