Biplot과 관련한 PCA 및 통신 분석


38

Biplot은 주로 주성분 분석 (및 관련 기술)의 결과를 표시하는 데 사용됩니다 . 구성 요소 로딩 과 구성 요소 점수를 동시에 보여주는 이중 또는 오버레이 산점도 입니다. 나는 오늘 @amoeba에 의해 biplot 좌표가 어떻게 생성 / 확대되는지에 대한 질문에 대한 나의 의견에서 벗어나는 대답을 주었다고 알려졌다. 그의 대답 은 몇 가지 방법을 자세하게 고려합니다. 그리고 @amoeba는 biplot과 경험을 공유 할 것인지 물었습니다.

나의 경험 (이론과 실험에 의한)은 매우 겸손하지만, nevetherless는 그렇게 자주 인식되지 않는 두 가지 사항을 강조합니다. (2) PCA, 대응 분석 (및 다른 잘 알려진 기술)은 실제로 biplot의 특정 사례입니다. 또는 적어도 둘 다 쌍을 이룬 쌍둥이입니다. biplot을 할 수 있다면 다른 두 가지를 할 수 있습니다.

당신에게 내 질문은 : 그들은 어떻게 (PCA, CA, Biplot) 당신을 연결 합니까? 당신의 생각을 나누십시오. 그동안 내 계정을 게시하고 있습니다. 더 많은 답변을 요청하고 비평을 남기고 싶습니다.


와! 나는 의견을 물었을 때 그러한 거대한 실을 기대하지 않았다 :) 감사합니다. 흥미로운 토론을 시작해 +1. 나는 아직도 당신의 대답을 요약하고 있지만, 분명히 설명하겠습니다. 나는 당신의 의견에서 "이탈"이라는 대답을했다고 말함으로써 내가 그것을 확장했거나 반대한다는 것을 의미합니까? 나는 확실히 반대한다는 의미는 아니었다.
amoeba는

나는 "[자신의 계정으로 시작하여"개발 한 것입니다.] 아니요, 반대는 보지 못했습니다.
ttnphns

답변:


40

SVD

특이 값 분해는 3 가지 종류의 기법의 근본입니다. 하자 BE 실제 값의 테이블을. SVD는 입니다. 우리는 첫 번째 잠복 벡터와 근을 사용하여 의 최고의 순위 근사값으로 을 얻을 수 있습니다 . 입니다. 또한 , , 합니다.Xr×cX=Ur×rSr×cVc×cm [mmin(r,c)]X(m)mXX(m)=Ur×mSm×mVc×mU=Ur×mV=Vc×mS=Sm×m

특이 값 및 그 제곱 인 고유 값 은 데이터의 척도 ( 관성 이라고도 함)를 나타냅니다 . 왼쪽 고유 벡터 는 주축 에 대한 데이터 행의 좌표입니다 . 오른쪽 고유 벡터 는 동일한 잠복 축에 대한 데이터 열의 좌표입니다. 전체 스케일 (관성)은 저장 되므로 좌표 및 는 단위 정규화됩니다 (열 SS = 1).SUmVSUV

SVD에 의한 주요 성분 분석

PCA에서는 을 임의의 관측치 (오고 나올 수 있음)로 간주하지만 을 고정 된 차원 수 또는 변수 로 간주하기로 합의했습니다 . 그러므로 SVD-분해에 의해, 특히 고유의 결과의 행 (단지 행)의 수의 영향을 제거하기 위해 적절하고 편리한 대신 . 이는 의 고유 분해에 해당하며 , 은 표본 크기 입니다. (주로 공분산이있는 경우가 종종 있습니다. 편향되지 않도록하기 위해 로 나누는 것을 선호 하지만 뉘앙스입니다.)XXZ=X/rXXX/rrnr1

상수에 의한 의 곱은 에만 영향을 미쳤다 ; 및 는 행과 열의 단위 정규화 좌표로 유지됩니다.XSUV

여기 저기 아래에서 우리 는 아니라 svd에 의해 주어진 , 및 를 재정의합니다 . 는 의 정규화 된 버전이며 정규화는 분석 유형에 따라 다릅니다.SUVZXZX

곱으로 우리가 가지고 평균 의 열 광장 행이 우리에게 임의의 경우이 점을 감안 1., 그것은 논리적이다. 따라서 우리는 PCA 표준 또는 표준화 된 주성분 관측치 에서 소위를 얻었습니다 . 변수는 고정 된 엔터티이므로 와 같은 작업을 수행하지 않습니다 .Ur=UUUV

그런 다음 모든 관성으로 행을 부여하여 표준화되지 않은 행 좌표를 얻습니다. 또한 PCA 원시 주성분 관측치 라고도 합니다. 이 공식을 "직접"이라고합니다. 동일한 결과가 의해 리턴됩니다 . "간접적 방법"이라는 레이블을 붙입니다.USXV

유사하게, 우리는 또한 구성 요소 변수 PCA에서 호출 표준화가 열 좌표를 얻기 위해, 모든 관성에 열을 부여 할 수 부하를 : [경우 전치을 무시할 수 , 정사각형 사항] - "직접적인 방법을". 동일한 결과가 "간접적 인 방법"인 의해 리턴됩니다 . (표준화 된 주성분 득점 위에도 가능 부가금으로부터 계산 등 여기서 . 부가금이다)VSSZUX(AS1/2)A

비 플롯

단순히 "이중 산점도"가 아니라 차원 축소 분석이라는 의미에서 이중도를 고려하십시오. 이 분석은 PCA와 매우 유사합니다. PCA와 달리 행과 열은 모두 임의의 관측치로 대칭 적으로 처리되므로 는 다양한 차원의 임의의 양방향 테이블로 표시됩니다. 그런 다음 당연히 svd 전에 과 둘 다로 정규화하십시오 . .X rcZ=X/rc

SVD 후, 계산 표준 행 좌표를 우리가 PCA에 그랬던 것처럼 : . 수득 열 벡터와 (PCA 달리) 동일한 일을 기준 열 좌표 : . 행과 열의 표준 좌표는 평균 제곱이 1입니다.U=UrV=Vc

PCA에서와 같이 고유 값의 관성으로 행 및 / 또는 열 좌표를 부여 할 수 있습니다. 표준화되지 않은 행 좌표 : (직접). 표준화되지 않은 열 좌표 : (직접). 간접적 인 방법은 무엇입니까? 표준화되지 않은 행 좌표의 간접 공식은 이고 표준화되지 않은 열 좌표의 경우 임을 대체하여 쉽게 추론 할 수 있습니다 .USVSXV/cXU/r

Biplot의 특별한 경우 PCA . 위의 설명에서 PCA와 biplot은 를 로 정규화하는 방법 만 다르다는 것을 알게되었을 것입니다 . Biplot은 행 수와 열 수로 정규화됩니다. PCA는 행 수만큼만 정규화합니다. 결과적으로, 사후 DVD 계산에서 둘 사이에는 약간의 차이가 있습니다. biplot을 수행 할 때 공식에 을 설정 하면 정확히 PCA 결과를 얻을 수 있습니다. 따라서 biplot은 일반적인 방법으로, PCA는 biplot의 특별한 경우로 볼 수 있습니다.XZc=1

[ 열 중심 . 일부 사용자는 다음과 같이 말할 수 있습니다. 중지하지만 PCA는 분산 을 설명하기 위해 먼저 데이터 열 (변수)의 중심을 필요로하지 않습니까? Biplot이 센터링을 수행하지 않을 수 있습니까? 내 대답 : 좁은 PCA에서만 중심을 맞추고 분산을 설명합니다. 저는 선택한 원점과의 제곱 편차를 합한 선형 PCA-in-general-sense, PCA에 대해 논의하고 있습니다. 데이터 의미, 기본 0 또는 원하는대로 선택할 수 있습니다. 따라서 "센터링"작업은 PCA와 바이 플롯을 구별 할 수있는 것이 아닙니다.]

패시브 행과 열

Biplot 또는 PCA에서 일부 행 및 / 또는 열을 수동 또는 보충으로 설정할 수 있습니다. 수동 행 또는 열은 SVD에 영향을 미치지 않으므로 다른 행 / 열의 관성 또는 좌표에는 영향을 미치지 않지만 활성 (수동이 아닌) 행 / 열에 의해 생성 된 주축 공간에서 좌표를받습니다.

일부 점 (행 / 열)을 수동으로 설정하려면 (1) 과 를 활성 행과 열의 수만 정의하십시오. (2) svd 전에 에서 수동 행과 열을 0으로 설정하십시오 . (3) 고유 벡터 값이 0이므로 수동 행 / 열의 좌표를 계산하는 "간접적 인"방법을 사용하십시오.rcZ

PCA에서는 오래된 관측치 ( 점수 계수 행렬 사용)에서 얻은 하중을 사용하여 새로운 수신 사례에 대한 구성 요소 점수를 계산할 때 실제로 PCA에서 이러한 새로운 사례를 가져와 수동적으로 유지하는 것과 동일한 작업을 수행합니다. 마찬가지로, PCA에 의해 생성 된 구성 요소 점수와 일부 외부 변수의 상관 / 공분산을 계산하는 것은 해당 PCA에서 해당 변수를 가져 와서 수동으로 유지하는 것과 같습니다.

임의의 관성 확산

표준 좌표의 열 평균 제곱 (MS)은 1입니다. 표준화되지 않은 좌표의 열 평균 제곱 (MS)은 각 주축의 관성과 같습니다. 모든 고유 값의 관성이 고유 벡터에 기증되어 표준화되지 않은 좌표가 생성됩니다.

에서는 행렬도 : 행 표준 좌표 각각의 주축에 대해 MS = 1을 갖는다. 표준화가 좌표를 행이라고도 행 주체 좌표 의 고유 값에 대응하는 MS가 = . 열 표준 및 비표준 (주) 좌표에 대해서도 마찬가지입니다.UUS=XV/cZ

일반적으로 관성이있는 좌표를 전체 또는 전혀 부여 할 필요는 없습니다. 어떤 이유로 필요한 경우 임의의 확산이 허용됩니다. 하자 수 관성의 비율 행으로 이동하는 것입니다. 그런 다음 행 좌표의 일반 공식은 다음과 같습니다. (직접) = (간접). 경우 에 반면에 우리는 표준 행 좌표를 얻을 우리는 주요 행 좌표를 얻는다.p1USp1XVSp11/cp1=0p1=1

마찬가지로 는 열로 이동하는 관성비율입니다 . 그런 다음 열 좌표의 일반 공식은 다음과 같습니다. (직접 방법) = (간접 방법). 경우 에 반면에 우리는 표준 열 좌표를 얻을 우리는 주요 열 좌표를 얻는다.p2VSp2XUSp21/rp2=0p2=1

일반적인 간접 공식은 패시브 포인트에 대한 좌표 (표준, 기본 또는 중간)를 계산할 수 있다는 점에서 보편적입니다.

경우 그들은 관성이 행 및 열 사이에 분배 지점 말한다. , 즉 행 교장 열 표준은, 행렬도 때때로 "폼 행렬도"또는 "행 메트릭 보존"행렬도 불린다. , 즉 행 열 교장 표준, 행렬도 종종 PCA 문학 "공분산 행렬도"또는 "열 메트릭 보존"행렬도 내에서 호출된다 PCA 내에서 적용되는 경우 가변 하중 ( 공분산 병행) 및 표준화 된 구성 요소 점수를 표시합니다.p1+p2=1p1=1,p2=0p1=0,p2=1

대응 분석 , 자주 사용되며 "대칭"또는 관성에 의한 "표준"정규화라고 - 행 사이 부근과 비교는 (유클리드 기하학적 엄격 일부 expence이기는하지만) 허용 우리 같은 열 점 다차원 전개도에서 할 수 있습니다.p1=p2=1/2

대응 분석 (유클리드 모델)

양방향 (= 단순) 대응 분석 (CA)은 양방향 우연성 테이블, 즉 항목이 행과 열 사이의 일종의 친화도의 의미를 갖는 아닌 테이블을 분석하는 데 사용되는 이중 플롯 입니다. 표가 빈도 인 경우 카이-제곱 모형 대응 분석이 사용됩니다. 항목이 평균 또는 다른 점수 인 경우 더 단순한 유클리드 모델 CA가 사용됩니다.

유클리드 모델 CA 위에서 설명한 Biplot 일 뿐이며, 테이블 은 Biplot 작업에 들어가기 전에 추가로 사전 처리됩니다. 특히, 값은 과 뿐만 아니라 총합 의해 정규화됩니다 .XrcN

전처리는 중심화 후 평균 질량으로 정규화로 구성됩니다. 센터링은 다양 할 수 있으며, 대부분 다음과 같습니다. (1) 컬럼의 센터링; (2) 행의 중심; (3) 주파수 잔차의 계산과 동일한 동작 인 양방향 센터링; (4) 열 합을 균등화 한 후 열의 중심화; (5) 행 합계를 균등화 한 후 행을 중심으로합니다. 평균 질량에 의한 정규화는 초기 테이블의 평균 셀 값으로 나뉩니다. 전처리 단계에서 수동 행 / 열 (있는 경우)은 수동으로 표준화됩니다. 활성 행 / 열에서 계산 된 값에 의해 중앙화 / 정규화됩니다.

그런 다음 에서 시작 하여 사전 처리 된 에서 일반적인 biplot이 수행됩니다 .XZ=X/rc

가중 비 플롯

행 또는 열의 활동 또는 중요도는 지금까지 설명한 클래식 Biplot에서와 같이 0 (수동) 또는 1 (활성)뿐만 아니라 0과 1 사이의 숫자 일 수 있다고 상상해보십시오. 이 행 및 열 가중치를 기준으로 입력 데이터에 가중치를 부여하고 가중치가있는 이중 플롯을 수행 할 수 있습니다. 가중 바이 플롯의 경우 가중치가 클수록 모든 결과에 대한 행 또는 열에 영향을줍니다 (관성 및 주축에 대한 모든 점의 좌표).

사용자는 행 가중치와 컬럼 가중치를 제공합니다. 이것들과 그것들은 먼저 1로 합산하기 위해 개별적으로 정규화됩니다. 그리고 정규화 단계는 이며, 와 는 행 i와 열 j의 가중치입니다. . 정확히 0의 가중치는 행 또는 열이 수동임을 나타냅니다.Zij=Xijwiwjwiwj

이 시점에서 클래식 biplot은 모든 활성 행에 대해 동일한 가중치 및 모든 활성 컬럼에 대해 동일한 가중치 를 갖는이 가중치 biplot이라는 것을 알 수 있습니다. 과 는 활성 행과 활성 열의 수입니다.1/r1/crc

svd of 수행하십시오 . 모든 작업은 고전 행렬도에서와 동일하고, 유일한 차이점은 존재 대신에 및 대신에 . 표준 열 좌표 : 표준 열 좌표 : . (이것은 가중치가 0이 아닌 행 / 열에 대한 것입니다. 가중치가 0이 아닌 값은 0으로두고 아래의 간접 공식을 사용하여 표준 또는 그에 대한 좌표를 얻습니다.)Zwi1/rwj1/cUi=Ui/wiVj=Vj/wj

원하는 비율로 좌표에 관성을 부여하십시오 ( 및 경우 좌표가 완전히 표준화되지 않았거나 기본입니다. 및 표준으로 유지됨 ). 행 : (직접 방법) = (간접 방법). 열 : (직접 방법) = (간접 방법). 괄호 안의 행렬은 각각 열과 행 가중치의 대각선 행렬입니다. 패시브 포인트 (무게가 0 인)의 경우 간접 계산 방식 만 적합합니다. 활성 (양성 가중치) 포인트의 경우 어느 쪽이든 갈 수 있습니다.p1=1p2=1p1=0p2=0USp1X[Wj]VSp11VSp2([Wi]X)USp21

Biplot의 특정 사례 인 PCA가 다시 방문했습니다 . 비가 중 biplot을 이전에 고려할 때, PCA와 biplot이 동일하다고 언급 한 유일한 차이점은 biplot이 데이터의 열 (변수)을 임의의 경우 관측 값 (행)과 대칭으로 보는 것입니다. 이제 biplot을보다 일반적인 가중치 biplot으로 확장 한 후에는 (가중치) biplot이 입력 데이터의 열 가중치 합계를 1로, (가중치) PCA-( 활성) 열 여기에 가중 PCA가 소개되었습니다. 결과는 가중 바이 플롯의 결과와 비례합니다. 특히c 는 활성 컬럼의 수이며, 두 분석의 클래식 버전뿐만 아니라 가중치가 적용되는 경우 다음 관계가 적용됩니다.

  • PCA의 고유 값 = biplot의 고유 값 ;c
  • 로딩 = 열의 "주체 정규화"하의 열 좌표;
  • 표준화 된 구성 요소 점수 = 행의 "표준 정규화"하의 행 좌표;
  • PCA의 고유 벡터 = 열의 "표준 정규화"하의 열 좌표 ;/c
  • 원시 성분 점수 = 행의 "주체 정규화"하의 행 좌표 .c

대응 분석 (Chi-square 모델)

이것은 기술적으로 가중 바이 플롯이며 가중치는 사용자가 제공하지 않고 테이블 자체에서 계산됩니다. 주로 주파수 교차 테이블을 분석하는 데 사용됩니다. 이 biplot은 도표의 유클리드 거리를 기준으로 카이-제곱 거리와 비슷합니다. 카이-제곱 거리는 수학적으로 총계에 의해 역 가중 된 유클리드 거리입니다. 카이-제곱 모델 CA 형상에 대해서는 더 이상 설명하지 않겠습니다.

주파수 테이블 의 전처리는 다음과 같습니다 : 각 주파수를 예상 주파수로 나눈 다음 1을 뺍니다. 먼저 주파수 잔류를 구한 다음 예상 주파수로 나눕니다. 행 가중치를 하고 컬럼 가중치를 . 여기서 는 행 i의 한계 합계 (활성 컬럼 만), 는 j 열의 한계 합계 (활성 행만), 은 테이블 총 활성 합계 (세 개의 숫자는 초기 테이블에서 나옴).Xwi=Ri/Nwj=Cj/NRiCjN

그런 다음 가중 biplot을 수행하십시오. (1) 를 로 정규화하십시오 . (2) 가중치는 절대 0 이 아닙니다 (CA에서는 0 및 는 허용되지 않음). 그러나 에서 행 / 열을 0으로 설정하여 수동적으로 행 / 열을 강제로 만들 수 있으므로 가중치는 svd에서 비효율적입니다. (3) svd. (4) 가중 biplot에서와 같이 표준 및 관성 투자 좌표를 계산합니다.XZRiCjZ

카이-제곱 모델 CA와 양방향 중심화를 사용하는 유클리드 모델 CA에서 하나의 마지막 고유 값은 항상 0이므로 가능한 최대 기본 치수 수는 입니다.min(r1,c1)

이 답변 의 카이 제곱 모델 CA에 대한 훌륭한 개요도 참조하십시오 .

삽화

다음은 몇 가지 데이터 테이블입니다.

 row     A     B     C     D     E     F
   1     6     8     6     2     9     9
   2     0     3     8     5     1     3
   3     2     3     9     2     4     7
   4     2     4     2     2     7     7
   5     6     9     9     3     9     6
   6     6     4     7     5     5     8
   7     7     9     6     6     4     8
   8     4     4     8     5     3     7
   9     4     6     7     3     3     7
  10     1     5     4     5     3     6
  11     1     5     6     4     8     3
  12     0     6     7     5     3     1
  13     6     9     6     3     5     4
  14     1     6     4     7     8     4
  15     1     1     5     2     4     3
  16     8     9     7     5     5     9
  17     2     7     1     3     4     4
  28     5     3     3     9     6     4
  19     6     7     6     2     9     6
  20    10     7     4     4     8     7

이러한 값의 분석을 기반으로 구축 된 몇 가지 이중 산점도 (첫 번째 기본 치수 2 개)가 이어집니다. 시각적 강조를 위해 열점은 스파이크에 의해 원점과 연결됩니다. 이 분석에는 수동 행이나 열이 없었습니다.

첫 번째 바이 플롯은 "있는 그대로"분석 된 데이터 테이블의 SVD 결과입니다. 좌표는 행과 열 고유 벡터입니다.

여기에 이미지 설명을 입력하십시오

다음은 PCA 에서 나오는 가능한 이중 행성 중 하나입니다 . PCA는 열을 중앙에 두지 않고 "있는 그대로"데이터에 대해 수행되었습니다. 그러나 PCA에 채택 된대로, 처음에는 행 수 (사례 수)에 의한 정규화가 수행되었습니다. 이 특정 biplot은 기본 행 좌표 (즉, 원시 구성 요소 점수) 및 기본 열 좌표 (예 : 가변 하중)를 표시합니다.

여기에 이미지 설명을 입력하십시오

다음은 biplot sensu stricto입니다 . 테이블은 처음에 행 수와 열 수에 의해 정규화되었습니다. 위의 PCA에서와 같이 행 및 열 좌표 모두에 기본 정규화 (관성 확산)가 사용되었습니다. PCA biplot과의 유사성에 주목하십시오. 유일한 차이점은 초기 정규화의 차이 때문입니다.

여기에 이미지 설명을 입력하십시오

카이-제곱 모델 대응 분석 biplot. 데이터 테이블은 특별한 방식으로 사전 처리되었으며 양방향 센터링과 한계 총계를 사용한 정규화가 포함되었습니다. 가중 biplot입니다. 관성이 행과 열 좌표에 대칭으로 퍼져 있습니다. 둘 다 "기본"좌표와 "표준"좌표의 중간입니다.

여기에 이미지 설명을 입력하십시오

이 모든 산점도에 표시된 좌표 :

point      dim1_1   dim2_1   dim1_2   dim2_2   dim1_3   dim2_3   dim1_4   dim2_4
1            .290     .247   16.871    3.048    6.887    1.244    -.479    -.101
2            .141    -.509    8.222   -6.284    3.356   -2.565    1.460    -.413
3            .198    -.282   11.504   -3.486    4.696   -1.423     .414    -.820
4            .175     .178   10.156    2.202    4.146     .899    -.421     .339
5            .303     .045   17.610     .550    7.189     .224    -.171    -.090
6            .245    -.054   14.226    -.665    5.808    -.272    -.061    -.319
7            .280     .051   16.306     .631    6.657     .258    -.180    -.112
8            .218    -.248   12.688   -3.065    5.180   -1.251     .322    -.480
9            .216    -.105   12.557   -1.300    5.126    -.531     .036    -.533
10           .171    -.157    9.921   -1.934    4.050    -.789     .433     .187
11           .194    -.137   11.282   -1.689    4.606    -.690     .384     .535
12           .157    -.384    9.117   -4.746    3.722   -1.938    1.121     .304
13           .235     .099   13.676    1.219    5.583     .498    -.295    -.072
14           .210    -.105   12.228   -1.295    4.992    -.529     .399     .962
15           .115    -.163    6.677   -2.013    2.726    -.822     .517    -.227
16           .304     .103   17.656    1.269    7.208     .518    -.289    -.257
17           .151     .147    8.771    1.814    3.581     .741    -.316     .670
18           .198    -.026   11.509    -.324    4.699    -.132     .137     .776
19           .259     .213   15.058    2.631    6.147    1.074    -.459     .005
20           .278     .414   16.159    5.112    6.597    2.087    -.753     .040
A            .337     .534    4.387    1.475    4.387    1.475    -.865    -.289
B            .461     .156    5.998     .430    5.998     .430    -.127     .186
C            .441    -.666    5.741   -1.840    5.741   -1.840     .635    -.563
D            .306    -.394    3.976   -1.087    3.976   -1.087     .656     .571
E            .427     .289    5.556     .797    5.556     .797    -.230     .518
F            .451     .087    5.860     .240    5.860     .240    -.176    -.325

2
흥미로운 질문 (+1)과 우수하고 포괄적 인 답변 (+1). 그러나 IMHO의 대답 은 위대한 수학을 더 잘 이해하기 위해 시각적 인 도움 이 절실히 필요합니다 .
Aleksandr Blekh

1
몇 가지 예제 사진을 추가했습니다.
ttnphns

2
좋아 고마워! (나는 모든 것을 이해한다고 말하지는 않지만, 적어도 지금은 조금 더 동기를 부여합니다 :-).
Aleksandr Blekh
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.