데이터 행렬 대한 대한 직관적 인 해석이 있습니까?


107

주어진 데이터 행렬 (열의 변수와 행의 데이터 요소가있는)의 경우 가 통계에서 중요한 역할을하는 것처럼 보입니다 . 예를 들어, 보통 최소 제곱의 분석 솔루션에서 중요한 부분입니다. 또는 PCA의 고유 벡터는 데이터의 주요 구성 요소입니다.A T AAATA

를 계산 방법을 이해 하지만이 행렬이 무엇을 나타내는 지 직관적으로 해석 할 수 있는지 궁금합니다.이 역할이 중요한 역할을합니까?ATA


2
stats.stackexchange.com/a/66295/919 의 분석을 통해 약간의 직관을 얻을 수 있습니다 .
whuber

답변:


125

기하학적으로 행렬 는 스칼라 곱의 행렬 (= 내적, = 내적)이라고합니다. 대수적으로, 제곱합과 교차 곱 행렬 ( SSCP )이라고합니다.AA

그 번째 대각 원소 같음 , 값을 나타내며, 의 번째 열 하고 행에 걸쳐 합산된다. 그 안의 번째 비 대각선 요소는 입니다.a 2 ( i ) a ( i ) i A i j a ( i ) a ( j )ia(i)2a(i)iAija(i)a(j)

몇 가지 중요한 연관 계수가 있으며 각 행렬은 각도 유사성 또는 SSCP 유형 유사성이라고합니다.

  • SSCP 행렬을 샘플 크기 또는 의 행 수인 나누면 MSCP (평균 제곱 및 교차 곱) 행렬 을 얻게 됩니다. 따라서이 연관 측정의 쌍별 공식은 (벡터 및 는 의 열 ).A x ynA xyAxynxyA

  • 만약 있다면 중심 의 열 (변수) 다음 은 IS 캐터 (엄격 할 경우, 또는 공동 캐터) 매트릭스 은 IS 공분산 매트릭스. 쌍별 공분산 공식은 이며 및 는 가운데 열을 나타냅니다.A는 ' ' / ( N - 1 ) Σ (C) , X (C) YAAAAA/(n1) cxcycxcyn1cxcy

  • 열 을 z로 표준화 하면 (열 평균을 빼고 표준 편차로 나눔) 은 Pearson 상관 행렬입니다. 상관은 표준화 된 변수에 대한 공분산입니다. 쌍별 상관 공식은 표준화 된 열을 나타내는 및 와 함께 입니다 . 이 상관 관계는 선형 계수라고도합니다.A ' A / ( n 1 ) z x z yAAA/(n1) zxzyzxzyn1zxzy

  • 열 을 단위 스케일링 하면 ( SS, 제곱합을 1로 함) 는 코사인 유사성 행렬입니다. 따라서 동등한 쌍별 공식은 이고 및 는 L2 정규화 열을 나타냅니다. . 코사인 유사성은 비례 계수라고도합니다.A A u x u y = x yAAA uxuyuxuy=xyx2y2uxuy

  • 다음과 같은 경우 가운데 다음 단위 - 규모 의 컬럼 다음 다시 피어슨 인 상관 관계를 중심으로 변수의 코사인 때문에 매트릭스 :A ' A 1 , 2c u x c u y = c x c yAAA1,2cuxcuy=cxcycx2cy2

이 네 가지 주요 협회 조치와 함께 기반으로 다른 것을 언급 할 수도 있습니다. 그것들은 공식에서 분모 인 정규화와는 다른 코사인 유사성에 대한 대안으로 볼 수 있습니다.AA

  • 동일성 계수 [Zegers & ten Berge, 1985]는 기하 평균이 아닌 산술 평균 형식으로 분모 : . 의 비교되는 열 이 동일한 경우에만 1이 될 수 있습니다 . Axy(x2+y2)/2A

  • 이와 같은 또 다른 유용한 계수를 유사성 비율 이라고합니다 . .xyx2+y2xy=xyxy+(xy)2

  • 마지막으로, 값 이 음수가 아니고 열 내의 합계 가 1 인 경우 (예 : 비율) 는 충실도 또는 Bhattacharyya 계수 의 행렬입니다 .AAA


A A s A n C = A A s s / n C / ( n 1 ) C d R = C / 1 많은 통계 패키지에서 사용되는 상관 또는 공분산 행렬을 계산하는 한 가지 방법은 데이터 중심을 우회하고 SSCP 행렬 방법으로 출발합니다 . 하자 데이터의 열 합계의 행 벡터 일 하는 동안 데이터의 행의 수이다. 그런 다음 (1) 산란 행렬을 으로 계산합니다. 따라서 은 공분산 행렬이됩니다. (2) 의 대각선은 제곱 편차의 합, 행 벡터 ; (3) 상관 행렬 .AAsAnC=AAss/nC/(n1)CdR=C/dd

N2 그러나 통계 학적으로 초보적이지만 초보적인 독자는 "공분산"(샘플 크기별로 평균화, df = "n-1"으로 나눔 포함) 및 "코사인"(코리 신) 이라는 두 가지 상관 관계 정의를 조정하기가 어려울 수 있습니다. 그런 평균화 없음). 그러나 실제로 첫 번째 상관 관계 공식에서는 실제 평균이 발생하지 않습니다. 문제는 그 성입니다. z- 표준화가 달성 된 편차는 동일한 df에 의한 나눗셈으로 계산되었다 ; 따라서 공분산 상관 공식에서 분모 "n-1"은 공식을 풀면 완전히 취소됩니다 . 공식은 코사인 공식 으로 바뀝니다 . 경험적 상관 관계 값을 계산하려면 실제로 을 알 필요가 없습니다.n (중심을 계산할 때를 제외하고).


42

매트릭스 모두 모든 열 내적 포함 . 따라서 대각선은 열의 제곱 규범을 포함합니다. 의 열에 걸쳐있는 열 공간에 대한 형상 및 직교 투영에 대해 생각 하면이 공간에 걸쳐있는 벡터의 표준 및 내부 곱이 투영 계산에서 중심적인 역할을한다는 것을 기억할 수 있습니다. 주성분뿐만 아니라 최소 제곱 회귀도 직교 투영법으로 이해할 수 있습니다.A AATAAA

또한 컬럼의 경우 유의 직교하며, 따라서 열 공간 다음위한 정규직 교 기저 형성 항등 행렬.A T A = I AATA=I


39

@NRH는 좋은 기술 답변을 제공했습니다.

정말로 기본적인 것을 원한다면 를 스칼라에 대해 에 해당하는 행렬로 생각할 수 있습니다 .A 2ATAA2


5
다른 답변은 "기술적으로"정확하지만 가장 직관적 인 답변입니다.
CatsLoveJazz

3

의 지오메트리에 대한 중요한 견해 는 이것이다 (Strang의 책에서 "선형 대수와 그 응용"에 대해 강조한 견해). A가 선형 맵 나타내는 랭크 k 의 행렬 이라고 가정하자 . Col (A) 및 Row (A)를 A의 열 및 행 공간으로 . 그때m × n A : R nR m AAAm×nA:RnRmA

(a) 실제 대칭 행렬로서 은 0이 아닌 고유 값 갖는 고유 벡터 의 기본 . 그러므로:(AA):RnRn{e1,...,en}d1,,dk

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek 입니다.

(b) Col (A)의 정의에 의해 Range (A) = Col (A). 따라서 A | Row (A)는 Row (A)를 Col (A)에 매핑합니다.

(c) 커널 (A)은 행 (A)의 직교 보수입니다. 이는 행렬 곱셈이 내적 (row i) * (col j)의 관점에서 정의되기 때문입니다. (따라서Av=0v is in Kernel(A)vis in orthogonal complement of Row(A)

(d) 및 는 동 형사상입니다 .A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[우연히 행 순위 = 열 순위임을 증명합니다!]

(e) (d)를 적용하는 경우, 는 동 형사상입니다A|:Col(A)=Row(A)Col(A')=Row(A)

(f) (d) 및 (e)에 의해 : 및 A'A는 Row (A)를 동형으로 Row (A)에 매핑합니다.AA(Rn)=Row(A)


2
수식을 $$ 로 를 얻을 수 있습니다. LATEX
Placidia

2

는 내적을 취하는 의미를 가지고 있다고 이미 논의되었지만 ,이 곱셈의 그래픽 표현 만 추가 할 것입니다.ATA

실제로, 행렬의 행 (및 행렬의 열 )은 변수를 나타내지 만, 각 변수 측정 값을 다차원 벡터로 취급합니다. 로우 곱 의 컬럼으로 의 : 두 개의 벡터의 내적 고려 동등 - 위치의 항목 인 결과 행렬 .ATArowpATcolpAdot(rowp,colp)(p,p)ATA

이와 유사하게, 행 의 를 열 의 것은 )과 동일하며 결과는 위치에 있습니다.pATkAdot(rowp,colk)(p,k)

엔트리 생성 행렬의 벡터 정도의 의미가 벡터의 방향에 . 두 벡터의 내적 경우 및 제로 이외의 어떤 정보 벡터에 대한 되어 실시 벡터에 의해 반대합니다.(p,k)T R O w P C O 케이 R O w I C O L J R O w I C O JATArowpcolkrowicoljrowicolj

이 아이디어는 Principal Component Analysis에서 중요한 역할을합니다. 여기서 초기 데이터 매트릭스 새로 표시하여 다른 열 열 에 대해 더 이상 전달되는 정보가 없습니다. . PCA를 더 깊이 연구하면 공분산 행렬의 "새 버전"이 계산되고 대각선 행렬이되어서 깨닫게됩니다. 실제로 이전 문장에서 표현한 것을 의미합니다.Aiji

여기에 이미지 설명을 입력하십시오


1

직감의 수준이 있습니다. 행렬 표기법 통계에 익숙한 사람들은 직관을 랜덤 변수의 제곱으로 생각해야합니다. vsxE[x2]AATA

행렬 표기법에서, 확률 변수의 샘플 관찰 또는 인구는 열 벡터로 표시된다 :xxi

a=[x1x2xn]

따라서 변수 의 제곱의 표본 평균을 얻으려면 간단히 내적 얻습니다 . 이는 행렬 표기법과 같습니다. .x

x2¯=aan
ATA

변수의 표본 평균이 ZERO 인 경우 분산은 제곱 평균과 같습니다. 이는 유사합니다 . 이것이 PCA에서 제로 평균이 필요한 이유이며 모든 PCA가 데이터 세트의 분산 행렬을 분해 한 후에 나타나는 이유 입니다.σ2=E[x2]ATAATA

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.