답변:
기하학적으로 행렬 는 스칼라 곱의 행렬 (= 내적, = 내적)이라고합니다. 대수적으로, 제곱합과 교차 곱 행렬 ( SSCP )이라고합니다.
그 번째 대각 원소 같음 , 값을 나타내며, 의 번째 열 하고 행에 걸쳐 합산된다. 그 안의 번째 비 대각선 요소는 입니다.∑ a 2 ( i ) a ( i ) i A ∑ i j ∑ a ( i ) a ( j )
몇 가지 중요한 연관 계수가 있으며 각 행렬은 각도 유사성 또는 SSCP 유형 유사성이라고합니다.
SSCP 행렬을 샘플 크기 또는 의 행 수인 나누면 MSCP (평균 제곱 및 교차 곱) 행렬 을 얻게 됩니다. 따라서이 연관 측정의 쌍별 공식은 (벡터 및 는 의 열 ).A ∑ x y xyA
만약 있다면 중심 의 열 (변수) 다음 은 IS 캐터 (엄격 할 경우, 또는 공동 캐터) 매트릭스 은 IS 공분산 매트릭스. 쌍별 공분산 공식은 이며 및 는 가운데 열을 나타냅니다.A는 ' ' / ( N - 1 ) Σ (C) , X (C) Y cxcy
열 을 z로 표준화 하면 (열 평균을 빼고 표준 편차로 나눔) 은 Pearson 상관 행렬입니다. 상관은 표준화 된 변수에 대한 공분산입니다. 쌍별 상관 공식은 표준화 된 열을 나타내는 및 와 함께 입니다 . 이 상관 관계는 선형 계수라고도합니다.A ' A / ( n − 1 ) ∑ z x z y zxzy
열 을 단위 스케일링 하면 ( SS, 제곱합을 1로 함) 는 코사인 유사성 행렬입니다. 따라서 동등한 쌍별 공식은 이고 및 는 L2 정규화 열을 나타냅니다. . 코사인 유사성은 비례 계수라고도합니다.A ′ A ∑ u x u y = ∑ x y uxuy
다음과 같은 경우 가운데 다음 단위 - 규모 의 컬럼 다음 다시 피어슨 인 상관 관계를 중심으로 변수의 코사인 때문에 매트릭스 :A ' A 1 , 2 ∑ c u x c u y = ∑ c x c y
이 네 가지 주요 협회 조치와 함께 기반으로 다른 것을 언급 할 수도 있습니다. 그것들은 공식에서 분모 인 정규화와는 다른 코사인 유사성에 대한 대안으로 볼 수 있습니다.
동일성 계수 [Zegers & ten Berge, 1985]는 기하 평균이 아닌 산술 평균 형식으로 분모 : . 의 비교되는 열 이 동일한 경우에만 1이 될 수 있습니다 . A
이와 같은 또 다른 유용한 계수를 유사성 비율 이라고합니다 . .
마지막으로, 값 이 음수가 아니고 열 내의 합계 가 1 인 경우 (예 : 비율) 는 충실도 또는 Bhattacharyya 계수 의 행렬입니다 .√
A ′ A s A n C = A ′ A − s ′ s / n C / ( n − 1 ) C d R = C / √ 많은 통계 패키지에서 사용되는 상관 또는 공분산 행렬을 계산하는 한 가지 방법은 데이터 중심을 우회하고 SSCP 행렬 방법으로 출발합니다 . 하자 데이터의 열 합계의 행 벡터 일 하는 동안 데이터의 행의 수이다. 그런 다음 (1) 산란 행렬을 으로 계산합니다. 따라서 은 공분산 행렬이됩니다. (2) 의 대각선은 제곱 편차의 합, 행 벡터 ; (3) 상관 행렬 .
N 그러나 통계 학적으로 초보적이지만 초보적인 독자는 "공분산"(샘플 크기별로 평균화, df = "n-1"으로 나눔 포함) 및 "코사인"(코리 신) 이라는 두 가지 상관 관계 정의를 조정하기가 어려울 수 있습니다. 그런 평균화 없음). 그러나 실제로 첫 번째 상관 관계 공식에서는 실제 평균이 발생하지 않습니다. 문제는 그 성입니다. z- 표준화가 달성 된 편차는 동일한 df에 의한 나눗셈으로 계산되었다 ; 따라서 공분산 상관 공식에서 분모 "n-1"은 공식을 풀면 완전히 취소됩니다 . 공식은 코사인 공식 으로 바뀝니다 . 경험적 상관 관계 값을 계산하려면 실제로 을 알 필요가 없습니다. (중심을 계산할 때를 제외하고).
@NRH는 좋은 기술 답변을 제공했습니다.
정말로 기본적인 것을 원한다면 를 스칼라에 대해 에 해당하는 행렬로 생각할 수 있습니다 .A 2
의 지오메트리에 대한 중요한 견해 는 이것이다 (Strang의 책에서 "선형 대수와 그 응용"에 대해 강조한 견해). A가 선형 맵 나타내는 랭크 k 의 행렬 이라고 가정하자 . Col (A) 및 Row (A)를 A의 열 및 행 공간으로 . 그때m × n A : R n → R m A
(a) 실제 대칭 행렬로서 은 0이 아닌 고유 값 갖는 고유 벡터 의 기본 . 그러므로:
입니다.
(b) Col (A)의 정의에 의해 Range (A) = Col (A). 따라서 A | Row (A)는 Row (A)를 Col (A)에 매핑합니다.
(c) 커널 (A)은 행 (A)의 직교 보수입니다. 이는 행렬 곱셈이 내적 (row i) * (col j)의 관점에서 정의되기 때문입니다. (따라서
(d) 및 는 동 형사상입니다 .
Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.
[우연히 행 순위 = 열 순위임을 증명합니다!]
(e) (d)를 적용하는 경우, 는 동 형사상입니다
(f) (d) 및 (e)에 의해 : 및 A'A는 Row (A)를 동형으로 Row (A)에 매핑합니다.
는 내적을 취하는 의미를 가지고 있다고 이미 논의되었지만 ,이 곱셈의 그래픽 표현 만 추가 할 것입니다.
실제로, 행렬의 행 (및 행렬의 열 )은 변수를 나타내지 만, 각 변수 측정 값을 다차원 벡터로 취급합니다. 로우 곱 의 컬럼으로 의 : 두 개의 벡터의 내적 고려 동등 - 위치의 항목 인 결과 행렬 .
이와 유사하게, 행 의 를 열 의 것은 )과 동일하며 결과는 위치에 있습니다.
엔트리 생성 행렬의 벡터 정도의 의미가 벡터의 방향에 . 두 벡터의 내적 경우 및 제로 이외의 어떤 정보 벡터에 대한 되어 실시 벡터에 의해 반대합니다.T R O w P C O 패 케이 R O w I C O L J R O w I C O 패 J
이 아이디어는 Principal Component Analysis에서 중요한 역할을합니다. 여기서 초기 데이터 매트릭스 새로 표시하여 다른 열 열 에 대해 더 이상 전달되는 정보가 없습니다. . PCA를 더 깊이 연구하면 공분산 행렬의 "새 버전"이 계산되고 대각선 행렬이되어서 깨닫게됩니다. 실제로 이전 문장에서 표현한 것을 의미합니다.