공분산 행렬에 대한 메트릭 : 단점 및 장점


11

공분산 행렬에 대한 "최상의"메트릭은 무엇이며 그 이유는 무엇입니까? Frobenius & c가 적절하지 않으며 각도 매개 변수화에도 문제가 있음이 분명합니다. 직관적 으로이 두 가지 사이의 타협을 원할 수도 있지만 명심해야 할 다른 측면과 잘 확립 된 표준이 있는지 알고 싶습니다.

공통 메트릭에는 공분산 행렬이 자연스럽지 않기 때문에 여러 가지 단점이 있습니다. -중간 회전은 구성 요소 평균보다 낮은 거리를 갖도록합니다. 및 Frobenius 의 경우에는 않습니다 . 여기서 수정하십시오. 또한 볼록 함이 항상 보장되는 것은 아닙니다. "좋은"메트릭으로 해결 된 이러한 문제와 다른 문제를 보는 것이 좋습니다.L1

다음네트워크 최적화컴퓨터 비전 의 일부 문제에 대한 좋은 토론입니다 . 그리고 다른 질문 이 있지만 토론하지 않는 비슷한 질문 이 있습니다.


2
원하는 측정 항목의 목적은 무엇입니까? Frobenius 지표는 무엇에 적합하지 않습니까?
whuber

1
@ whuber : 너무 많은 제약을 부과하기 전에 전반적인 개요를 원합니다. 제 분야는 대부분의 사람들이 단순성을 위해 Frobenius를 고수하는 금융입니다. 공통 메트릭에는 공분산 행렬이 자연스럽지 않기 때문에 여러 가지 단점이 있습니다. 구성 요소 별 평균보다 거리가 의 경우가 아니며 실수하지 않은 경우 Frobenius가 아닙니다. 몇 개의 링크를 추가했습니다. L1
Quartz

마지막 질문은 어떻게 "더 제한적"입니까? 결국 모든 공분산 행렬은 대칭입니다. 완벽한 복제품 인 것 같습니다.
whuber

1
그것은 다른 질문에 대한 좋은 비판입니다. 마지막 댓글의 내용을 반영하기 위해 질문 (및 제목)을 편집하는 것이 좋습니다. 이렇게하면 명백한 복제본과 명확하게 구분되며 응답자가보다 적절한 답변을 제공 할 수 있습니다. (그리고 자신의 질문에 대한 편집에 대해 걱정하지 마십시오. 예상됩니다. 메타 스레드는 주로 커뮤니티 편집 에 관한 입니다.)
whuber

1
@kjetilbhalvorsen 도발적인 문장입니다! 답을 넓힐 수 있습니까? 아니면 기사 참조를 제공 하시겠습니까?
Sycorax는 Reinstate Monica

답변:


2

공분산 행렬을 분석 할 수있는 좋은 지표 나 '최상의 방법'은 없다고 생각합니다. 분석은 항상 목표에 맞춰져야합니다. C가 공분산 행렬이라고 가정 해 봅시다. 대각선은 각 계산 된 매개 변수에 대한 분산을 포함합니다. 따라서 매개 변수의 중요성에 관심이 있다면 trace (C)는 전반적인 성능이므로 좋은 시작입니다.

매개 변수와 그 의미를 플롯하면 다음과 같이 보일 수 있습니다.

x1 =  1.0 ±  0.1 
x2 = 10.0 ±  5.0
x3 =  5.0 ± 15.0 <-- non-significant parameter

상호 상관 관계에 관심이 있다면 그러한 테이블이 흥미로운 것을 얻을 수 있습니다.

x1  1.0
x2  0.9  1.0
x3 -0.3 -0.1  1.0
    x1    x2   x3

각 요소는 매개 변수 xi와 xj 사이의 상관 계수입니다. 이 예에서 매개 변수 x1과 x2는 서로 밀접하게 관련되어 있습니다.


1

흥미로운 질문입니다. 현재 같은 문제로 어려움을 겪고 있습니다. 그것은 '최고'를 어떻게 정의 하느냐에 달려 있습니다. 즉, 스프레드 또는 데이터 간의 상관 관계 등의 평균 단일 값을 찾고 있습니까? Press, SJ (1972) : Applied Multivariate Analysis, p. 공분산 행렬의 결정 인자로 정의 된 일반화 된 분산은 산포에 대한 단일 측정 값으로 유용합니다. 그러나 그것이 당신과의 상관 관계라면, 나는 더 생각해야 할 것입니다. 알려주세요.


3
참조하십시오.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.