공분산 행렬에서 "분산"의 척도?


17

데이터가 1d 인 경우 분산은 데이터 포인트가 서로 다른 정도를 나타냅니다. 데이터가 다차원이라면 공분산 행렬을 얻게됩니다.

다차원 데이터에 대해 데이터 포인트가 일반적으로 어떻게 다른지를 단일 수치로 나타내는 측정 값이 있습니까?

이미 많은 솔루션이 있다고 생각하지만 솔루션을 검색하는 데 사용할 올바른 용어가 확실하지 않습니다.

공분산 행렬의 고유 값을 더하는 것과 같은 일을 할 수 있습니다.


2
공분산 행렬의 결정 요인. 곧 더 많은 답을 게시 할 것입니다.
user603

5
추적이 매우 자주 사용됩니다. 예를 들어, PCA에서, 각 성분에 의해 설명 된 분산의 분율은 공분산 매트릭스의 트레이스로서 정의되는 "총 분산"의 분율이다. @ user603 답변을 기다리겠습니다.
amoeba는 9시 41 분에 Reinstate Monica

2
adding up the eigenvalues of the covariance matrix바로 위에서 언급 한 미량 아메바와 같습니다.
ttnphns

측정 값은 무엇입니까?
HelloGoodbye

@HelloGoodbye 안녕하세요 실제로 레이블이있는 일부 [잡음] 데이터가 있으며 동일한 범주의 [참] 데이터 포인트가 크게 다르지 않아야한다고 가정합니다. 각 범주의 데이터 포인트의 차이 정도를 측정하는 방법을 찾고 있으므로 각 범주의 데이터가 얼마나 잡음이 많은지 알 수 있습니다.
dontloo

답변:


15

(아래 답변은 단지 [0]에서 입증 된 정리를 소개하고 언급 한 것입니다.이 논문의 장점은 대부분의 주장이 기본 선형 대수의 관점에서 이루어 졌다는 것입니다.이 질문에 대답하기 위해서는 주요 결과를 진술하기에 충분하지만 반드시 원본 소스를 확인하십시오).

데이터의 다변량 패턴이 변이 타원형 분포에 의해 기술 될 수있는 임의의 상황에서 , 통계적 추론은 정의에 의해 k 변이 위치 벡터 ( θ ) 및 k에 의한 k 의 적합 (및 특성화) 문제를 감소시킬 것이다. k 대칭 반 양성 한정 행렬 (예 : Σ )을 데이터에 적용합니다. 아래에서 설명하지만 (이미 전제로 가정 하는 ) 다변량 분포의 밀도 윤곽의 모양을 설명 하는 Σ 를 모양 구성 요소 ( Σ 와 동일한 크기의 SPSD 행렬)로 분해하는 것이 더 의미 가 있습니다. 스칼라 σ SkkθkkΣΣΣσS 이 윤곽의 규모를 표현합니다.

단 변량 데이터 ( ) Σ 에서 데이터의 공분산 행렬은 스칼라이며 아래 설명에서 볼 수 있듯이 Σ 의 모양 성분 은 1이므로 Σ 는 척도 성분 Σ = σ S 와 항상 같고 모호성이 없습니다.k=1ΣΣΣΣ=σS

다변량 데이터에서, 다양한 스케일링 기능 선택 이 가능하다. 특히 하나 ( σ S = | ΣσS )는 바람직한 바람직한 특성을 갖는 데있어서 두드러진다. 이것은 타원형 패밀리의 맥락에서 스케일링 팩터를 선호하는 선택으로 만들어야합니다.σS=|ΣΣ|1/k


MV 통계의 많은 문제는 R k × k 로 정의 된 함수 (al) 대칭 준 양수로 정의 되고 다음을 충족시키는 산란 행렬의 추정과 관련됩니다 .ΣRk×k

(단수 행렬이 아닌 행렬 A 및 벡터 b ). 예를 들어, 공분산의 고전 추정치는 (0)을 만족하지만 결코 유일한 것은 아닙니다.

(0)Σ(AX+b)=AΣ(X)A
Ab

모든 밀도 윤곽선이 동일한 모양 행렬에 의해 정의 된 타원 인 스칼라에 의한 곱셈까지의 타원 분산 데이터가있는 경우 정규화 된 버전의 를 고려하는 것이 당연합니다 .Σ

VS=Σ/S(Σ)

여기서 는 다음을 만족하는 1- 유전 함수입니다S

(1)S(λΣ)=λS(Σ)

모든 입니다. 이어서, V S는 와 (짧은 형상 매트릭스) 캐터 매트릭스 형상 성분이라고 σ S = S 1 / 2 ( Σ ) 산란 행렬의 스케일 성분이라고한다. 손실 함수는 변수에 따라 추정 문제의 예 Σ 형상 구성 요소를 통해 V S는 중에서도 구형, PCA 및 CCA의 테스트를 포함한다.λ>0VSσS=S1/2(Σ)ΣVS

물론, 가능한 스케일링 함수가 많기 때문에, 여전히 몇몇 정규화 함수 ( ) 중 어떤 선택이 어떤 의미에서 최적 인지에 대한 의문이 여전히 남아 있습니다. 예를 들면 다음과 같습니다.S

  • (예를 들어 OP의 질문 아래 그의 의견에서 @amoeba가 제안한 것. [1], [2], [3] 참조)S=tr(Σ)/k
  • ([4], [5], [6], [7], [8])S=|Σ|1/k
  • (공분산 행렬의 첫 번째 항목)Σ11
  • (첫 번째 고유 Σ )λ1(Σ)Σ

그러나 는 국부적으로 무증상 정상 패밀리에서 대응하는 스케일 및 형상 추정치에 대한 피셔 정보 매트릭스가 블록 대각선 인 유일한 스케일링 함수이다 (즉, 추정 문제의 스케일 및 형상 성분은 비대칭 직교 임) [0 ]. 이것은 무엇보다도 스케일 기능 S = | Σ | 1 / kV S 에 대한 추론을 수행 할 때 σ S 의 비 사양 이 효율 손실을 유발하지 않는 유일한 S 선택입니다 .S=|Σ|1/kS=|Σ|1/kSσSVS

나는 (1)을 만족시키는 의 많은 가능한 선택들 중 어느 것에 대한 비교 가능한 강한 최적 성 특성을 모른다 .S

  • Paindaveine, D., 형태의 정식 정의, 통계 및 확률 서한, 78 권, 제 14 호, 2008 년 10 월 1 일, 페이지 2240-2247. 연결되지 않은 링크
  • Dumbgen, L. (1998). 타일러의 M- 스캐너 기능성에 대해 Ann. Inst. 통계 학자. 수학. 50, 471–491.
  • Ollila, E., TP Hettmansperger 및 H. Oja (2004). 등변 량 다변량 부호 방법을 정의합니다. Jyvaskyla 대학의 Preprint.
  • 타일러, DE (1983). 산란 매트릭스의 견고성 및 효율 속성, Biometrika 70, 411–420.
  • Dumbgen, L. 및 DE Tyler (2005). 일부 다변량 M- 기능의 항복 특성에서 스캔 됨. J. 통계 학자. 32, 247–264.
  • [5] Hallin, M. 및 D. Paindaveine (2008). 분산의 동질성에 대한 최적의 순위 기반 테스트, Ann. 통계가 나타납니다.
  • [6] Salibian-Barrera, M., S. Van Aelst 및 G. Willems (200 6). 빠르고 강력한 부트 스트랩이있는 다변량 MM 추정기를 기반으로하는 주성분 분석, J. Amer. 통계 학자. Assoc. 101, 1198-1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila 및 H. O ja (2006). 산란 및 모양 행렬을 기반으로하는 표준 상관 및 벡터 추정의 영향 함수 및 효율성, J. Multivariate Anal. 97, 359–384.
  • [8] Tatsuoka, KS 및 DE Tyler (2000). 비타 원 분포에서 S-Functionals 및 M-functions의 고유성에 대해 Ann. 통계 학자. 28, 1219–1243.

1
또한, 이 ... 회전 불변하지 않기 때문에 스케일 구성 요소에 대한 이상한 선택입니다Σ11
아메바는 분석 재개 모니카 말한다

고의적 인 답변에 감사드립니다! 비록 그것을 완전히 이해하려면 시간이 좀 걸릴 것입니다 :)
dontloo

@amoeba : X에 적용Σ . 나는 X를 떨어 뜨린다XX 혼란이 없기 때문에 나머지 답변에 X가 표시 됩니다. 나는 그것이 약간 어색하다는 것에 동의합니다. 그래서 나는 이제 Σ ( XXX . 두 번째 의견에 동의합니다. 동일한 토큰으로 λ 1 ( Σ ) 는 크기 조정에 영향을 미치지 않습니다. 이러한 의미에서 S 에 대한 동질성 제약 조건은 매우 낮습니다. Σ(XX)λ1(Σ)S
user603

기다림; 스케일 구성 요소크기를 변경 하지 않는 이유는 무엇 입니까?
amoeba는

죄송합니다. 스케일링 함수로 을 사용하면 결과 모양 행렬의 크기가 조정되지 않습니다. λ1(Σ)
user603

11

스칼라 변수의 분산은 평균과 변수의 제곱 편차로 정의됩니다.

Var(X)=E[(XE[X])2]

하나의 일반화 벡터 값 랜덤 변수의 스칼라 값의 변화에 대한이 같은 편차를 해석하여 얻을 수있다 유클리드 거리 :

Vars(X)=E[XE[X]22]

이 표현은 다음과 같이 다시 쓸 수 있습니다

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

여기서 는 공분산 행렬입니다. 마지막으로, 이것은 다음과 같이 단순화 될 수 있습니다C

Vars(X)=tr(C)

공분산 행렬 의 흔적 입니다.


4

공분산 행렬 의 추적tr (C) 가 총 분산의 척도를 제공하지만 변수 간의 상관 관계는 고려하지 않습니다.

변수가 서로 독립적 일 때 크고 변수가 서로 밀접하게 관련되어있을 때 매우 작은 전체 분산 측정이 필요한 경우 공분산 행렬 의 결정자 를 사용할 수 있습니다. | C | .

더 나은 설명을 위해이 기사 를 참조하십시오 .


4

하나의 숫자 만 필요하면 공분산 행렬의 가장 큰 고유 값을 제안합니다. 이것은 또한 PCA에서 첫 번째 주요 구성 요소의 설명 된 분산입니다. 벡터의 차원을 1로 줄이면 총 분산을 얼마나 설명 할 수 있는지 알려줍니다. math SE 에서이 답변 을 참조하십시오 .

아이디어는 모든 변수를 선형으로 하나의 시리즈로 결합하여 벡터를 하나의 차원으로 축소하는 것입니다. 1d 문제로 끝납니다.

설명 된 분산은 총 분산에 대해 %로보고 할 수 있습니다. 이 경우 계열간에 많은 선형 상관 관계가 있는지 즉시 확인할 수 있습니다. 일부 응용 프로그램에서이 수치는 80 % 이상일 수 있습니다 (예 : 금융의 금리 곡선 모델링). 이는 모든 변수의 분산에 대한 80을 설명하는 변수의 선형 조합을 구성 할 수 있음을 의미합니다.


3

정보 이론에서 엔트로피 개념 주어진다 콘텐츠 정보의 불확실성의 측정치와 같은 목적에 맞는 것

H(X)=p(x)logp(x)dx.

Wikipedia 에 따르면 데이터에서 파생 된 평균 μ 와 공분산 Σ를 갖는 대한 다변량 가우스 분포를 가정하면 , 차분 엔트로피는 H ( X ) = 1입니다.p(x)μΣ 여기서n은 차원 수입니다. 이후

H(X)=12log((2πe)ndet(Σ))
n 다변량 가우시안 주어진 공분산위한 차동 엔트로피 극대화 분포이며 ,이 수식은 상부 주어진 분산과 미지 분포 행 엔트로피를 제공한다.

그리고 @ user603이 제안한 것처럼 공분산 행렬의 결정 요인에 따라 다릅니다.


이 답변은 질문과 같은 정신이 아닌 것 같습니다. 공분산과 분산은 모든 분포의 속성입니다 (일부 경우에는 무한하거나 정의되지 않을 수 있음).이 답변은 다변량 정규 분포의 매우 특별한 경우에 중점을 둡니다. 따라서 질문에 암시 적으로 계획된 대부분의 상황에는 적용되지 않습니다. 데이터가 반드시 정상이 아닌 일반적인 경우에 유용한 지침을 제공하는 것으로 해석 될 수 있다는 의미에서 정교하게 설명해 주시겠습니까?
whuber

@ whuber 제안에 감사드립니다. 아마도 가우스를 "분산이 주어진 엔트로피를 최대화하는 분포"로 다시 작성해야 할 것 같아요? 결과는 상한이 될 것입니다. 어떻게 생각해?
dontloo

그것은 유용하고 더 일반적인 곳으로 가고있는 것처럼 들립니다.
whuber

1
나는 고양이를 껍질을 벗기는 많은 방법이 있다고 생각한다;). 나는 실제로 당신의 대답과 나의 관계는 매우 강력 합니다. 약간의 떨림이 있습니다. 나는 결정자가 당신이 해결하려고하는 문제에 대한 최적의 속성을 가지고 있다고 생각합니다 (그리고 친숙성의 이유로 선택 될 필요는 없습니다).이 최적의 속성은 공분산 행렬 이상으로 확장된다고 생각합니다 (그들은 산란 함수가 발생하는 모든 것을 결정합니다) 선택하고 거기에 많은가) 가우시안 분포를 넘어 (타원 전체로) 확장됩니다.
user603
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.