(아래 답변은 단지 [0]에서 입증 된 정리를 소개하고 언급 한 것입니다.이 논문의 장점은 대부분의 주장이 기본 선형 대수의 관점에서 이루어 졌다는 것입니다.이 질문에 대답하기 위해서는 주요 결과를 진술하기에 충분하지만 반드시 원본 소스를 확인하십시오).
데이터의 다변량 패턴이 변이 타원형 분포에 의해 기술 될 수있는 임의의 상황에서 , 통계적 추론은 정의에 의해 k 변이 위치 벡터 ( θ ) 및 k에 의한 k 의 적합 (및 특성화) 문제를 감소시킬 것이다. k 대칭 반 양성 한정 행렬 (예 : Σ )을 데이터에 적용합니다. 아래에서 설명하지만 (이미 전제로 가정 하는 ) 다변량 분포의 밀도 윤곽의 모양을 설명 하는 Σ 를 모양 구성 요소 ( Σ 와 동일한 크기의 SPSD 행렬)로 분해하는 것이 더 의미 가 있습니다. 스칼라 σ SkkθkkΣΣΣσS 이 윤곽의 규모를 표현합니다.
단 변량 데이터 ( ) Σ 에서 데이터의 공분산 행렬은 스칼라이며 아래 설명에서 볼 수 있듯이 Σ 의 모양 성분 은 1이므로 Σ 는 척도 성분 Σ = σ S 와 항상 같고 모호성이 없습니다.k=1ΣΣΣΣ=σS
다변량 데이터에서, 다양한 스케일링 기능 선택 이 가능하다. 특히 하나 ( σ S = | ΣσS )는 바람직한 바람직한 특성을 갖는 데있어서 두드러진다. 이것은 타원형 패밀리의 맥락에서 스케일링 팩터를 선호하는 선택으로 만들어야합니다.σS=|ΣΣ|1/k
MV 통계의 많은 문제는 R k × k 로 정의 된 함수 (al) 대칭 준 양수로 정의 되고 다음을 충족시키는 산란 행렬의 추정과 관련됩니다
.ΣRk×k
(단수 행렬이 아닌 행렬 A 및 벡터 b ). 예를 들어, 공분산의 고전 추정치는 (0)을 만족하지만 결코 유일한 것은 아닙니다.
(0)Σ(AX+b)=AΣ(X)A⊤
Ab
모든 밀도 윤곽선이 동일한 모양 행렬에 의해 정의 된 타원 인 스칼라에 의한 곱셈까지의 타원 분산 데이터가있는 경우 정규화 된 버전의 를 고려하는 것이 당연합니다 .Σ
VS=Σ/S(Σ)
여기서 는 다음을 만족하는 1- 유전 함수입니다S
(1)S(λΣ)=λS(Σ)
모든 입니다. 이어서, V S는 와 (짧은 형상 매트릭스) 캐터 매트릭스 형상 성분이라고 σ S = S 1 / 2 ( Σ ) 산란 행렬의 스케일 성분이라고한다. 손실 함수는 변수에 따라 추정 문제의 예 Σ 형상 구성 요소를 통해 V S는 중에서도 구형, PCA 및 CCA의 테스트를 포함한다.λ>0VSσS=S1/2(Σ)ΣVS
물론, 가능한 스케일링 함수가 많기 때문에, 여전히 몇몇 정규화 함수 ( ) 중 어떤 선택이 어떤 의미에서 최적 인지에 대한 의문이 여전히 남아 있습니다. 예를 들면 다음과 같습니다.S
- (예를 들어 OP의 질문 아래 그의 의견에서 @amoeba가 제안한 것. [1], [2], [3] 참조)S=tr(Σ)/k
- ([4], [5], [6], [7], [8])S=|Σ|1/k
- (공분산 행렬의 첫 번째 항목)Σ11
- (첫 번째 고유 Σ )λ1(Σ)Σ
그러나 는 국부적으로 무증상 정상 패밀리에서 대응하는 스케일 및 형상 추정치에 대한 피셔 정보 매트릭스가 블록 대각선 인 유일한 스케일링 함수이다 (즉, 추정 문제의 스케일 및 형상 성분은 비대칭 직교 임) [0 ]. 이것은 무엇보다도 스케일 기능 S = | Σ | 1 / k 는 V S 에 대한 추론을 수행 할 때 σ S 의 비 사양 이 효율 손실을 유발하지 않는 유일한 S 선택입니다 .S=|Σ|1/kS=|Σ|1/kSσSVS
나는 (1)을 만족시키는 의 많은 가능한 선택들 중 어느 것에 대한 비교 가능한 강한 최적 성 특성을 모른다 .S
- Paindaveine, D., 형태의 정식 정의, 통계 및 확률 서한, 78 권, 제 14 호, 2008 년 10 월 1 일, 페이지 2240-2247. 연결되지 않은 링크
- Dumbgen, L. (1998). 타일러의 M- 스캐너 기능성에 대해 Ann. Inst. 통계 학자. 수학. 50, 471–491.
- Ollila, E., TP Hettmansperger 및 H. Oja (2004). 등변 량 다변량 부호 방법을 정의합니다. Jyvaskyla 대학의 Preprint.
- 타일러, DE (1983). 산란 매트릭스의 견고성 및 효율 속성, Biometrika 70, 411–420.
- Dumbgen, L. 및 DE Tyler (2005). 일부 다변량 M- 기능의 항복 특성에서 스캔 됨. J. 통계 학자. 32, 247–264.
- [5] Hallin, M. 및 D. Paindaveine (2008). 분산의 동질성에 대한 최적의 순위 기반 테스트, Ann. 통계가 나타납니다.
- [6] Salibian-Barrera, M., S. Van Aelst 및 G. Willems (200 6). 빠르고 강력한 부트 스트랩이있는 다변량 MM 추정기를 기반으로하는 주성분 분석, J. Amer. 통계 학자. Assoc. 101, 1198-1211.
- [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila 및 H. O ja (2006). 산란 및 모양 행렬을 기반으로하는 표준 상관 및 벡터 추정의 영향 함수 및 효율성, J. Multivariate Anal. 97, 359–384.
- [8] Tatsuoka, KS 및 DE Tyler (2000). 비타 원 분포에서 S-Functionals 및 M-functions의 고유성에 대해 Ann. 통계 학자. 28, 1219–1243.