이 질문 에서 언급했듯이 공분산 행렬의 최대 순위는 이며 여기서 은 표본 크기이므로 공분산 행렬의 차원이 표본 크기와 같으면 단수입니다. 공분산 행렬 의 최대 순위 n 에서 을 빼는 이유를 이해할 수 없습니다 .
이 질문 에서 언급했듯이 공분산 행렬의 최대 순위는 이며 여기서 은 표본 크기이므로 공분산 행렬의 차원이 표본 크기와 같으면 단수입니다. 공분산 행렬 의 최대 순위 n 에서 을 빼는 이유를 이해할 수 없습니다 .
답변:
데이터 포인트 가 주어진 경우 샘플 공분산 행렬의 편견 추정값 은 여기서 은 모든 포인트에 대한 평균입니다. 나타낸다 우리를 보자 로 . 계수 순위를 변경하지 않고, 요컨대, 각 용어는 랭크 (정의)를 갖는다 문제의 핵심은 다음과 같은되도록 :
이유는 무엇입니까 이 순위 이 아닌 순위 , 우리가 합산되기 때문에이 보일 것 같은 rank- 행렬을?
대답은 가 독립적이지 않기 때문에 발생한다는 것 입니다. 구성에 의해 ∑ z i = 0 입니다. 따라서 z i 의 n - 1 을 아는 경우 마지막 남은 z n 이 완전히 결정됩니다. 우리는 n 개의 독립 랭크 -1 행렬을 합산하지 않고 , n - 1 개의 독립 랭크 -1 행렬 만을 합산 한 다음 나머지에 의해 완전히 선형으로 결정된 하나 이상의 랭크 -1 행렬 을 추가 합니다. 이 마지막 추가는 전체 순위를 변경하지 않습니다.
우리는 다시 쓸 경우 직접 볼 수 으로 Z N = - N - 1 Σ 난 = 1 Z 나 , 현재 상기 식 끼우 : N Σ는 난 = 1 개 , Z의 I의 Z ⊤ 난 = N - 1 Σ 난 = 1 개 , Z의 I의 Z ⊤ I + ( - N - 1 Σ I = 1
그런데이 결과는 공분산의 편향 추정량의 요인이 1 인 이유를 암시합니다. 아닌 n - 1 .