Bartlett 's Test로 진단 된 구 형성이 PCA가 부적절하다는 것을 의미하는 이유는 무엇입니까?


14

Bartlett 's Test는 표본이 분산이 같은 모집단에서 추출한 것인지 결정하는 데 관심이 있음을 이해합니다.

표본이 분산이 동일한 모집단에서 추출 된 경우 검정의 귀무 가설을 기각 할 수 없으므로 주성분 분석이 부적절합니다.

이 상황에서 문제가 어디에 있는지 확실하지 않습니다 (동성 데이터 세트가 있음). 모든 데이터의 기본 분포가 동일한 데이터 세트의 문제점은 무엇입니까? 이 조건이 존재하면 나는 큰 문제를 보지 못합니다. 왜 이것이 PCA를 부적절하게 만들까요?

온라인 어디에서나 좋은 정보를 찾지 못하는 것 같습니다. 이 테스트가 PCA와 관련이있는 이유를 해석 한 경험이 있습니까?

답변:


15

질문 제목에 대한 답변.

1

다변량 구름이 완벽하게 구형이라는 것을 상상해보십시오 (즉, 공분산 행렬은 항등 행렬에 비례합니다). 그런 다음 1) 임의의 차원이 주요 구성 요소를 제공 할 수 있으므로 PCA 솔루션은 고유하지 않습니다. 2) 모든 구성 요소가 동일한 분산 (고유 값)을 가지므로 PCA가 데이터를 줄이는 데 도움을 줄 수 없습니다.

다변량 구름이 변수의 축을 따라 엄격하게 직사각형으로 타원형 인 두 번째 경우를 상상해보십시오 (즉, 공분산 행렬은 대각선입니다. 대각선을 제외한 모든 값은 0입니다). 그런 다음 PCA 변환에 의해 암시 된 회전은 0이됩니다. 주요 구성 요소는 변수 자체이며 순서가 변경되고 의도적으로 부호가 반환됩니다. 이것은 사소한 결과입니다. 데이터를 줄이기 위해 약한 차원을 버릴 PCA가 필요하지 않았습니다.


1


14

Bartlett 's test 라는 두 가지 테스트가있는 것으로 보입니다 . 참조한 표본 (1937)은 표본이 분산이 같은 모집단에서 추출되었는지 여부를 결정합니다. 다른 하나는 데이터 세트에 대한 상관 행렬이 항등 행렬인지 테스트하는 것으로 보인다 (1951). ID 상관 관계 행렬이있는 데이터에서 PCA를 실행하지 않는 것이 더 합리적입니다. 이미 상관 관계가없는 원래 변수를 다시 가져 오기 때문입니다. 예를 들어


2
+1 이것은 다른 답변보다 혼란을 더 잘 해결합니다.
HelloWorld
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.