주성분 분석을 사용하여 데이터를 희게하는 방법은 무엇입니까?


18

내 데이터를 변환 할 등의 차이가 하나가 될 것이며, 공분산가 0 (즉, 내가 희게 데이터에 원하는)이 될 것입니다. 또한 평균은 0이어야합니다.X

Z 표준화 및 PCA 변환을 수행하면 어떻게됩니까? 그러나 어떤 순서로 수행해야합니까?

작성된 미백 변환은 형식이어야합니다 .xWx+b

PCA와 비슷한 방법으로 이러한 변환을 정확하게 수행하고 위의 형식의 수식을 제공합니까?


(첫 번째 의견은 귀하의 질문을 잘못 읽은 것에 기초한 것입니다.) PCA는 공분산이 없습니다. 원하는 경우 나중에 PC를 표준화 할 수 있습니다. 할 일이 이상해 보이지만 할 수는 있습니다.
Nick Cox

@NickCox 변환 된 데이터가 구형이기 때문에 이상하게 보일 수도 있습니다. 그러나 그것은 내가 알아야 할 변화이며 최종 결과는 아닙니다. 아직도 나는 그 변형이 어떻게 생길지 모른다. 그래도 여전히 PCA를 읽고 있습니다.
Angelorf

답변:


31

먼저, 평균 을 빼서 평균 0을 얻습니다 μ=1Nx.

둘째, PCA를 수행하여 공분산 제로를 얻습니다. 경우 데이터의 공분산 행렬이며, 다음 PCA는 eigendecomposition 실적 금액 여기서 이고 의 고유 벡터로 구성된 직교 회전 행렬 과 는 대각에 고유 값이있는 대각 행렬입니다. Matrix 은 데이터의 상관을 해제하는 데 필요한 회전을 제공합니다 (예 : 원래 기능을 주요 구성 요소에 매핑).ΣΣ=UΛUUΣΛU

셋째, 회전 후 각 성분은 해당 고유 값에 의해 주어진 분산을 갖습니다. 따라서 분산을 로 만들려면 제곱근으로 나눠야합니다 .1Λ

미백 변환은 모두 입니다. 괄호를 열어 원하는 양식을 얻을 수 있습니다.xΛ1/2U(xμ)


최신 정보. 자세한 내용은 다음 스레드를 참조하십시오. ZCA 화이트닝과 PCA 화이트닝의 차이점은 무엇입니까?


2
분산이 아닌 SD로 스케일링하는 문제이기 때문에 고유 값의 제곱근으로 나눌 필요가 있다고 생각합니다.
Nick Cox

@NickCox : 물론 그렇습니다. 나는 내 대답을 수정했다. 감사합니다!
amoeba는 Reinstate Monica

1
나는 경험적으로 공식을 확인했습니다. 저를 도와 주셔서 감사합니다!
Angelorf
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.