PCA로 얻은 낮은 순위 근사 행렬에 의해 재구성 오류의 표준은 무엇입니까?


답변:


30

한마디로 대답 : 둘 다.


규범을 정의하는 것으로 시작합시다. 행렬 경우 연산자 -norm은 및 Frobenius 규범을 \ | X \ | _F = \ sqrt {\ sum_ {ij} X_ {ij} ^ 2} = \ mathrm {tr} (X ^ \ top X) = \ sqrt {\ sum s_i ^ 2} , 여기서, s_i는 의 특이 값이다 X가 의 대각선 원소하여 예 S 특이 값 분해 X = USV ^ \ 가기 .X2

X2=supXv2v2=max(si)
XF=ijXij2=tr(XX)=si2,
siXSX=USV

PCA는 데이터가 중심에있을 때 동일한 특이 값 분해로 제공됩니다. US 는 주성분, V 는 주축, 즉 공분산 행렬의 고유 벡터이며 k 개의 가장 큰 특이 값에 해당하는 k 개의 주성분 만으로 X 를 재구성 하는 것은 X_k = U_k S_k V_k ^ \ top로 주어집니다 .kkXk=UkSkVk

정리 ECKART 영 말한다 재건 오류의 규범을 최소화 매트릭스는모두들 행렬 순위의 . 이것은 Frobenius 규범과 운영자 노름 모두에 해당됩니다 . 의견에서 @cardinal이 지적한 것처럼, 1907 년 Frobenius 사건에 대해 Schmidt (Gram-Schmidt 명성의)에 의해 처음 입증되었습니다. 그것은 1936 년에 Eckart와 Young에 의해 나중에 재발견되었으며 현재는 대부분 그들의 이름과 관련이 있습니다. Mirsky는 1958 년의 정리를 단일 변환에서 변하지 않는 모든 규범으로 일반화했으며 여기에는 연산자 2- 노름이 포함됩니다.XkXAAk2

이 정리는 때때로 Eckart-Young-Mirsky 정리라고합니다. 스튜어트 (1993)는 이것을 슈미트 근사 정리라고 부릅니다. 나는 그것을 슈미트-에카르트-영-미르 스키 정리라고 부르기도했다.


운영자에 대한 증명 norm2

를 전체 순위 이라고합시다 . 마찬가지로 랭크이다 , 그 널 공간 보유 치수. 가장 큰 특이 값에 해당하는 의 오른쪽 특이 벡터가 차지하는 공간은 차원입니다. 따라서이 두 공간은 서로 교차해야합니다. 교차점에서 단위 벡터로 하자 . 그러면 QED.XnAknkk+1Xk+1w

XA22(XA)w22=Xw22=i=1k+1si2(viw)2sk+12=XXk22,

프로 베니 우스 표준에 대한 증거

를 최소화 하는 랭크 의 행렬 를 찾고 . 인수 분해 할 수 있습니다 . 여기서 에는 정규 직교 열이 있습니다. 고정 대해 를 최소화하는 것은 솔루션 의 회귀 문제입니다 . 연결하면 이제 를 최소화해야합니다. 여기서 는 의 공분산 행렬입니다 . 즉AkXAF2A=BWWkXBW2WB=XW

XXWW2=X2XWW2=consttr(WWXXWW)=constconsttr(WΣW),
ΣXΣ=XX/(n1). 이는 투영의 총 분산을 최대화하는 일부 직교 정규 벡터 를 열로 취함으로써 재구성 에러가 최소화됨을 의미한다 .Wk

이들 먼저 것을 잘 알려진 공분산 행렬의 고유 벡터. 실제로 인 경우 입니다. 직교 정규 열도 포함하는 를 쓰면 . 때 최대 값을 . 그러면 정리가 즉시 뒤 따릅니다.kX=USVΣ=VS2V/(n1)=VΛVR=VW

tr(WΣW)=tr(RΛR)=iλijRij2i=1kλk,
W=Vk

다음 세 가지 관련 스레드를 참조하십시오.


프로 베니 우스 표준에 대한 증거의 초기 시도

이 증거는 온라인 어딘가에서 찾았지만 주석에서 @cardinal에 설명 된 것처럼 잘못되었습니다 (갭이 있음).

Frobenius 규범은 단일 값을 변경하지 않기 때문에 단일 변환에서 변하지 않습니다. 그래서 우리는 얻는다 : 여기서 . 계속 : 대각선 모든 요소 가 0이고 모든 대각선 항이 가장 큰 특이 값 취소 할 때 최소화됩니다 ( 예 : 는 분명하지 않음) . 즉, 그리고 따라서 .

XAF=USVA=SUAV=SB,
B=UAV
XAF=ij(SijBij)2=i(siBii)2+ijBij2.
Bkksi Boptimal=SkAoptimal=UkSkVk

2
Frobeniius 규범의 경우에 대한 증거는 여기에서 논란이 동일한 순위의 행렬이 "소형"을 해제하면서 다른 대각선 항의 일부를 취소 할 가능성을 배제하지 않기 때문에 정확하지 않습니다 (또는 적어도 완전하지 않습니다). 대각선. 간격을보다 명확하게 확인하기 위해 대각선을 일정하게 유지하고 비 대각선을 "제로화"하면 문제의 행렬의 순위가 높아질 수 있습니다 !
추기경

1
또한 SVD는 1874
추기경

@ 추기경 : 흠, 나는 격차가 보이는지 확실하지 않습니다. 하면 일부 다른 사선 측면 상쇄 대신 큰 것들을 일부 제로를 갖는 대각선 오프 조건 대신에, 다음 두 합, 및 가 증가 할 것입니다. 따라서 재구성 오류 만 증가시킵니다. 아니? 그럼에도 불구하고 나는 문헌에서 Frobenius 규범에 대한 또 다른 증거를 찾으려고 노력했으며 운영자 규범 사례에서 쉽게 따라야한다는 것을 읽었습니다. 그러나 지금까지 나는 그것이 어떻게 따라야하는지 알지 못한다.BSki(siBii)2ijBij2
amoeba는 Reinstate Monica가

3
내가 특이 값 분해의 초기 역사에서 GW 스튜어트 (1993)와 같은 SIAM 검토 권. 35 번 4, 551-566 그리고 역사적 문제에 대한 당신의 이전의 관심을 감안할 때, 당신도 그렇게 생각합니다. 불행히도 스튜어트는 1907 년 슈미트의 우아함을 우연히 무시하고 있다고 생각합니다. 그 안에 숨겨진 스튜어트가 간과 한 회귀 해석이 숨겨져 있습니다. 초기 대각선 화 접근법을 따르는 또 다른 증거가 있지만 그 차이를 메우려면 약간의 추가 작업이 필요합니다. (계속.)
추기경

2
@ cardinal : 네, 맞습니다. 이제 차이도 보입니다. Stewart 논문에 대단히 감사합니다. Stewart가 Schmidt와 Weyl의 증거를 제시하지만 둘 다 내가 여기서 복사하고 싶은 것보다 더 복잡해 보입니다 (지금까지는 신중하게 공부할 시간이 없었습니다). 나는 놀랐습니다 : 나는 이것이 매우 간단한 결과 일 것으로 기대했지만 생각보다 사소한 것 같습니다. 특히, Frobenius 사례가 운영자 표준보다 훨씬 더 복잡 할 것으로 예상하지는 않았습니다. 지금 게시물을 편집하겠습니다. 새해 복 많이 받으세요!
amoeba는
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.