특이 값 분해의 요점은 무엇입니까?


9

왜 치수 축소가 중요한지 이해할 수 없습니다. 일부 데이터를 가져 와서 차원을 축소하면 어떤 이점이 있습니까?


3
질문의 어조는 건설적인 답변을 초대하지 않습니다. 질문을 다시 작성해보십시오.
사샤

2
요점은 약간의 정확도 손실 (예 : JPEG 이미지 압축)의 비용으로 특정 정보를 저장하는 데 필요한 데이터 량을 줄이는 것입니다.
사샤

2
귀하의 의견에 감사드립니다, @Sasha. 합리적인 질문이므로 원어가 전달한 둔기 (실수로 의도하지 않은)의 인상을 피하기 위해 사소한 편집을했습니다.
whuber

예를 들어 stats.stackexchange.com/questions/177102/… 를 참조하십시오 !
kjetil b halvorsen

확률 적이 지 않은 주제 모델링에 대해 SVD를 수행합니다. 확률적인 주제 모델링의 경우 LDA를 사용하십시오. 주제 모델링을 수행하지 않는 경우 PCA를 사용하십시오.
Brad

답변:


18

특이 값 분해 (SVD)는 데이터의 차원을 줄이는 것과 다릅니다. 그것은 여기에 가지 않을 훌륭한 속성을 많이 가진 다른 행렬로 행렬을 분해하는 방법입니다. SVD에 대한 자세한 내용은 Wikipedia 페이지를 참조하십시오 .

데이터의 차원을 줄이는 것이 때로는 매우 유용합니다. 관측치보다 더 많은 변수가있을 수 있습니다. 이것은 게놈 작업에서 드문 일이 아닙니다. 예를 들어 소수의 근본 요인에 의해 큰 영향을받는 경우와 매우 밀접한 상관 관계가있는 몇 가지 변수가있을 수 있으며 근본 요인에 대한 근사값을 복구하려고합니다. 주성분 분석, 다차원 스케일링 및 표준 변량 분석과 같은 차원 감소 기술은 다른 방법으로는 얻을 수없는 관측치 및 / 또는 변수 간의 관계에 대한 통찰력을 제공합니다.

구체적인 예 : 몇 년 전에 100 개가 넘는 질문이있는 직원 만족도 조사를 분석하고있었습니다. 글쎄, 어떤 관리자도 100 개가 넘는 질문에 대한 답을 볼 수 없으며, 요약하고, 그 답이 어떻게 관련되어 있고 누가 무엇을 이끌어 내는지 알 수 있기 때문에 그 의미가 무엇인지 추측 할 수 없습니다. ? 데이터에 대해 요인 분석을 수행 한 결과, 10,000 개가 넘는 관측치가 있었으며, 전체를 요약하는 관리자 별 점수 (각 요인에 대해 하나씩)를 개발하는 데 사용할 수있는 매우 명확하고 쉽게 해석 할 수있는 5 가지 요인이 나타났습니다. 100 개 이상의 질문 설문. 이전의 결과보고 방법이었던 Excel 스프레드 시트 덤프보다 훨씬 나은 솔루션입니다!


차원 축소에는 "씬 SVD"라는 방법이 사용됩니다. SVD의 Wikipedia를 참조하십시오.
cyborg

5

문제의 두 번째 요점과 관련하여 데이터 세트의 차원 축소의 이점은 다음과 같습니다.

  • 필요한 저장 공간을 줄입니다
  • 계산 속도 향상 (예 : 기계 학습 알고리즘), 크기가 작을수록 컴퓨팅 시간이 줄어들고, 크기가 작을수록 알고리즘 사용이 많은 차원에 적합하지 않을 수 있음
  • 예를 들어 평방 미터와 평방 마일에 지형의 크기를 저장하는 데 아무런 도움이되지 않는 중복 기능 제거 (데이터 수집에 결함이있을 수 있음)
  • 데이터의 차원을 2D 또는 3D로 줄이면 데이터를 플롯하고 시각화하고 패턴을 관찰하고 통찰력을 얻을 수 있습니다

PCD 이외에도 SVD는 Signals Processing, NLP 등에서 많은 응용 프로그램을 보유하고 있습니다.


2

이 답변 을 살펴보십시오 . 특이 값 분해는 주요 구성 요소 분석 의 핵심 구성 요소이며 , 이는 매우 유용하고 매우 강력한 데이터 분석 기술입니다.

안면 인식 알고리즘에 자주 사용되며, 제 직장에서 헤지 펀드 분석가로 자주 사용합니다.


1
SVD와 PCA (관련된 동안)가 다른 절차가 아닙니까?
B_Miner

2
네 말이 맞아 SVD는 PCA 문제에 대한 솔루션을 얻는 방법입니다.
bayerj

1
@B_Miner 예-이것이 svd가 pca 의 핵심 구성 요소 라고 말한 이유 입니다. 문제는 차원 축소와 관련이 있기 때문에 pca에 중점을 두었습니다 (pca가 적합하고 svd가 적합하지 않음)
Chris Taylor

아마도 구성 요소 의 단어 선택은 @B_Miner를 일시적으로 버린 것입니다. :)
추기경
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.