감독 차원 축소


13

15K 레이블이 지정된 샘플 (10 그룹)로 구성된 데이터 세트가 있습니다. 레이블의 지식을 고려하여 차원 축소를 2 차원으로 적용하고 싶습니다.

PCA와 같은 "표준"감독되지 않은 차원 축소 기법을 사용할 때 산점도는 알려진 레이블과 관련이없는 것 같습니다.

찾고있는 이름이 있습니까? 솔루션에 대한 몇 가지 참조를 읽고 싶습니다.


3
선형 방법을 찾고 있다면 선형 판별 분석 (LDA)을 사용해야합니다.
amoeba는

@amoeba : 감사합니다. 나는 그것을 사용했고 훨씬 더 잘 수행했습니다!
Roy

도움이되어 다행입니다. 추가 참고 자료와 함께 간단한 답변을 제공했습니다.
amoeba는 Reinstate Monica

1
한 가지 가능성은 먼저 클래스 중심에 걸쳐있는 9 차원 공간으로 축소 한 다음 PCA를 사용하여 2 차원으로 더 축소하는 것입니다.
A. Donda

관련 : stats.stackexchange.com/questions/16305 (아마도 다른 방법으로 복제 할 수도 있지만 아마도 다른 방법으로 복제 할 수 있습니다. 아래 답변을 업데이트 한 후 다시 올 것입니다.)
amoeba는 Reinstate Monica

답변:


27

감독 된 차원 축소의 가장 표준적인 선형 방법을 선형 판별 분석 (LDA)이라고합니다. 클래스 분리를 ​​최대화하는 저 차원 투영을 찾도록 설계되었습니다. 태그 및 무료로 제공 되는 통계 학습 요소 와 같은 기계 학습 교과서에서 이에 대한 많은 정보를 찾을 수 있습니다 .

여기 에 빠른 Google 검색으로 찾은 사진이 있습니다 . 데이터 세트에 두 개의 클래스가있는 경우 1 차원 PCA 및 LDA 투영을 보여줍니다 (원본 추가).

PCA 대 LDA

다른 접근법을 부분 최소 제곱 (PLS)이라고합니다. LDA는 그룹 변수를 인코딩하는 더미 변수와 가장 높은 상관 관계를 갖는 투영을 찾는 것으로 해석 될 수 있습니다 (이 의미에서 LDA는 CCA (Canonical Correlation Analysis)의 특별한 경우로 볼 수 있음). 반대로 PLS는 그룹 레이블과의 공분산이 가장 높은 투영을 찾습니다. LDA는 두 그룹 (위의 그림과 같이)의 경우 1 축만 생성하지만 PLS는 공분산이 감소하는 순서로 많은 축을 찾습니다. 데이터 세트에 둘 이상의 그룹이 존재하는 경우 약간 다른 결과를 생성하는 PLS의 "향기"가 다릅니다.

업데이트 (2018)

이 답변을 확장 할 시간을 찾아야합니다. 이 스레드는 인기가있는 것 같지만 위의 원래 답변은 매우 짧고 상세하지 않습니다.

k


1
멋진 그래픽, 많은 설명
Titou
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.