분류 기술인 LDA가 PCA와 같은 차원 축소 기술로도 사용되는 방법


19

기사 에서 저자는 선형 판별 분석 (LDA)을 주성분 분석 (PCA)에 연결합니다. 제한된 지식으로 LDA가 PCA와 어떻게 유사한 지 따를 수 없습니다.

나는 항상 LDA가 로지스틱 회귀와 유사한 분류 알고리즘의 한 형태라고 생각했습니다. LDA가 PCA와 어떻게 비슷한 지 이해하는 데 도움이 될 것입니다.


2
LDA만을 분류 기술이라고 부르는 것은 옳지 않습니다. 이 기술은 복합 2 단계 기술입니다. 먼저 치수를 줄이고 분류합니다. 차원 축소로 PCA와 달리 감독됩니다. 분류로서 로지스틱 회귀와 달리 한계 확률을 고려합니다.
ttnphns

'차원 축소'라는 용어를 사용하여 클러스터링 및 중복 분석과 같은 감독되지 않은 학습 방법 만 처리하는 것이 가장 분명합니다. LDA는 엄격하게지도 학습으로, 데이터 축소의 첫 단계에서 사용될 경우 과적 응 바이어스를 생성합니다.
Frank Harrell

아주 비슷한 질문 : stats.stackexchange.com/q/22884/3277 .
ttnphns

1
예를 들어 기능 선택과 같은 다양한 전략 인 Frank는 LDA의 1 단계에 적용될 수 있습니다 (단계별 접근 방식 :-).
ttnphns

답변:


22

귀하의 질문에 대한 의견에서 언급했듯이 판별 분석은 차원 축소 (감독) 및 분류 단계의 두 가지 단계로 구성된 복합 절차입니다. 차원 축소에서는 원래 설명 변수를 대체하는 판별 함수를 추출합니다. 그런 다음 해당 기능을 사용하여 클래스에 대한 관찰을 (일반적으로 Bayes의 접근 방식으로) 분류합니다.

일부 사람들은 LDA의이 2 단계 특성을 명확하게 인식하지 못하는 경향이 있습니다. LDA는 2 개의 클래스 ( 피셔의 판별 분석 이라고 함) 만 알고 있기 때문 입니다. 이러한 분석에서 단 하나의 판별 함수 만 존재하고 분류는 간단하므로 공간 축소 및 베이 분류의 개념을 초대하지 않고 단일 "통과"로 교과서에 모든 것을 설명 할 수 있습니다.

LDA는 MANOVA 와 밀접한 관련 이 있습니다. 후자는 (다변량) 선형 모델의 "표면과 넓은"면이며 그것의 "깊이와 집중된"그림은 정식 상관 분석 (CCA)입니다. 문제는 두 개의 다변량 변수 세트 사이의 상관 관계가 일차원 적이 아니며 표준 변수라고하는 몇 개의 "잠재적"변수 쌍으로 설명됩니다.

케이1케이

CCA에서는 두 개의 상관 변수 세트 X와 Y가 동일한 권한으로 간주됩니다. 따라서 우리는 양측에서 표준 변량을 추출하고 쌍을 형성합니다. 집합 X에서 변이 1과 집합 Y에서 변이 1을 최대로 정합합니다. 정규 집합 상관 관계가 더 작은 등을 포함하여 집합 X의 변동 2와 집합 Y의 변동 2를 설정합니다. LDA에서는 일반적으로 클래스 집합 측의 표준 변동에 숫자로 관심이 없습니다. 그러나 우리는 설명적인 설정 측면에서 표준 변수에 관심을 갖습니다. 이를 표준 판별 기능 또는 판별이라고 합니다.

판별자는 그룹 간 분리의 "선"과 최대 상관 관계가 있습니다. 판별 기 1은 분리의 주요 부분을 설명합니다. 판별 기 2는 이전 분리 성과의 직교성으로 인해 설명 할 수없는 일부 분리를 선택합니다. descriminat 3은 이전 두 가지와 직교하는 분리 성의 나머지를 설명합니다. LDA케이미디엄나는(케이1,)참조 ).

반복하자면, 이것은 실제로 그 성격 상 CCA입니다. 3 개 이상의 클래스가있는 LDA는 "정식 LDA"라고도합니다. 그럼에도 불구 CCALDA는 일반적으로 프로그램 효율 뷰에서 다소 다르게 알고리즘 구현들은 다른에서 얻은에 한 순서로 수득 하였다 (계수 등)의 "동일한"충분하므로 결과를 계산하는 것이 가능하다하다. LDA 특이성의 대부분은 그룹을 나타내는 범주 형 변수를 코딩하는 영역에 있습니다. 이것은 (M) ANOVA에서 관찰되는 것과 동일한 딜레마입니다. 상이한 코딩 방식은 계수의 상이한 해석 방식으로 이어진다.

LDA (차원 적 축소)는 CCA의 특정 사례로 이해 될 수 있기 때문에 CCA와 PCA 및 회귀를 비교하는 이 답 을 확실히 탐구해야합니다 . CCA가 감독되는 기술이기 때문에 (잠재적 선형 조합이 외부의 무언가와 상관 관계가 있음) PCA가 (잠재적 선형 조합이 그려지기 때문에) CCA가 어떤 의미에서 PCA보다 회귀에 더 가깝다는 것이 주요 요점입니다. 내부 요약). 이들은 차원 축소의 두 가지입니다.

수학에 관해서는 주성분의 분산이 데이터 클라우드의 고유 값 (변수 사이의 공분산 행렬)에 해당하지만 판별 변수의 분산은 LDA. 그 이유는 LDA에서 고유 값이 데이터 클라우드의 형태를 요약하지 않기 때문입니다. 오히려, 클라우드에서 클래스 간 대 클래스 내 변형 의 비율 에 대한 추상적 인 양과 관련이 있습니다.

따라서 주요 구성 요소는 분산을 최대화하고 판별 변수는 클래스 분리를 ​​최대화합니다. PC가 클래스를 충분히 구별하지 못하지만 판별 할 수있는 간단한 경우가 이러한 그림입니다. 원래 피처 공간 판별에서 선 으로 그려 지면 일반적으로 직교 (상관되지는 않지만)로 표시되지만 PC는 그렇지 않습니다.


각주세심한 . 결과에서 LDA가 CCA와 정확히 관련되는 방법 . 반복 : p변수와 k클래스를 사용하여 LDA를 p수행하고 k-1그룹을 나타내는 지표 더미 변수 로 Set1을 사용하여 CCA를 수행하는 경우 (실제로 지표 변수-반드시 편차 변수 또는 Helmert 와 같은 다른 유형의 대비 변수는 아닙니다) ), 결과는 Set1에 대해 추출 된 표준 변수와 관련하여 동일합니다. LDA에서 추출 된 판별 함수와 직접 일치합니다. 그래도 정확한 관계는 무엇입니까?

LDA의 대수와 용어는 여기 에 설명되어 있으며 , CCA의 대수와 용어는 여기 에 설명되어 있습니다 . 정식 상관 관계는 동일합니다. 그러나 계수와 "잠재 성"값 (점수)은 어떻습니까? 고려하십시오제이제이

CCA 표준화 계수LDA 원시 계수=CCA 표준 변이 값LDA 판별 값=변수의 클래스 분산 내에 풀링 됨 판별 기의 클래스 분산 내에 풀링 됨

n-11

변수의 클래스 분산 내에 풀링 됨
성. 판별의 편차σ

CCA와 LDA의 차이점은 LDA가 클래스 (그룹)가 있음을 "인식"하기 때문입니다. 그룹 내에서 산란 행렬 내부와 산란 행렬을 계산하도록 직접 표시합니다. 따라서 계산을 더 빠르게 수행 할 수 있으며 결과 를 판별 자로 분류 할 때 더 편리합니다 . 반면에 CCA는 클래스를 인식하지 못하고 데이터가 모두 연속 변수 인 것처럼 처리합니다. 더 일반적이지만 계산 방법이 느립니다. 그러나 결과는 동일하며 방법을 보여주었습니다.

지금까지이 있음을 암시 된 k-1인형은 CCA에게 전형적인 방법을 입력, 즉 중심 (Set1과의 변수처럼). 하나는 요청할 수도 있습니다, 그것은 모두 입력 할 수 있습니다 k인형을 그들을 중심으로하지 않습니다 (특이점을 탈출)? 예, 가능하지는 않지만 아마도 편리하지는 않습니다. 0의 고유 값 추가 표준 변이가 나타나며, 이에 대한 계수는 버려야합니다. 다른 결과는 유효합니다. 표준 상관의 중요성을 테스트하기 위해 df를 제외하고 . 첫 번째 상관 관계에 대한 Df p*k가 잘못되고 LDA에서와 같이 실제 df는 p*(k-1)입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.