답변:
나는 LDA와 선형 (로지스틱이 아닌) 회귀에 관한 질문이라고 생각합니다 .
선형 회귀 분석 과 선형 판별 분석 간에는 유의미하고 의미있는 관계가 있습니다. 종속 변수 (DV)가 2 개의 그룹으로 만 구성된 경우 두 분석은 실제로 동일합니다. 계산이 다르고 결과 (회귀 및 판별 계수)가 동일하지 않더라도 서로 정확히 비례 합니다.
이제 두 개 이상의 그룹 상황에 대해. 먼저 LDA (분류 단계가 아닌 추출)가 그룹화 DV를 더미 변수 세트로 바꾸고 (중복 변수 하나가 누락 된 경우 ) 정식 상관 분석 과 동일 (선형 적으로 관련된 결과)한다고 설명하고 표준 을 수행합니다. 세트 "IV"및 "듀미"를 사용한 분석. 획득 한 "IV"세트 측면의 정식 변수 는 LDA가 "차별 함수"또는 "차별"이라고 부르는 것입니다.
그렇다면 표준 분석이 선형 회귀와 어떻게 관련이 있습니까? 정식 분석은 본질적으로 MANOVA ( "다변량 다중 선형 회귀"또는 "다변량 일반 선형 모델"의 의미에서) 잠재 구조 로 심화됩니다.DV와 IV 사이의 관계. 이 두 변형은 상호 관계에서 잠재적 인 "정규 변수"로 분해됩니다. 가장 간단한 예인 Y 대 X1 X2 X3을 예로 들어 보겠습니다. 양측 간의 상관 관계 최대화는 선형 회귀 (Y를 X로 예측하는 경우)이거나 MANOVA (X를 Y로 예측하는 경우)입니다. 더 작은 세트 Y는 하나의 변수로 구성되기 때문에 상관 관계는 일차원이다 (크기 R ^ 2 = Pillai의 트레이스). 이제 Y1 Y2 대 X1 x2 x3의 두 가지 집합을 살펴 보겠습니다. 작은 집합에 2 개의 변수가 포함되어 있기 때문에 여기서 최대화되는 상관 관계는 2 차원입니다. 상관 관계의 첫 번째 및 더 강한 잠재 차원을 첫 번째 정식 상관 관계라고하며 나머지 부분은 그에 직교하는 두 번째 정식 상관 관계라고합니다. 그래서, MANOVA (또는 선형 회귀)는 집합의 전체 2 차원 상관에서 변수의 부분적 역할 (계수)이 무엇인지 묻습니다. 표준 분석은 1 차 상관 차원과 2 차 변수의 부분적 역할이 무엇인지 묻기 위해 아래로 진행됩니다.
따라서 정준 상관 분석은 다변량 선형 회귀가 DV와 IV 사이의 관계의 잠재적 구조로 심화된다. 판별 분석은 정식 상관 분석의 특별한 경우입니다 ( 정확한 방법 참조 ). 그래서, 2 개 이상의 그룹의 일반적인 경우에 LDA와 선형 회귀의 관계에 대한 대답이 여기에있었습니다.
내 대답은 LDA를 분류 기술로 전혀 보지 않습니다. LDA를 잠재 추출 기술로만 논의했습니다. 분류는 LDA의 두 번째 독립 단계입니다 ( 여기서 설명했습니다 ). @Michael Chernick는 그의 답변에 집중했습니다.
regression formulation of LDA무언가를 찾는 것은 놀랍게도 어려운 일이다-2000 년 이후에 그러한 공식이 존재하지 않는다는 여러 연구 논문이 출판되었다. 하나를 제안하려고합니다. 좋은 [오래된] 참조가 있을까요?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression입니다. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. 인터넷에서 찾을 수 없으면 보내드릴 수 있습니다. 더 많은 소스를 찾으면 알려주십시오.
다음은 Efron의 논문 중 하나에 대한 참조 입니다. 1975 년 일반 판별 분석 과 비교 한 로지스틱 회귀의 효율성 .
또 다른 관련 논문은 2001 년 Ng & Jordan, 차별 대와 분류 분류 자 : 로지스틱 회귀 분석과 순진한 Bayes의 비교이다 . 그리고 다음은 2008 년 Xue & Titterington 의 논문 논문에 대한 오닐의 논문 에 대한 주석입니다 .
생성 및 차별 분류기의 비교는 영원한 주제입니다. 이 주제에 대한 중요한 기여로서 나이브 베이 즈 분류기와 선형 로지스틱 회귀 분석의 이론적, 경험적 비교를 바탕으로 Ng와 Jordan (NIPS 841 --- 848, 2001)은 생성간에 두 가지 고유 한 성과 체계가 있다고 주장했다. 및 훈련 세트 크기에 관한 차별 분류기. 이 논문에서, 우리의 경험적 및 시뮬레이션 연구는 그들의 연구의 보완으로서 두 가지 다른 체제의 존재가 그렇게 신뢰할 만하지 않을 수 있음을 시사한다. 또한 실제 데이터 세트의 경우 지금까지 관측 분류에 대한 차별적 접근 방식과 생성 접근 방식 중에서 선택하기위한 이론적으로 올바른 일반적인 기준은 없습니다. 클래스로 ; 선택은 또는 p ( x , y ) 사양의 정확성에 대한 상대적인 신뢰도에 따라 다릅니다. 데이터를 위해. 이것은 왜 Efron (J Am Stat Assoc 70 (352) : 892 --- 898, 1975)과 O'Neill (J Am Stat Assoc 75 (369) : 154 --- 160, 1980)을 어느 정도 설명 할 수 있습니다. ) 모델 오 사양이 발생하지 않았지만 다른 경험적 연구가 선형 로지스틱 회귀를 선호 할 때 정규 기반 선형 판별 분석 (LDA)을 선호합니다. 또한, 우리는 공통 대각선 공분산 행렬 (LDA) 또는 나이브 베이 즈 분류기를 가정 한 LDA와 선형 로지스틱 회귀 분석이 완전하지 않을 수 있으므로 LDA 간의 비교에서 도출 된 주장에 대해 신뢰할 수없는 것으로 제안합니다. 또는 나이브 베이 즈 분류기 및 선형 로지스틱 회귀 분석을 통해 모든 생성 및 차별 분류기에 일반화 할 수 있습니다.
온라인에서 찾을 수있는 다른 참조가 많이 있습니다.
이 답변의 목적은 선형 판별 분석 (LDA)과 다변량 선형 회귀 (MLR) 간의 정확한 수학적 관계를 설명하는 것입니다. RRR (Ranked Regression ) 을 통해 올바른 프레임 워크가 제공되는 것으로 나타났습니다 .
LDA가 데이터 행렬에서 하얗게 된 클래스 표시기 행렬 의 RRR과 동일 함을 보여줍니다 .
하자 될 N × D 데이터 포인트는 행렬 X 난을 열의 행 변수. 각 포인트는 k 클래스 또는 그룹 중 하나에 속합니다 . 점 x i 는 클래스 번호 g ( i )에 속합니다 .
하자 될 N × K를 다음과 같이 표시 매트릭스 인코딩 그룹 구성원 : G의 난의 J = 1 의 경우 , X 나 클래스에 속하는 J 와 G의 난의 J = 0 그렇지. 있습니다 N J의 클래스에서 데이터 포인트 j는 ; 물론 ∑ n j = n .
데이터가 중심에 있고 전체 평균이 0, 이라고 가정합니다 . 하자 μ j는 클래스의 평균 수 J .
총 산란 행렬 는 다음과 같이 정의 된 클래스 간 및 클래스 내 분산 매트릭스의 합으로 분해 될 수 있습니다. C bC=Cb+Cw 인지 확인할 수 있습니다. LDA는 최대 그룹 간 분산과 투영의 그룹 내 분산이 최소 인 판별 축을 검색합니다. 구체적으로는, 우선 판별 축은 단위 벡터이고,w최대화승⊤C의B승/(승⊤C가
가 최대 순위 라고 가정하면 , LDA 해답 W L D A 는 C - 1 w C b 의 고유 벡터 행렬입니다 (감소 순서로 고유 값 순서).
이것은 평범한 이야기였습니다. 이제 두 가지 중요한 관찰을하겠습니다.
먼저, 클래스 내 스 캐터 매트릭스는 총 스 캐터 매트릭스로 대체 될 수 있으며 (궁극적으로 최대화는 b / ( b + w ) 최대화와 동일하므로 ) C - 1 C b 는 동일한 고유 벡터.
둘째, 클래스 간 산란 행렬은 상기 정의 된 그룹 멤버쉽 행렬을 통해 표현 될 수있다. 실제로 는 그룹 합계의 행렬입니다. 그룹 평균 행렬을 구하려면 대각선에 n j 의 대각선 행렬을 곱해야합니다 . 그것은 주어진 것 G ⊤ G . 따라서, 그룹 수단의 행렬이다 ( G ⊤ G ) - 1 G ⊤ X ( sapienti 이 회귀 식을하다는 뜻 통지). 얻으려면 C를 b를 우리가 동일한 대각 행렬에 의해 가중치의 분산 행렬을 취할 필요가 얻어 C를 B에 모든 경우에 , N의 J는 동일하고 동일한 m ( "균형 세트"),이 식을 단순화 X ⊤ G G ⊤ X / m .
정규화 된 지표 행렬 를 1 / √ G가갖는1. 이어서 모두 평형 및 불평형 데이터 세트에 대한 상기 표현은 단순히CB=X⊤ ~ G ~ G ⊤X. 참고 ~ G는 일정한 비율의 최대 인백색: 표시 매트릭스 ~ G =G(G⊤G)-1 / 2.
단순화를 위해 균형 잡힌 데이터 세트로 시작합니다.
의 선형 회귀 고려 에 X를 . B가 ” G - X B ” 2를 최소화 함을 발견 합니다. 감소 된 순위 회귀는 B 가 주어진 순위 p 의 제약 조건 하에서 동일하게 수행됩니다 . 그렇다면, B는 로 쓸 수 B = D F ⊤ 모두 D 및 F 를 갖는 페이지의 컬럼. 첫 번째 열을 유지하고 추가 열을 추가하여 순위 솔루션에서 순위 2 솔루션을 얻을 수 있음을 알 수 있습니다.
LDA와 선형 회귀 간의 연결을 설정하기 위해 는 W L D A 와 일치 함을 증명할 것입니다 .
증거는 간단합니다. 주어진 들어 최적 F는 회귀를 통해 발견 될 수있다 : F ⊤ = ( D ⊤ X ⊤ X D ) - 1 D ⊤ X ⊤ G . 손실 함수에이를 연결해, 우리가 얻을 ‖ G - X D ( D ⊤ X ⊤ X D ) - 1 D ⊤ X ⊤ G ‖ 2 , ID를 사용하여 추적으로 기록 될 수있다
유사하게 릿지 정규화를 감소 된 순위 회귀에 추가하는 것은 정규화 된 LDA와 동등하다는 것을 보여줄 수있다.
위에 제시된 것에 대해 누가 크레딧을받을 자격이 있는지 말하기는 어렵습니다.
Cai 등의 최근 회의 논문이 있습니다. (2013) 위와 정확히 동일한 증거를 제시하지만이 접근법을 발명했다는 인상을주는 저 순위 회귀 및 선형 판별 분석 기반 회귀의 동등성에 대해. 이것은 사실이 아닙니다. 토레는 다변량 방법 선형 공통의 대부분이 감소 순위 회귀로 볼 수있는 방법에 대한 자세한 치료를 쓴 참조 최소 - 사각형 성분 분석을위한 프레임 워크 , 2009 년 및 이후의 책 장 구성 요소 분석 방법의 통일을 , 2013; 그는 같은 주장을 제시하지만 어떤 언급도하지 않았다. 이 자료는 교과서 현대 다변량 통계 기법 에서도 다룹니다. 1975 년에 RRR을 다시 도입 한 Izenman의 (2008).
LDA와 CCA의 관계는 1938 년 Bartlett으로 되돌아갑니다. 다중 회귀 이론의 다른 측면은 제가 자주 접하게되는 참조입니다 (그러나 확인하지는 못했습니다). CCA와 RRR의 관계는 Ivariman, 1975, 다변량 선형 모델의 감소 된 순위 회귀에 설명되어 있습니다 . 따라서 이러한 모든 아이디어는 한동안 존재했습니다.
선형 회귀 및 선형 판별 분석은 매우 다릅니다. 선형 회귀는 종속 변수를 일련의 독립 예측 변수와 관련시킵니다. 아이디어는 데이터에 가장 적합한 매개 변수에서 선형 함수를 찾는 것입니다. 공변량에서 선형 일 필요조차 없습니다. 반면에 선형 판별 분석은 객체를 범주로 분류하는 절차입니다. 2 클래스 문제의 경우 그룹을 두 범주로 나눌 수있는 최상의 분리 초평면을 찾으려고합니다. 여기서 가장 좋은 것은 오차율의 선형 조합 인 손실 함수를 최소화한다는 것을 의미합니다. 세 개 이상의 그룹의 경우 최상의 초평면 세트 (k 클래스 문제의 경우 k-1)를 찾습니다. 판별 분석에서 차 상면은 피처 변수에서 선형입니다.
이 둘의 주요한 유사점은 제목에서 선형이라는 용어입니다.