답변:
나는 LDA와 선형 (로지스틱이 아닌) 회귀에 관한 질문이라고 생각합니다 .
선형 회귀 분석 과 선형 판별 분석 간에는 유의미하고 의미있는 관계가 있습니다. 종속 변수 (DV)가 2 개의 그룹으로 만 구성된 경우 두 분석은 실제로 동일합니다. 계산이 다르고 결과 (회귀 및 판별 계수)가 동일하지 않더라도 서로 정확히 비례 합니다.
이제 두 개 이상의 그룹 상황에 대해. 먼저 LDA (분류 단계가 아닌 추출)가 그룹화 DV를 더미 변수 세트로 바꾸고 (중복 변수 하나가 누락 된 경우 ) 정식 상관 분석 과 동일 (선형 적으로 관련된 결과)한다고 설명하고 표준 을 수행합니다. 세트 "IV"및 "듀미"를 사용한 분석. 획득 한 "IV"세트 측면의 정식 변수 는 LDA가 "차별 함수"또는 "차별"이라고 부르는 것입니다.
그렇다면 표준 분석이 선형 회귀와 어떻게 관련이 있습니까? 정식 분석은 본질적으로 MANOVA ( "다변량 다중 선형 회귀"또는 "다변량 일반 선형 모델"의 의미에서) 잠재 구조 로 심화됩니다.DV와 IV 사이의 관계. 이 두 변형은 상호 관계에서 잠재적 인 "정규 변수"로 분해됩니다. 가장 간단한 예인 Y 대 X1 X2 X3을 예로 들어 보겠습니다. 양측 간의 상관 관계 최대화는 선형 회귀 (Y를 X로 예측하는 경우)이거나 MANOVA (X를 Y로 예측하는 경우)입니다. 더 작은 세트 Y는 하나의 변수로 구성되기 때문에 상관 관계는 일차원이다 (크기 R ^ 2 = Pillai의 트레이스). 이제 Y1 Y2 대 X1 x2 x3의 두 가지 집합을 살펴 보겠습니다. 작은 집합에 2 개의 변수가 포함되어 있기 때문에 여기서 최대화되는 상관 관계는 2 차원입니다. 상관 관계의 첫 번째 및 더 강한 잠재 차원을 첫 번째 정식 상관 관계라고하며 나머지 부분은 그에 직교하는 두 번째 정식 상관 관계라고합니다. 그래서, MANOVA (또는 선형 회귀)는 집합의 전체 2 차원 상관에서 변수의 부분적 역할 (계수)이 무엇인지 묻습니다. 표준 분석은 1 차 상관 차원과 2 차 변수의 부분적 역할이 무엇인지 묻기 위해 아래로 진행됩니다.
따라서 정준 상관 분석은 다변량 선형 회귀가 DV와 IV 사이의 관계의 잠재적 구조로 심화된다. 판별 분석은 정식 상관 분석의 특별한 경우입니다 ( 정확한 방법 참조 ). 그래서, 2 개 이상의 그룹의 일반적인 경우에 LDA와 선형 회귀의 관계에 대한 대답이 여기에있었습니다.
내 대답은 LDA를 분류 기술로 전혀 보지 않습니다. LDA를 잠재 추출 기술로만 논의했습니다. 분류는 LDA의 두 번째 독립 단계입니다 ( 여기서 설명했습니다 ). @Michael Chernick는 그의 답변에 집중했습니다.
regression formulation of LDA
무언가를 찾는 것은 놀랍게도 어려운 일이다-2000 년 이후에 그러한 공식이 존재하지 않는다는 여러 연구 논문이 출판되었다. 하나를 제안하려고합니다. 좋은 [오래된] 참조가 있을까요?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
입니다. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
. Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. 인터넷에서 찾을 수 없으면 보내드릴 수 있습니다. 더 많은 소스를 찾으면 알려주십시오.
다음은 Efron의 논문 중 하나에 대한 참조 입니다. 1975 년 일반 판별 분석 과 비교 한 로지스틱 회귀의 효율성 .
또 다른 관련 논문은 2001 년 Ng & Jordan, 차별 대와 분류 분류 자 : 로지스틱 회귀 분석과 순진한 Bayes의 비교이다 . 그리고 다음은 2008 년 Xue & Titterington 의 논문 논문에 대한 오닐의 논문 에 대한 주석입니다 .
생성 및 차별 분류기의 비교는 영원한 주제입니다. 이 주제에 대한 중요한 기여로서 나이브 베이 즈 분류기와 선형 로지스틱 회귀 분석의 이론적, 경험적 비교를 바탕으로 Ng와 Jordan (NIPS 841 --- 848, 2001)은 생성간에 두 가지 고유 한 성과 체계가 있다고 주장했다. 및 훈련 세트 크기에 관한 차별 분류기. 이 논문에서, 우리의 경험적 및 시뮬레이션 연구는 그들의 연구의 보완으로서 두 가지 다른 체제의 존재가 그렇게 신뢰할 만하지 않을 수 있음을 시사한다. 또한 실제 데이터 세트의 경우 지금까지 관측 분류에 대한 차별적 접근 방식과 생성 접근 방식 중에서 선택하기위한 이론적으로 올바른 일반적인 기준은 없습니다. 클래스로 ; 선택은 또는 p ( x , y ) 사양의 정확성에 대한 상대적인 신뢰도에 따라 다릅니다. 데이터를 위해. 이것은 왜 Efron (J Am Stat Assoc 70 (352) : 892 --- 898, 1975)과 O'Neill (J Am Stat Assoc 75 (369) : 154 --- 160, 1980)을 어느 정도 설명 할 수 있습니다. ) 모델 오 사양이 발생하지 않았지만 다른 경험적 연구가 선형 로지스틱 회귀를 선호 할 때 정규 기반 선형 판별 분석 (LDA)을 선호합니다. 또한, 우리는 공통 대각선 공분산 행렬 (LDA) 또는 나이브 베이 즈 분류기를 가정 한 LDA와 선형 로지스틱 회귀 분석이 완전하지 않을 수 있으므로 LDA 간의 비교에서 도출 된 주장에 대해 신뢰할 수없는 것으로 제안합니다. 또는 나이브 베이 즈 분류기 및 선형 로지스틱 회귀 분석을 통해 모든 생성 및 차별 분류기에 일반화 할 수 있습니다.
온라인에서 찾을 수있는 다른 참조가 많이 있습니다.
이 답변의 목적은 선형 판별 분석 (LDA)과 다변량 선형 회귀 (MLR) 간의 정확한 수학적 관계를 설명하는 것입니다. RRR (Ranked Regression ) 을 통해 올바른 프레임 워크가 제공되는 것으로 나타났습니다 .
LDA가 데이터 행렬에서 하얗게 된 클래스 표시기 행렬 의 RRR과 동일 함을 보여줍니다 .
하자 될 N × D 데이터 포인트는 행렬 X 난을 열의 행 변수. 각 포인트는 k 클래스 또는 그룹 중 하나에 속합니다 . 점 x i 는 클래스 번호 g ( i )에 속합니다 .
하자 될 N × K를 다음과 같이 표시 매트릭스 인코딩 그룹 구성원 : G의 난의 J = 1 의 경우 , X 나 클래스에 속하는 J 와 G의 난의 J = 0 그렇지. 있습니다 N J의 클래스에서 데이터 포인트 j는 ; 물론 ∑ n j = n .
데이터가 중심에 있고 전체 평균이 0, 이라고 가정합니다 . 하자 μ j는 클래스의 평균 수 J .
총 산란 행렬 는 다음과 같이 정의 된 클래스 간 및 클래스 내 분산 매트릭스의 합으로 분해 될 수 있습니다. C bC=Cb+Cw 인지 확인할 수 있습니다. LDA는 최대 그룹 간 분산과 투영의 그룹 내 분산이 최소 인 판별 축을 검색합니다. 구체적으로는, 우선 판별 축은 단위 벡터이고,w최대화승⊤C의B승/(승⊤C가
가 최대 순위 라고 가정하면 , LDA 해답 W L D A 는 C - 1 w C b 의 고유 벡터 행렬입니다 (감소 순서로 고유 값 순서).
이것은 평범한 이야기였습니다. 이제 두 가지 중요한 관찰을하겠습니다.
먼저, 클래스 내 스 캐터 매트릭스는 총 스 캐터 매트릭스로 대체 될 수 있으며 (궁극적으로 최대화는 b / ( b + w ) 최대화와 동일하므로 ) C - 1 C b 는 동일한 고유 벡터.
둘째, 클래스 간 산란 행렬은 상기 정의 된 그룹 멤버쉽 행렬을 통해 표현 될 수있다. 실제로 는 그룹 합계의 행렬입니다. 그룹 평균 행렬을 구하려면 대각선에 n j 의 대각선 행렬을 곱해야합니다 . 그것은 주어진 것 G ⊤ G . 따라서, 그룹 수단의 행렬이다 ( G ⊤ G ) - 1 G ⊤ X ( sapienti 이 회귀 식을하다는 뜻 통지). 얻으려면 C를 b를 우리가 동일한 대각 행렬에 의해 가중치의 분산 행렬을 취할 필요가 얻어 C를 B에 모든 경우에 , N의 J는 동일하고 동일한 m ( "균형 세트"),이 식을 단순화 X ⊤ G G ⊤ X / m .
정규화 된 지표 행렬 를 1 / √ G가갖는1. 이어서 모두 평형 및 불평형 데이터 세트에 대한 상기 표현은 단순히CB=X⊤ ~ G ~ G ⊤X. 참고 ~ G는 일정한 비율의 최대 인백색: 표시 매트릭스 ~ G =G(G⊤G)-1 / 2.
단순화를 위해 균형 잡힌 데이터 세트로 시작합니다.
의 선형 회귀 고려 에 X를 . B가 ” G - X B ” 2를 최소화 함을 발견 합니다. 감소 된 순위 회귀는 B 가 주어진 순위 p 의 제약 조건 하에서 동일하게 수행됩니다 . 그렇다면, B는 로 쓸 수 B = D F ⊤ 모두 D 및 F 를 갖는 페이지의 컬럼. 첫 번째 열을 유지하고 추가 열을 추가하여 순위 솔루션에서 순위 2 솔루션을 얻을 수 있음을 알 수 있습니다.
LDA와 선형 회귀 간의 연결을 설정하기 위해 는 W L D A 와 일치 함을 증명할 것입니다 .
증거는 간단합니다. 주어진 들어 최적 F는 회귀를 통해 발견 될 수있다 : F ⊤ = ( D ⊤ X ⊤ X D ) - 1 D ⊤ X ⊤ G . 손실 함수에이를 연결해, 우리가 얻을 ‖ G - X D ( D ⊤ X ⊤ X D ) - 1 D ⊤ X ⊤ G ‖ 2 , ID를 사용하여 추적으로 기록 될 수있다
유사하게 릿지 정규화를 감소 된 순위 회귀에 추가하는 것은 정규화 된 LDA와 동등하다는 것을 보여줄 수있다.
위에 제시된 것에 대해 누가 크레딧을받을 자격이 있는지 말하기는 어렵습니다.
Cai 등의 최근 회의 논문이 있습니다. (2013) 위와 정확히 동일한 증거를 제시하지만이 접근법을 발명했다는 인상을주는 저 순위 회귀 및 선형 판별 분석 기반 회귀의 동등성에 대해. 이것은 사실이 아닙니다. 토레는 다변량 방법 선형 공통의 대부분이 감소 순위 회귀로 볼 수있는 방법에 대한 자세한 치료를 쓴 참조 최소 - 사각형 성분 분석을위한 프레임 워크 , 2009 년 및 이후의 책 장 구성 요소 분석 방법의 통일을 , 2013; 그는 같은 주장을 제시하지만 어떤 언급도하지 않았다. 이 자료는 교과서 현대 다변량 통계 기법 에서도 다룹니다. 1975 년에 RRR을 다시 도입 한 Izenman의 (2008).
LDA와 CCA의 관계는 1938 년 Bartlett으로 되돌아갑니다. 다중 회귀 이론의 다른 측면은 제가 자주 접하게되는 참조입니다 (그러나 확인하지는 못했습니다). CCA와 RRR의 관계는 Ivariman, 1975, 다변량 선형 모델의 감소 된 순위 회귀에 설명되어 있습니다 . 따라서 이러한 모든 아이디어는 한동안 존재했습니다.
선형 회귀 및 선형 판별 분석은 매우 다릅니다. 선형 회귀는 종속 변수를 일련의 독립 예측 변수와 관련시킵니다. 아이디어는 데이터에 가장 적합한 매개 변수에서 선형 함수를 찾는 것입니다. 공변량에서 선형 일 필요조차 없습니다. 반면에 선형 판별 분석은 객체를 범주로 분류하는 절차입니다. 2 클래스 문제의 경우 그룹을 두 범주로 나눌 수있는 최상의 분리 초평면을 찾으려고합니다. 여기서 가장 좋은 것은 오차율의 선형 조합 인 손실 함수를 최소화한다는 것을 의미합니다. 세 개 이상의 그룹의 경우 최상의 초평면 세트 (k 클래스 문제의 경우 k-1)를 찾습니다. 판별 분석에서 차 상면은 피처 변수에서 선형입니다.
이 둘의 주요한 유사점은 제목에서 선형이라는 용어입니다.