선형 판별 분석에 대한 베이지안 및 피셔의 접근 방식


10

LDA를 수행하는 두 가지 접근 방식, 베이지안 접근 방법피셔 접근 방법을 알고 있습니다.

데이터 가 있다고 가정합니다 . 여기서 는 차원 예측 변수이고 는 클래스 의 종속 변수입니다 .(x,y)xpyK

하여 베이지안 접근 , 우리는 후방 계산 , 그리고 책에서 가 Gaussian 이라고 가정 하면 번째 클래스에 대한 판별 함수는 이제 , 가 선형임을 알 수 있습니다 함수 이므로 모든 클래스에 대해 선형 판별 함수가 있습니다.

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
p(x|yk)k
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
fk(x)xKK

그러나하여 피셔 방법 , 우리는 프로젝트하려고 로 새로운 기능이 최소화 추출 차원 공간 내 수준 변화 및 극대화 간의 수준 차이를하자 투영 매트릭스라고 각 열에 투영되고 함께 방향. 이 방법은 치수 축소 기술 과 비슷합니다 .x(K1)W

내 질문은

(1) 베이지안 접근 방식을 사용하여 차원 축소를 수행 할 수 있습니까? 우리는 베이지안 접근법을 사용하여 새로운 가장 큰 값을 제공 하는 판별 함수 를 찾아 분류를 수행 할 수 있지만,이 판별 함수 를 사용하여 를 더 낮은 차원의 부분 공간 으로 투영 할 수 있습니다 ? Fisher의 접근 방식 과 동일 합니다.fk(x)xfk(x)x

(2) 두 방법이 서로 어떻게 관련되어 있습니까? 하나는 값으로 분류 할 수있는 것처럼 보이고 다른 하나는 주로 치수 축소를 목표로 하기 때문에 그들 사이에는 아무런 관계가 없습니다 .fk(x)

최신 정보

ESL 책에 따르면 @amoeba 덕분에 나는 이것을 발견했다. 여기에 이미지 설명을 입력하십시오

이것은 베이 즈 정리를 통해 도출 된 선형 판별 함수이며 모든 공분산 행렬 갖는 모든 클래스를 가정합니다 . 그리고이 판별 함수는 위에서 쓴 와 같은 SAME 입니다.Σfk(x)

내가 사용할 수 투사되는 방향으로 치수 감소를 수행하기 위해? 확실하지 않습니다. AFAIK 이후, 군간 편차 분석을 통해 치수 축소를 달성 할 수 있습니다.Σ1μkx

다시 업데이트

섹션 4.3.3에서 이러한 예측이 도출 된 방식입니다.

여기에 이미지 설명을 입력하십시오

물론 클래스 간 공유 공분산을 가정합니다. 즉, 공분산 행렬 (클래스 내 공분산의 경우)입니다W . 내 문제는 데이터 에서이 를 어떻게 계산 합니까? 데이터에서 를 계산하려고하면 개의 클래스 내 공분산 행렬 이 있기 때문에 . 그래서 내가해야합니까 공통의 하나를 얻기 위해 함께 모든 클래스의 공분산을?WKW


1
당신은 질문이 두 가지를 혼합합니다. 이전 질문에 대한 대화를 요약하지 않은 것 같습니다 . 가장 먼저 설명하는 것은 분류에 대한 베이지안 접근 방식입니다 ( "Basian 접근 방식은 LDA"가 아님). 이 접근 방식은 (1) 분류 기준으로 원래 변수를 사용하거나 (2) 분류 기준으로 LDA에서 얻은 판별 변수를 사용하여 사용할 수 있습니다. 그러면 Fisher의 접근 방식은 무엇입니까?
ttnphns

1
(계속) 음, "Fisher 's LDA" 는 단순히 K = 2 인 LDA입니다. 이러한 LDA Fisher 내에서 분류를 수행 할 때 분류를 수행 할 자신의 공식을 발명했습니다. 이 공식 은 K> 2에서도 작동합니다. 베이 즈 접근 방식이 더 일반적이기 때문에 그의 분류 방법은 오늘날 거의 사용되지 않습니다.
ttnphns

1
@ttnphns, 내가 혼란스러워하는 이유는 내가 Bayesian 접근법을 사용하여 LDA에 대해 이야기하는 거의 모든 책이 LDA를 생성 모델로 강의하기 때문에 그룹 간 차이와 그룹 vairance 내에서의 비율을 언급하지 않습니다. .
avocado

1
@loganecolss : 아래에서 내 대답을 보셨습니까? 그것에 대해 질문이 있습니까? 나는 당신이 지금 의견에서 다시 요구하는 것을 설명했다고 생각하기 때문에 약간 혼란 스럽습니다. "분 산간"접근법은 동일한 공분산을 가정하여 수학적으로 "베이지안 접근법"과 동일합니다. 원한다면 이것을 놀라운 수학적 정리로 생각할 수 있습니다. 증명은 온라인으로 무료로 제공되는 Hastie의 책과 다른 기계 학습 교과서에서도 제공됩니다. "LDA를 수행하는 유일한 방법"이 무엇을 의미하는지 잘 모르겠습니다. 이 두 가지 동일한 방법.
amoeba

1
@loganecolss : 믿습니다. 그것들은 동등합니다 :) 그렇습니다. 예상을 도출 할 수 있어야하지만 (내 대답에 쓴 것처럼) 동일한 공분산 행렬에 대한 추가 가정이 필요합니다. 아래 내 의견을 참조하십시오.
amoeba

답변:


11

나는 짧은 비공식적 인 답변을 제공 하고 자세한 내용 은 통계 학습의 4.3 단원을 참조 하십시오.

업데이트 : "요소는"훌륭한 세부 사항에 커버 일어날 정확하게 당신이 당신의 업데이트에 쓴 포함하여 여기에 요구하는 질문. 관련 섹션은 4.3이며, 특히 4.3.2-4.3.3입니다.

(2) 두 방법이 서로 어떻게 관련되어 있습니까?

확실히 그렇습니다. "Bayesian"접근 방식은보다 일반적이며 각 클래스에 대한 가우시안 분포 만 가정합니다. 가능성 함수는 기본적으로 에서 각 클래스의 중심 까지의 Mahalanobis 거리입니다 .x

물론 각 클래스마다 의 선형 함수라는 것이 맞습니다 . 그러나 두 개의 다른 클래스에 대한 가능성의 비율 (실제 분류를 수행하기 위해 사용할 것, 즉 클래스 중에서 선택)- 다른 클래스가 다른 경우이 비율은 에서 선형이 아닙니다. 공분산 행렬. 실제로 클래스 사이의 경계를 해결하면 2 차로 밝혀 지므로 2 차 판별 분석 (QDA) 이라고도 합니다.xx

중요한 통찰력 하나는 모든 클래스가 동일한 공분산 있다고 가정하면 방정식은 상당히 단순화이다 [ 업데이트 : 당신이 모두 함께 그것을 가정하는 경우, 이것은 오해의 일부가되었을 수 있습니다] . 이 경우 의사 결정 경계가 선형이되므로이 절차를 선형 판별 분석 (LDA)이라고합니다.

이 경우 수식이 실제로 Fisher가 자신의 접근 방식을 사용하여 수행 한 것과 정확히 일치 함을 알기 위해서는 대수적 조작이 필요합니다. 이것을 수학적 정리로 생각하십시오. 모든 수학에 대한 Hastie의 교과서를 참조하십시오.

(1) 베이지안 접근 방식을 사용하여 차원 축소를 수행 할 수 있습니까?

"Bayesian approach"가 각 클래스에서 서로 다른 공분산 행렬을 다루는 것을 의미한다면, 아닙니다. 적어도 내가 쓴 내용 때문에 LDA와 달리 선형 차원 축소는 아닙니다.

그러나 공유 공분산 행렬을 가정하면 "Bayesian 접근 방식"이 LDA와 동일하기 때문입니다. 그러나 Hastie 4.3.3을 확인하면 에서 올바른 투영이 제공되지 않는다는 것을 알 수 있습니다 (이것이 무엇을 의미하는지 이해조차하지 못합니다. , 그리고 일반적으로 투영은 모든 클래스의 모든 점을 동일한 저 차원 매니 폴드에 투영하는 방법입니다.) 그러나 먼저 , 여기서 은 클래스 centroids 의 공분산 행렬입니다 .Σ1μkkΣ1MMμk


1
+1. QDA stats.stackexchange.com/a/71571/3277을 언급 한 내 답변에 링크 할 수도 있습니다 .
ttnphns

내 질문을 다루는 부분에 +1 2). 군내 분산 분석 을 수행 하면 원래 변수 를 투영하고 이러한 판별 변수 를 얻는 가장 좋은 방법을 찾을 수 있다는 것을 알고 있습니다. 내가 지금 어려움을 겪고있는 것은 분산 내 비율을 참조하지 않고 베이지안을 사용하여 투영 방향을 찾을 수 있습니까? X
avocado

@loganecolss : 내가 말했듯이 모든 클래스가 동일한 공분산 행렬을 가지고 있다고 가정해야합니다! 그런 다음 베이지안 접근 방식 +이 가정으로 시작하여 표준 LDA 예측을 도출 할 수 있습니다. 아이디어는 를 대각선으로 입니다. 이것은 통계 학습의 요소, 섹션 4.3에 자세히 설명되어 있습니다. Σ
amoeba

나중에 그 부분을 읽을 것입니다. 당신이 말했듯이, 모든 클래스가 동일한 공분산 행렬을 가지고 있다고 가정하면, 나는 포스트 쓴 함수를 파생시킬 수 있습니다 . 그리고 참의 선형 함수이고 , 및 주석에 의하면, LDA 투영 매트릭스되어야 하는가? fk(x)fk(x)xΣ1μk
아보카도

섹션 4.3
avocado
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.