선형 판별 분석 및 베이 즈 규칙 : 분류


12

선형 판별 분석과 베이 즈 규칙의 관계는 무엇입니까? 그룹 분산 내 및 그룹 분산 간 비율을 최소화하려고 시도하여 LDA가 분류에 사용된다는 것을 이해하지만 Bayes 규칙이 어떻게 사용되는지 알 수 없습니다.


그룹 간 변동 대 그룹 내 변동 비율을 최대화하기 위해 판별 함수가 추출됩니다. LDA의 두 번째 독립 단계 인 분류와는 아무런 관련이 없습니다.
ttnphns 2016 년

답변:


16

LDA의 분류는 다음과 같습니다 (Bayes의 규칙 접근법). [판별 기의 추출에 대해서는 여기를 참조하십시오 .]

베이 즈 정리에 따르면, 현재 점 를 관찰하면서 클래스 를 다루는 탐색 가능성 은 .x P ( k | x ) = P ( k ) * P ( x | k ) / P ( x )kxP(k|x)=P(k)P(x|k)/P(x)

(K)의 P ( X ) (X) P ( X | K ) X K KP(k) – 클래스 의 무조건 (배경) 확률 ; – 점 의 무조건 (배경) 확률 ; - 점의 존재 확률 클래스에서 , 클래스와 dealed되는 경우이다 .kP(x)xP(x|k)xkk

"현재 점 관찰 "은 기본 조건 이므로 분모를 생략 할 수 있습니다. 따라서 입니다.P ( x ) = 1 P ( k | x ) = P ( k ) P ( x | k )xP(x)=1P(k|x)=P(k)P(x|k)

X (K) P ( K ) P ( K ) P ( K | X ) X (K) P ( X | K )P(k) 는 대한 고유 클래스 가 있는 사전 (사전 분석) 확률입니다 . 는 사용자가 지정합니다. 일반적으로 모든 클래스는 기본적으로 동일한 = 1 / number_of_classes를받습니다. 계산하기 위해 에 대한 기본 클래스 있음을, 즉 사후 (사후 분석) 확률 IS , 하나는 알고 있어야 .xkP(k)P(k)P(k|x)xkP(x|k)

P ( x | k ) x k P D F ( x | k ) p pP(x|k)LDA의 주요 이슈 인 판별 변수의 경우 -확률 그 자체 는 찾을 수 없습니다. 이산 변수가 아닌 연속 변수입니다. 이 경우에 를 표현 하고 이에 비례하는 양은 확률 밀도 (PDF 함수)이다. 이로써 우리는 점에 대한 계산 PDF 필요 클래스의 , 로, 의 값에 의해 형성 차원 정규 분포 판별 식을. [위키 백과 다변량 정규 분포 참조]P(x|k)xkPDF(x|k)pp

PDF(x|k)=ed/2(2π)p/2|S|)

여기서 – 점 에서 클래스 중심 까지의 판별 공간에서 제곱 Mahalanobis 거리 [위키 백과 Mahalanobis 거리 참조] ; – 해당 클래스 내에서 관찰 된 판별 변수 사이의 공분산 행렬 .x SdxS

이 방법으로 각 클래스에 대해 를 계산하십시오 . 포인트 및 클래스 대한 위해 찾는 를 표현합니다. 그러나 위의 예약은 PDF 자체가 확률이 아니며 그에 비례하기 때문에 를 의 합으로 나누어 정규화해야합니다. 모든 수업에 걸쳐 있습니다. 예를 들어, 모든 3 개 개의 클래스가있는 경우 , , 다음,P ( k ) * P D F ( x | k ) x k P ( k ) * P ( x | k ) P ( k ) * P D F ( x | k ) P ( k ) P D F ( x | k ) kPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k)P(k)PDF(x|k)P(k)PDF(x|k)kmlm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

포인트 는 LDA에 의해 가 가장 높은 클래스에 할당됩니다 .xP(k|x)

노트. 이것이 일반적인 접근 방식이었습니다. 많은 LDA 프로그램은 기본적으로 위의 PDF 수식의 모든 클래스에 대해 풀링 된 클래스 내 매트릭스 를 사용합니다. 그렇다면, 이러한 이유로 인해 크게 화학식 단순화 LDA에이 항등 행렬이된다 (아래 각주 참조 여기 ), 따라서 및 제곱 유클리드 거리 (리마인더로 변한다는 다음에서 급 풀링 우리가 이야기하는 는 입력 변수 사이가 아니라 판별 변수 사이의 공분산입니다.이 변수는 일반적으로 로 지정됩니다 ).SS|S|=1dSSw

추가 . 위의 베이 즈 규칙 이 LDA에 도입 되기 전에 LDA의 개척자 인 Fisher는 LDA 에서 포인트를 분류하기 위해 현재 소위 Fisher의 선형 분류 함수 를 계산할 것을 제안 했습니다. 점 에 대해 클래스 에 속하는 함수 점수 는 선형 조합 . 여기서 는 분석의 예측 변수입니다.xkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp

계수 ( 는 클래스 수, 는 풀링 된 클래스 내 분산 형의 요소 임) 변수의 행렬 .bkv=(ng)wpsvwV¯kwgsvwp V

Constk=log(P(k))(vpbkvV¯kv)/2 .

점수 는 점수가 가장 높은 수업에 배정됩니다. (우회이 피셔 방법에 의해 얻어진 분류 결과 추출 '에만 방법 판별 식의 컴플렉스 eigendecomposition 종사)은 베이 즈에 의해 수득 된 것과 동일 풀링 판별 식에 기초하여 메소드 내 수준 공분산 매트릭스는 베이 즈로 사용되는 "("주 "참조 위)와 모든 판별자가 분류에 사용되고 있습니다. Bayes의 방법은 별도 의 클래스 내 행렬도 사용할 수 있기 때문에 더 일반적 입니다.x


이것이 베이지안 접근 방식입니까? 이것에 대한 Fisher의 접근 방식은 무엇입니까?
zca0

1
귀하의 요청에 따라 답변에 추가
ttnphns

Bayes와 Fisher의 LDA 접근 방식을 구분하여 +1 내가 LDA의 새로운 활발 해요, 그리고 책은 내가, 분류 베이 즈 '접근 방식에서 가르쳐 날의 LDA 읽을 클래스에 가장 높은과 나는 모든 계산해야하므로 각 클래스 에 대해 맞습니까? Fisher의 접근 방식으로 판별 자와 해당 코프를 파악해야하며 각 클래스의 사후를 계산할 필요가 없습니다. K p ( K | X ) p ( K | X ) KXKp(K|X)p(K|X)K
아보카도

베이 즈의 접근 방식이 더 이해하기 쉬우 며 왜 Fisher의 접근 방식을 사용해야합니까?
아보카도

우리는 필요하지 않습니다. 역사적 문제에 대해서만.
ttnphns

1

두 가지 클래스 문제에서 두 가지 오류 유형에 대해 동일한 가중치를 가정하십시오. 두 클래스에 분류 변수의 다변량 클래스 조건부 밀도가 있다고 가정하십시오. 그런 모든 관측 벡터에 대한 및 조건절 밀도 과 베이 즈 룰 것 분류 그룹 1의 경우에 속하는 것으로 및 2 급 달리. 베이 즈 규칙은 및 경우 선형 판별 분류기로f 1 ( x ) f 2 ( x ) x f 1 ( x ) f 2 ( x ) f 1 f 2xf1(x)f2(x)xf1(x)f2(x)f1f2공분산 행렬이 동일한 다변량 정규 밀도입니다. 물론 평균 벡터를 유용하게 식별 할 수 있으려면 평균 벡터가 달라야합니다. 이에 대한 훌륭한 프레젠테이션은 Duda and Hart 패턴 분류 및 장면 분석 1973 에서 볼 수 있습니다 (이 책은 최근에 개정되었지만 특히 원판의 프레젠테이션을 좋아합니다).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.