선형, 2 차 및 피셔의 판별 분석에 대한 출처의 의견 불일치


10

판별 분석을 공부하고 있지만 여러 가지 다른 설명을 조정하는 데 어려움을 겪고 있습니다. 나는 전에 (이것으로 보이는) 수준의 불일치에 직면 한 적이 없기 때문에 뭔가 빠진 것이 틀림 없다고 생각합니다. 그러나이 웹 사이트의 판별 분석에 대한 질문의 수는 그 복잡성을 입증하는 것으로 보입니다.

여러 클래스의 LDA 및 QDA

저의 주요 교과서는 Johnson & Wichern Applied Multivariate Statistical Analysis (AMSA)와이를 바탕으로 한 선생님의 메모입니다. 이 설정에서 단순화 된 수식이 적어도 혼란을 유발한다고 생각하기 때문에 두 그룹 설정을 무시합니다. 이 소스에 따르면 LDA와 QDA는 예상되는 오 분류 비용 (ECM)을 기준으로 분류 규칙의 매개 변수 (다변량 정규성 가정) 확장으로 정의됩니다. ECM은 새로운 관측 값 x를 모든 그룹으로 분류하기위한 조건부 예상 비용을 합산하고 (오 분류 비용과 사전 확률 포함)이를 최소화하는 분류 영역을 선택합니다. 여기서

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
P(k|i)=P(classifying item as group k | item is group i)=Rkfi(x)dx , fi(x) 은 모집단 밀도이고, Rk 는 그룹 k의 관측 값 세트이며, c 는 비용이며 pi 는 사전 확률입니다. 그러면 내부 항이 가장 작은 그룹 또는 내부 항의 왼쪽 부분 pkfk(x) 가 가장 큰 그룹에 새로운 관측 값을 할당 할 수 있습니다

아마도이 분류 규칙은 "후부 확률을 최대화하는 규칙"(sic AMSA)과 동일하며, 내가 언급 한 Bayes의 접근 방식 만 가정 할 수 있습니다. 이 올바른지? ECM은 다른 곳에서 발생하는 것을 본 적이 없기 때문에 오래된 방법입니다.

정규 모집단의 경우이 규칙은 2 차 판별 점수로 단순화합니다. .

diQ(x)=12log(Σi)12(xμi)TΣi1(xμi)+log(pi)

이것은 동등한 것 통계 학습의 요소 들은 이차 판별으로 설명하지만, (ESL) 110 페이지 식 4.12 함수 보다는 점수 . 또한 다변량 밀도의 로그 비율을 통해 여기에 도달합니다 (4.9). 이것이 베이 즈 접근의 또 다른 이름입니까?

동일한 공분산을 가정하면 공식은 선형 판별 점수로 훨씬 더 단순 해 집니다.

di(x)=μiTΣ1x12μiTΣ1μi+log(pi)

이 공식은 첫 번째 용어가 반대 인 ESL (4.10)과 다릅니다 : . ESL 버전은 R의 통계 학습에 나열된 버전이기도합니다 . 더욱이, AMSA에 제시된 SAS 출력에서 ​​선형 판별 함수 는 상수 및 계수로 구성됩니다. 벡터 , ESL 버전과 일치하는 것 같습니다.xTΣ1μk0.5X¯jTCOV1X¯j+ln priorjCOV1X¯j

이 불일치의 원인은 무엇입니까?

판별 자와 피셔의 방법

참고 :이 질문이 너무 큰 것으로 간주되면이 섹션을 제거하고 새 질문을 열지 만 이전 섹션에서 작성됩니다. 텍스트의 벽에 대한 사과, 나는 그것을 약간 구조화하기 위해 최선을 다했지만,이 방법에 대한 나의 혼란이 다소 이상한 논리 점프로 이어질 것이라고 확신합니다.

AMSA 책은 여러 그룹에 대한 피셔 방법을 설명합니다. 그러나 ttnphns는 FDA가 단순히 두 그룹을 가진 LDA라는 것을 여러 지적했습니다 . 그렇다면이 멀티 클래스 FDA는 무엇입니까? 아마도 FDA는 여러 가지 의미를 가질 수 있습니까?

AMSA는 Fisher의 판별 의 비율을 최대화하는 의 고유 벡터로 설명 합니다. . 선형 조합 은 샘플 판별 는 ). 분류를 위해 대해 가장 작은 값을 가진 그룹 k를 선택합니다. 여기서 r은 사용하려는 판별 자의 수입니다. 모든 판별 변수를 사용하면이 규칙은 선형 판별 함수와 같습니다.W1Ba^TBa^a^TWa^e^ixmin(g1,p)j=1r[e^jT(xx¯k)]2

LDA에 대한 많은 설명 은 AMSA 책에서 FDA라고 불리는 방법론을 설명하는 것으로 보입니다. 즉, 가변성 측면 / 범위 내에서 시작합니다. BW 매트릭스의 분해가 아닌 경우 FDA는 무엇을 의미합니까?

교과서가 판별 분석의 차원 축소 측면을 언급 한 것은 이번이 처음이지만, 이 사이트의 여러 답변 은이 기술의 2 단계 특성을 강조하지만 1 개만 있기 때문에 두 그룹 설정에서는 명확하지 않습니다. 판별력. 멀티 클래스 LDA 및 QDA에 대한 위의 공식을 감안할 때, 판별 요소가 나타나는 위치는 여전히 명확하지 않습니다.

이 의견 은 베이 즈 분류가 원래 변수에 대해 본질적으로 수행 될 수 있음을 지적하면서 특히 혼란 스러웠습니다. 그러나 FDA와 LDA가이 책과 여기 에서 지적한 바와 같이 수학적으로 동등하다면 , 차원 축소가 함수에 내재되어 있지 않아야 하는가? 나는 이것이 마지막 링크가 해결하는 것이라고 믿지만 완전히 확신하지는 못한다.di

선생님의 강의 노트는 FDA가 본질적으로 정식 상관 분석의 한 형태라고 설명합니다. 나는 이 측면에 대해 이야기하는 다른 소스 를 1 개 찾았 지만 다시 한 번 사이와 가변 범위 내에서 분해하는 Fisher 접근법과 밀접한 관련이있는 것으로 보입니다. SAS는 피셔의 방법 ( https://stats.stackexchange.com/a/105116/62518 ) 과 관련이있는 LDA / QDA 절차 (DISCRIM)에 결과를 제시합니다 . 그러나 SAS의 FDA 옵션 (CANDISC)은 피셔의 분류 계수를 나타내지 않고 정식 상관 관계를 수행합니다. 그것은 lda (MASS)에 의해 얻은 R의 W-1B 고유 벡터와 동등한 것으로 생각되는 원시 표준 계수를 제시합니다 (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). 분류 계수는 LDA 및 QDA 섹션에 설명 된 판별 함수 (인구 당 하나의 함수가 있고 가장 큰 함수를 선택하기 때문에)에서 얻은 것으로 보입니다.

나는 나무를 통해 숲을 볼 수있게 해주는 출처에 대한 모든 설명이나 언급에 대해 감사하게 생각합니다. 혼동의 주된 원인은 다른 교과서가 다른 이름으로 방법을 호출하거나 다른 가능성을 인정하지 않고 수학의 약간의 변형을 제시하는 것으로 보입니다 .AMSA 서적의 나이를 고려할 때 놀라운 일은 아니지만 .


If we use all the discriminants this rule would be equivalent to the linear discriminant function불분명합니다. "식별"및 "식별 기능"은 동의어입니다. 모든 판별자를 사용하거나 가장 강력하거나 유의미한 몇 가지만 사용할 수 있습니다. 나는 AMSA 책을 보지 않았지만 저자들에게는 FDA = LDA라고 생각한다. 실제로 저는 개인적으로 "피셔 LDA"가 잉여의 불필요한 용어라고 생각합니다.
ttnphns 2016 년

LDA 분류에 대한 답변의 "추가" 에서 변수에서 직접 "피셔 선형 분류 함수"를 계산하는 Extract the discriminants -> classify by them all (using Bayes approach, as usual)것은 일반적으로 기본적으로 판별의 풀링 된 클래스 내 공분산 행렬이 분류에 사용되는 경우와 같습니다.
ttnphns

실제로 "Fisher의 선형 분류 함수"는 고유 분해 W^-1B를 수행 한 다음 "Bayes"를 수행 하지 않고 LDA를 수행하는 방법 입니다. 동등하지만 유연성떨어집니다 (분류의 소수만 선택할 수 없으며 분류 등의 공분산 행렬 내에서는 별도로 사용할 수 없습니다).
ttnphns

난 아직도 당신의 대답 링크 (감사합니다),하지만 소화하고 있습니다 : 1) 여기서 "판별 식"과 "판별 점수를"명확히 AMSA에서 발췌 한 것입니다을 i.imgur.com/7W7vc8u.jpg?1 나는 용어를 사용했습니다 "점수"와 "기능"이 서로 호환됩니다. 3) 같은 발췌문에서 AMSA 서적은 고유 분해가 Fisher의 판별자를 얻는 방법으로 언급하고 있음을 알 수 있습니다. 여기에 제시된 방식 Fisher의 방법은 선형 / 이차 법보다 융통성이있어 단 하나의 하드 판별 함수 / 점수 만 나타납니다.W1B
Zenit

제니트, 판별 점수는 (정규) 판별 함수의 값입니다. SPSS에서 표준 판별법을 계산하는 방법에 대해 내가 알고 있는 공식과 비교할 수는 없습니다 . 계산하고 결과를 비교하고 결론을 내리는 것이 좋습니다. 또한 다른 텍스트는 "Fisher 's"레이블을 다르게 적용 할 수 있습니다.
ttnphns

답변:


8

나는 질문의 한 측면만을 다루고 있으며 대수없이 직관적으로 수행하고 있습니다.

경우] 클래스가 동일한 분산 공분산 행렬이 상기 자신의 무게 중심의 이동 만 다른 차원 공간 그들은 완전히 선형 적 분리 가능한 "서브 스페이스". 이것이 LDA가하는 일입니다. 변수 의 공간에 세 개의 동일한 타원체가 있다고 가정하십시오 . 오류없이 클래스 멤버십을 예측하려면 모든 변수의 정보를 사용해야합니다. 그러나 이것들이 같은 크기와 방향의 구름이라는 사실 때문에, 단위 반경의 볼로의 일반적인 변형에 의해 구름의 크기를 재조정 할 수 있습니다. 그런 다음gpq=min(g1,p)V1,V2,V3q=g1=2독립적 인 차원은 클래스 멤버십을 예전처럼 정확하게 예측하기에 충분할 것입니다. 이러한 차원을 판별 함수 라고합니다 . 3 개의 동일한 크기의 볼이 있으면 2 개의 축선 만 있으면되고 모든 포인트를 올바르게 할당하기 위해 볼의 중심 좌표를 알아야합니다.D1,D2

여기에 이미지 설명을 입력하십시오

판별 변수는 상관 관계가없는 변수이며 클래스 내 공분산 행렬은 이상적으로 동일합니다 (공). 판별 변수는 원래 변수 공간의 하위 공간을 형성합니다. 이들은 선형 조합입니다. 그러나 회전과 같은 (PCA와 같은) 축은 아닙니다 . 원래 변수 공간에서 볼 수 있고, 축과 같은 판별 변수는 서로 직교하지 않습니다 .

따라서 분류에 사용하는 클래스 내 분산 공분산 LDA의 동질성을 가정 하면 기존의 모든 판별 변수를 원래 변수로 즉시 분류하는 것보다 나쁘지 않습니다. 그러나 모든 판별자를 사용할 필요는 없습니다. 가장 강력하고 통계적으로 중요한 만 사용할 수 있습니다 . 이렇게하면 분류에 필요한 최소한의 정보를 잃어 버리고 분류 오류가 최소화됩니다. 이러한 관점에서 볼 때 LDA는 PCA와 유사한 데이터 축소이며 감독 만 가능합니다.m<q

동질성 (+ 다변량 정규성)을 가정하고 분류에서 모든 판별자를 사용할 계획이라면, 고유 한 고유 문제가 포함 된 판별 자 자체 의 추출 을 우회하고 소위 "피셔 분류 함수"를 계산할 수 있습니다. 위하여 직접 변수의 분류 등가 결과. 따라서 클래스의 모양이 동일 할 때 입력 변수 또는 Fisher의 함수 또는 판별자를 모든 동등한 "분류기"세트로 간주 할 수 있습니다. 그러나 많은 점에서 판별자가 더 편리합니다. gpgq1

일반적으로 클래스는 실제로 "동일한 타원"이 아니기 때문에 판별 변수에 의한 분류는 모든 원래 변수에 의해 베이 즈 분류를 수행하는 경우보다 다소 나쁩니다 . 예를 들어, 이 그림 에서 두 타원체는 서로 평행하지 않습니다. 그리고 하나의 기존 판별자가 두 변수가 허용하는 한 정확하게 포인트를 분류하기에 충분하지 않다는 것을 시각적으로 파악할 수 있습니다. QDA (quadratic discriminant analysis)는 LDA보다 한 단계 더 나은 근사치입니다. LDA와 QDA 사이의 실제적인 접근 절반 방법은 LDA-판별 식을 사용하지만 분류에서 자신의 관찰 별도의 클래스 공분산 행렬을 사용하는 것입니다 ( 참조 , 참조qp)를 풀링 된 행렬 (즉, ID) 대신

(자세히, MANOVA와 정식 상관 관계 분석 또는 감소 된 순위 다변량 회귀 심지어 특정 케이스에 관련된으로 그리고 네, LDA 볼 수 있습니다 - 참조 , 참조 , 참조 .)


1 중요한 용어입니다. 다음은 몇 가지 텍스트에서 혼동있다 피셔 분류 기능 "피셔의 판별 함수"를 호출 할 수 있으며, 이다 discriminats 정규 의 eigendecomposition 얻어진 판별 함수 (즉,gqW1B). 명확하게하기 위해, 나는 "피셔 분류 함수"대 "정규 판별 함수"(= 판별 변수)를 말하는 것이 좋습니다. 현대의 이해에서 LDA는 표준 선형 판별 분석입니다. "피셔의 판별 분석"은 적어도 2 가지 클래스를 가진 LDA (단일 정식 판별자가 Fisher의 분류 함수와 필연적으로 동일한 것임) 또는 다중 클래스 설정에서 Fisher 분류 함수의 계산 중 하나입니다.


용어 : LDA에 대한 Wikipedia 기사 ( en.wikipedia.org/wiki/Linear_discriminant_analysis )는 "Fisher의 선형 판별 자와 LDA라는 용어는 종종 서로 바꿔서 사용되지만, Fisher의 원래 기사 [1]는 실제로 약간 다른 판별자를 설명합니다. "정규 분포 된 클래스 또는 같은 클래스 공분산과 같은 LDA의 가정을 만들지 않습니다." 이를 바탕으로 그룹 공분산이 "동일한"경우 2 개의 클래스에 대한 LDA는 "FDA"의 특별한 경우 인 것 같습니다. @ttnphns : 이것이 맞습니까?
Laryx Decidua

@LaryxDecidua, 나는이 경우 용어에 대해 100 % 확신하지 못하며 다른 의견을 보았습니다. 나는 "피셔의 DA"라는 용어를 전혀 사용하지 않습니다. 그러나 사람들이 물을 때, 나는 "FDA는 2 개의 클래스를 가진 LDA입니다"라고 대답합니다.
ttnphns

고마워, 가장 흥미로운 측면은 Wikipedia에 따르면 "FDA" 는 정규성을 가정 하지 않고 "LDA"(및 QDA)는 그렇지 않다는 것이다. 아마도 "FDA는 정규성 또는 동성애를 가정하지 않는 2 개의 등급을 가진 LDA"일 것이다.
Laryx Decidua
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.