LDA 의사 결정 경계 계산 및 그래프


19

통계 학습의 요소 에서 결정 경계가있는 LDA (선형 판별 분석) 플롯을 보았습니다 .여기에 이미지 설명을 입력하십시오

데이터가 저 차원 부분 공간에 투영된다는 것을 이해합니다. 그러나 의사 결정 경계를 낮은 차원의 하위 공간 (위의 이미지의 검은 선과 같은)에 투영 할 수 있도록 원래 차원에서 결정 경계를 얻는 방법을 알고 싶습니다.

원래 (높은) 차원에서 의사 결정 경계를 계산하는 데 사용할 수있는 공식이 있습니까? 그렇다면이 공식에 어떤 입력이 필요합니까?


3
의사 결정 경계가 아닌 클래스 멤버쉽의 사후 확률을 고려할 때 더 유용 할 것입니다. 이것은 다항식 (다항식) 로지스틱 회귀를 사용하여 적은 가정을 사용하여 수행 할 수 있지만 LDA (전방 확률)를 사용하여 수행 할 수도 있습니다.
Frank Harrell

2
LDA 내에서 이러한 분류 경계는 알려진 영토 맵을 구성 합니다. SPSS로 작업하고 텍스트 형식이지만 플롯 합니다. 한 SPSS 설계자 에 따르면 실제 접근 방식으로 경계를 쉽게 찾을 수 있습니다.
ttnphns

3
(계속) 미세 그리드의 모든 점은 LDA로 분류 된 다음 점이 이웃으로 분류 된 경우 해당 점이 표시되지 않습니다. 따라서 "애매 모호함"과 같은 경계 만 남게됩니다. 인용 : they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category.
ttnphns

답변:


22

Hastie et al. 클래스 경계의 방정식을 계산하지 않고 생성되었습니다. 대신 주석에서 @ttnphns로 요약 된 알고리즘이 사용되었습니다 (110 페이지 4.3 섹션의 각주 2 참조).

이 그림과이 책의 많은 유사한 그림에 대해 철저한 컨투어링 방법으로 결정 경계를 계산합니다. 우리는 미세한 점 격자에서 결정 규칙을 계산 한 다음 윤곽 알고리즘을 사용하여 경계를 계산합니다.

그러나 LDA 클래스 경계의 방정식을 얻는 방법을 설명하겠습니다.

간단한 2D 예제부터 시작하겠습니다. 아이리스 데이터 셋 의 데이터는 다음과 같습니다 . 꽃잎 측정을 버리고 sepal 길이와 sepal 너비 만 고려합니다. 세 가지 클래스는 빨간색, 녹색 및 파란색으로 표시됩니다.

아이리스 데이터 셋

클래스 평균 (중심)을 . LDA는 모든 클래스가 클래스 내 공분산이 동일하다고 가정합니다. 데이터가 주어지면이 공유 공분산 행렬은 (여기서 합계는 모든 데이터 포인트에 걸쳐 있으며 각 클래스의 중심은 각 포인트에서 뺍니다.μ1,μ2,μ3W=i(xiμk)(xiμk)

각 클래스 쌍 (예 : 클래스 및 )마다 클래스 경계가 있습니다. 경계가 두 클래스 중심 사이의 중간 점을 통과해야합니다 . 중심 LDA 결과 중 하나는이 경계가 과 직교하는 직선이라는 것 입니다. 이 결과를 얻는 방법에는 여러 가지가 있으며, 그것이 문제의 일부가 아니 었음에도 불구하고 아래 부록에서 그 중 세 가지에 대해 간략히 설명하겠습니다.12(μ1+μ2)/2W1(μ1μ2)

위에 쓰여진 것은 이미 경계의 정확한 사양입니다. 표준 형식의 선 방정식을 원하면 계수 와 를 계산할 수 있으며 지저분한 공식으로 계산됩니다. 이것이 필요할 상황을 거의 상상할 수 없습니다.y=ax+bab

이제이 공식을 Iris 예제에 적용하겠습니다. 각 클래스 쌍에 대해 중간 점을 찾아 수직 인 선을 그립니다 .W1(μiμj)

홍채 데이터 세트의 LDA, 결정 경계

예상했던대로 3 개의 선이 한 점에서 교차합니다. 결정 경계는 교차점에서 시작하는 광선으로 제공됩니다.

아이리스 데이터 세트의 LDA, 최종 결정 경계

클래스의 수가 이면 쌍의 클래스와 많은 행 이 생겨 엉킨 혼란에 빠집니다. Hastie 등의 멋진 그림을 그리려면 필요한 세그먼트 만 유지하면되며 별도의 알고리즘 문제입니다 (LDA와 관련이 없음). 점을 분류하려면 각 클래스까지의 Mahalanobis 거리를 확인하고 가장 낮은 거리를 선택하거나 시리즈 또는 쌍 LDA를 사용하십시오.K2K(K1)/2

에서 차원 화학식 체류 똑같은 : 경계 직교 및 통과 . 그러나 더 높은 차원에서 이것은 더 이상 선이 아니라 차원 의 초평면입니다 . 설명을 위해 데이터 세트를 처음 두 판별 축에 간단히 투영하여 문제를 2D 사례로 줄일 수 있습니다.D>2W1(μ1μ2)(μ1+μ2)/2D1

부록

경계가 직교하는 직선인지 확인하는 방법 ? 이 결과를 얻을 수있는 몇 가지 방법이 있습니다.W1(μ1μ2)

  1. 멋진 방법 : 은 비행기에서 Mahalanobis 메트릭을 유도합니다. 이 지표 QED에서 경계는 에 직교해야 합니다.W1μ1μ2

  2. 표준 가우시안 방식 : 두 클래스가 가우시안 분포로 설명되면 점이 클래스에 속하는 로그 가능성 은 입니다. 경계에서 클래스 과 에 속할 가능성 은 동일합니다. 적어두고 단순화하면 즉시 . QED.xk(xμk)W1(xμk)12xW1(μ1μ2)=const

  3. 힘들지만 직관적 인 방법. 가 항등 행렬, 즉 모든 클래스가 구형 이라고 상상해보십시오 . 그러면 해결책은 명백합니다. 경계는 단순히 직교합니다 . 클래스가 구형이 아닌 경우 구체화하여 클래스를 만들 수 있습니다. 의 고유 분해 가 인 경우 행렬 은 트릭을 수행합니다 (예를 들어 here 참조 ). 따라서 적용한 후 경계는 직교합니다 . 이 경계를 잡으면Wμ1μ2WW=UDUS=D1/2USS(μ1μ2)S1 무엇을 지금 (연습으로 왼쪽) 대답에 직교 요청입니다 님의 . 에 대한 표현식을 연결 하면 QED를 얻습니다.SS(μ1μ2)S


나는 당신의 대답을 공부하지 않았습니다. 정교 해 보이고 정확할 수 있습니다. 내가 주석에서 설명한 실용적이고 쉬운 "고정 점, 분류, 경계 도출"접근 방식은 무엇입니까? 귀하의 접근 방식이 결과와 비교할 수 있습니까? 어떻게 생각해?
ttnphns

1
@ttnphns : 내 대답의 유일한 기술 부분 (3 개의 항목이있는 번호가 매겨진 목록)은 몇 가지 증거를 제공하며 안전하게 건너 뛸 수 있습니다. 나머지는 특별히 정교하지 않다고 생각합니다! 어쩌면 부록으로 "추가"부분을 아래로 내려야할까요? 귀하의 의견에 관해서 : 나는 이것이 유효한 접근법이라고 생각하며 SPSS "영토지도"의 ASCII 모양을 좋아합니다. 어쩌면 의견을 별도의 답변으로 옮길 수도 있고 (SPSS 맵의 예시 사진을 제공 할 수도 있음) 나중에 참조 할 때 도움이 될 것이라고 생각합니다. 결과는 물론 동일해야합니다.
amoeba는 Reinstate Monica

@ttnphns : Hastie et al. 여기에 설명 된 방법을 사용하여 OP에서 재현 된 것을 포함하여 그림을 그립니다. 나는 정확히 그 말을 한 각주를 발견했으며 처음에 답을 인용하여 대답을 업데이트했습니다.
amoeba는

와우! 탁월한 답변 (3 년 후!)이 특정 문제에서 어떻게 세그먼트를 그려야하는지 물어볼 수 있습니까?
Xavier Bourret Sicotte
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.