선형 판별 분석은 차원을 어떻게 줄입니까?


18

91 페이지의 "통계 학습의 요소"의 단어가 있습니다.

p- 차원 입력 공간의 K 중심은 대부분의 K-1 차원 부분 공간에 걸쳐 있으며, p가 K보다 훨씬 크면 이것은 차원이 상당히 떨어질 것입니다.

두 가지 질문이 있습니다.

  1. p- 차원 입력 공간의 K 중심이 대부분의 K-1 차원 부분 공간에 걸쳐있는 이유는 무엇입니까?
  2. K 중심은 어떻게 위치합니까?

이 책에는 설명이 없으며 관련 논문에서 답을 찾지 못했습니다.


3
무게 중심은 기껏 거짓말 차원 아핀 서브 스페이스. 예를 들어, 2 개의 점이 차원 부분 공간 인 선에 놓여 있습니다 . 이것은 단지 아핀 부분 공간과 일부 선형 선형 대수의 정의 일뿐입니다. 케이케이121
deinst

매우 비슷한 질문 : stats.stackexchange.com/q/169436/3277 .
ttnphns

답변:


16

판별은 클래스를 가장 강력하게 구분하는 축 및 잠재 변수입니다. 가능한 판별 수는 입니다. 예를 들어, p = 2 차원 공간에서 k = 3 클래스를 사용하면 아래 그래프와 같이 최대 2 개의 판별자가 존재할 수 있습니다. 변수는 상관이 없지만 판별은 원래 공간에 그려진 축과 직교 할 필요는 없습니다. 클래스의 중심은 판별에 대한 수직 좌표에 따라 판별 하위 공간 내에 위치합니다.미디엄나는(케이1,)

여기에 이미지 설명을 입력하십시오

추출 단계에서 LDA의 대수는 여기에 있습니다 .


멋진 그래프, 어떤 소프트웨어 / 패키지를 만들었습니까?
Michelle

SPSS. SPSS 용 자체 작성 매크로
ttnphns

이것은 축의 크기를 조정할 때까지 LDA에서 클래스가 겹치는 세 클래스가 잘 보이지 않는다는 것을 의미합니까? 내 말은, 나는 LDA를 운영하고 있으며, 수업은 분리되어 있지만 ... 첫 번째 축을 제외한 모든 차별 축에서 서로 맨 위에 있습니다 ... 그리고 그 중 하나는 엄청납니다.
donlan

14

"통계 학습의 요소"는 훌륭한 책이지만,이를 최대한 활용하려면 비교적 높은 수준의 지식이 필요합니다. 웹에는 책의 주제를 이해하는 데 도움이되는 다른 많은 자료가 있습니다.

2 차원 데이터 포인트 세트를 K = 2 그룹으로 그룹화하려는 선형 판별 분석의 매우 간단한 예를 살펴 보겠습니다. 치수 감소는 K-1 = 2-1 = 1 일뿐입니다. @deinst에서 설명한 것처럼 치수 감소는 기본 형상으로 설명 할 수 있습니다.

모든 치수의 두 점은 선으로 연결될 수 있으며 선은 1 차원입니다. 이것은 K-1 = 2-1 = 1 차원 부분 공간의 예입니다.

이제이 간단한 예에서 일련의 데이터 포인트는 2 차원 공간에 흩어져 있습니다. 점은 (x, y)로 표시되므로 예를 들어 (1,2), (2,1), (9,10), (13,13)과 같은 데이터 점이있을 수 있습니다. 이제 선형 판별 분석을 사용하여 두 그룹 A 및 B를 작성하면 특정 특성이 충족되도록 데이터 포인트가 그룹 A 또는 그룹 B에 속하는 것으로 분류됩니다. 선형 판별 분석은 그룹 내의 분산과 비교하여 그룹 간의 분산을 최대화하려고 시도합니다.

즉, 그룹 A와 B는 멀리 떨어져 있고 서로 가까운 데이터 포인트를 포함합니다. 이 간단한 예에서 포인트는 다음과 같이 그룹화됩니다. 그룹 A = {(1,2), (2,1)} 및 그룹 B = {(9,10), (13,13)}.

이제 중심은 데이터 포인트 그룹의 중심으로 계산됩니다.

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

중심은 단순히 2 포인트이며 1 차원 선에 걸쳐 결합되어 있습니다.

그림 1

선형 판별 분석을 두 그룹의 데이터 포인트가 "가능한 한 분리"되도록 한 라인의 데이터 포인트를 투영 한 것으로 생각할 수 있습니다.

3 개의 그룹이 있고 3 차원 데이터 포인트라고하면 3 차원, 3 포인트, 3D 공간의 3 포인트가 2 차원 평면을 정의하게됩니다. 다시 규칙 K-1 = 3-1 = 2 차원입니다.

내가 제공 한 간단한 소개를 설명하고 확장하는 데 도움이되는 자료를 웹에서 검색하는 것이 좋습니다. 예를 들어 http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf


1
우리 사이트, Martino에 오신 것을 환영합니다!
whuber

@ whuber, 멋진 그래프 덕분에, 나는 그런 도구를 가지고 있지 않았다 :(
martino

나는 당신이 어쨌든 이미지를 게시하는 것으로 유명하다고 생각하지 않았습니다. Martino : 이것이 제가 당신을 위해 만든 이유입니다. 그러나 지금 또는 조만간 충분한 담당자가 있습니다. 편리한 것이 없다면 R 또는 Geogebra 와 같은 기하 도형 기능을 갖춘 무료 소프트웨어를 사용할 수 있습니다 . (당신은 설명 된 답글이 더 주목을
받는다는

왜 공감해야합니까? 답변에 문제가 있다면 그것을 지적하는 것이 도움이 될 것입니다-나는 그것을 볼 수 없습니다
martino
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.