MANOVA는 LDA와 어떤 관련이 있습니까?

여러 곳에서 MANOVA는 ANOVA + 선형 판별 분석 (LDA)과 같다는 주장을 보았지만 항상 수동적 인 방식으로 이루어졌습니다. 나는 그것이 정확히 무엇 을 의미 하는지 알고 싶습니다 .

나는 MANOVA 계산의 모든 세부 사항을 설명하는 다양한 교과서를 찾았지만 통계가 아닌 사람이 접근 할 수 있는 좋은 일반적인 토론 ( 그림 만 제외) 을 찾기가 매우 어려워 보입니다 .

anova discriminant-analysis manova

LDA 상대 ANOVA 및 MANOVA의 내 자신의 로컬 계정은 이 , 이 . 그들은 손을 흔드는 것일 수도 있지만 어느 정도 주제를 다루고 있습니다. "LDA는 MANOVA가 잠재 구조에 잠겼습니다." MANOVA는 매우 풍부한 가설 검증 기능입니다. 무엇보다도 차이점의 잠재 구조를 분석 할 수 있습니다. 이 분석에는 LDA가 포함됩니다.

— ttnphns 2012 년

@ttnphns, 내 이전 의견이 전달되지 않아서 두려워합니다 (사용자 이름을 잊어 버렸습니다). 반복하겠습니다. 와우, 감사합니다. 귀하의 링크 된 답변은 내 질문과 매우 관련이있는 것 같습니다. 게시하기 전에 내 검색에서. 그것들을 소화하는 데 약간의 시간이 걸리고 그 후에 다시 당신에게 올지도 모르지만, 아마도 당신은 이미이 주제를 다루는 몇 가지 논문 / 책을 지적 할 수 있습니까? 나는 것이다 사랑 연결된 답변의 스타일이 물건에 대한 자세한 설명을 볼 수 있습니다.

— amoeba는 Reinstate Monica

하나의 오래된 클래식 계정 webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . BTW 나는 지금까지 그것을 읽지 않았습니다. 또 다른 관련 문서 dl.acm.org/citation.cfm?id=1890259 .

— ttnphns

@ttnphns : 감사합니다. 나는 내 질문에 스스로 답을 썼다. 기본적으로 LDA / MANOVA에 대한 훌륭한 링크 된 답변에 대한 그림과 구체적인 예를 제공했다. 나는 그들이 서로를 잘 보완한다고 생각합니다.

— amoeba는 Reinstate Monica

간단히 말해서

두 일방향 MANOVA 및 LDA 총 산란 행렬 분해 시작 클래스 내 분산 매트릭스로 사이 수준의 분산 행렬 되도록, . 이는 일원 분산 분석이 총 제곱합 를 클래스 내 및 클래스 간 제곱합으로 분해하는 방법과 완전히 유사합니다 . 분산 분석에서는 비율 이 계산되어 p- 값을 찾는 데 사용됩니다.이 비율이 클수록 p- 값이 작아집니다. MANOVA와 LDA는 유사한 다변량을 구성합니다. $\mathbf T$ $\mathbf W$ $\mathbf B$ $\mathbf T = \mathbf W + \mathbf B$ $T$ $T=B+W$ $B/W$ . $\mathbf W^{-1} \mathbf B$

여기에서 그들은 다릅니다. MANOVA의 유일한 목적은 모든 그룹의 평균이 동일한 지 테스트하는 것입니다. 이 귀무 가설은 크기가 와 유사해야 함을 의미합니다 . 따라서 MANOVA는 의 고유 분해를 수행 하고 고유 값 찾습니다 . 아이디어는 이제 널을 거부하기에 충분히 큰지 테스트하는 것입니다. 고유 값 전체 집합에서 스칼라 통계량을 형성하는 일반적인 방법은 네 가지 입니다. 한 가지 방법은 모든 고유 값의 합을 취하는 것입니다. 또 다른 방법은 최대 고유 값을 얻는 것입니다. 두 경우 모두 선택한 통계량이 충분히 크면 귀무 가설이 기각됩니다. $\mathbf B$ $\mathbf W$ $\mathbf W^{-1} \mathbf B$ $\lambda_i$ $\lambda_i$

반대로, LDA를 행한다는 eigendecomposition의 고유 벡터 (고유하지)에서와 보이는. 이 고유 벡터는 가변 공간의 방향을 정의하며 판별 축 이라고 합니다. 제 1 판별 축 상에 데이터의 투영은 최고 등급 분리 ( 로 측정 됨 )를 갖는다; 두 번째 것-두 번째로 높음; LDA가 차원 축소에 사용될 때, 데이터는 예를 들어 처음 두 축에 투영 될 수 있고, 나머지 축은 폐기된다. $\mathbf W^{-1} \mathbf B$ $B/W$

거의 동일한 근거를 다루는 다른 스레드에서 @ttnphns의 훌륭한 답변을 참조하십시오 .

예

종속 변수와 개의 관측치 그룹 (즉, 세 가지 수준을 가진 한 요인)을 가진 단방향 사례를 고려해 봅시다 . 잘 알려진 Fisher의 Iris 데이터 세트를 가져 와서 sepal length와 sepal width 만 고려합니다 (2 차원으로 만들기 위해). 산점도는 다음과 같습니다. $M=2$ $k=3$

피셔 아이리스 산포도

sepal length / width를 따로 따로 분산 분석을 시작할 수 있습니다. x와 y 축에 데이터 포인트가 수직 또는 수평으로 투영되고 3 개의 그룹이 동일한 평균을 갖는지 테스트하기 위해 일원 분산 분석이 수행된다고 상상해보십시오. 우리는 얻을 및 꽃받침 잎 길이, 및 및 꽃받침 폭. 좋아, 그래서 세 가지 그룹이 두 측정 값에서 어리석은 p- 값으로 크게 다르기 때문에 나의 예는 꽤 나쁘지만 어쨌든 그것을 고수 할 것입니다. $F_{2,147}=119$ $p=10^{-31}$ $F_{2,147}=49$ $p=10^{-17}$

이제 LDA를 수행하여 3 개의 군집을 최대한 분리하는 축을 찾을 수 있습니다. 상술 한 바와 같이, 우리는 전체 산란 행렬 계산 내의 급 산란 행렬 사이 급 산란 행렬 및 고유 벡터 찾을 . 동일한 산점도에 두 고유 벡터를 플로팅 할 수 있습니다. $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}=\mathbf{T}-\mathbf{W}$ $\mathbf{W}^{-1}\mathbf{B}$

피셔 아이리스 LDA

점선은 판별 축입니다. 임의의 길이로 플로팅했지만 축이 길수록 고유 값이 더 큰 고유 벡터 (4.1)와 짧은 고유 값이 더 작은 고유 벡터를 나타냅니다. 그것들은 직교는 아니지만 LDA의 수학은 이러한 축의 투영이 상관 관계가 없음을 보장합니다.

$F=305$ $p=10^{-53}$ $p=10^{-5}$

동일한 데이터에 대해 MANOVA를 실행하면 동일한 행렬을 계산합니다. $\mathbf{W}^{-1}\mathbf{B}$ $B/W$ $F=B/W \cdot (N-k)/(k-1) = 4.1\cdot 147/2 = 305$ $N=150$ $k=3$

$\lambda_1=4.1$ $\lambda_2=0.02$ $p=10^{-55}$

$F$ $(8,4)$

피셔 아이리스 LDA 수정

$p=10^{-55}$ $p=0.26$ $p=10^{-54}$ $\sim 5$ $p\approx0.05$ $p$

기계 학습과 통계로서의 MANOVA vs LDA

이것은 이제 다른 기계 학습 커뮤니티와 통계 커뮤니티가 같은 것에 어떻게 접근하는지에 대한 모범 사례 중 하나 인 것 같습니다. 기계 학습에 대한 모든 교과서는 LDA를 다루고 멋진 그림 등을 보여 주지만 MANOVA (예 : Bishop , Hastie 및 Murphy )는 언급 하지 않습니다 . 아마도 LDA 분류 정확도 (효과 크기에 거의 해당)에 더 관심이 있고 그룹 차이의 통계적 중요성 에 관심이 없기 때문일 수 있습니다. 반면, 다변량 분석에 관한 교과서는 MANOVA ad nauseam에 대해 논의하고, 많은 표 형식의 데이터를 제공하지만 (arrrgh) LDA에 대해서는 거의 언급하지 않으며, 어떤 도표 (예 :앤더슨 , 또는 해리스 ; 그러나 Rencher & Christensen 과 Huberty & Olejnik 은 "MANOVA and Discriminant Analysis"라고도합니다.

요인 MANOVA

팩토리얼 MANOVA는 훨씬 더 혼란 스럽지만 "팩토리 LDA"가 실제로 존재하지 않고 팩토리얼 MANOVA가 "일반적인 LDA"와 직접적으로 일치하지 않는다는 점에서 LDA와 다르기 때문에 고려해야 할 것이 흥미 롭습니다.

$3\cdot 2=6$

계승 MANOVA

이 그림에서 6 개의 "셀"(또한 "그룹"또는 "클래스"라고도 함)은 잘 분리되어 있으며 실제로는 거의 발생하지 않습니다. 여기에 두 가지 요소의 주요한 영향과 중요한 상호 작용 효과가 있음을 분명히 알 수 있습니다 (오른쪽 상단 그룹이 오른쪽으로 이동하기 때문에 "그리드"위치로 이동하면 상호 작용 효과).

이 경우 MANOVA 계산은 어떻게 작동합니까?

$\mathbf W$ $\mathbf B_A$ $\mathbf B_A$ $\mathbf W^{-1} \mathbf B_A$

요인 B의 경우, 다른 클래스 간 산란 행렬 $\mathbf B_B$ $\mathbf B_{AB}$

티 = 비_{ㅏ} + 비_{비} + 비_{ㅏ 비} + 여 .

$\mathbf T = \mathbf B_A + \mathbf B_B + \mathbf B_{AB} + \mathbf W.$ $\mathbf B$ 요인들이 더 이상 직교하지 않기 때문에 세 요인 기여의 합으로 유일하게 분해 될 수 없다. 이것은 분산 분석에서 유형 I / II / III SS에 대한 논의와 유사합니다.]

$\mathbf B_A$ $\mathbf W_A=\mathbf T - \mathbf B_A$

$\mathbf W^{-1} \mathbf B_A$

— 아메바의 말에 따르면 복원 모니카
소스

+1, 그것은 좋은 설명이었습니다. 로 변경 B^-1 W했습니다 W^-1 B. 축으로 판별자를 사용한 그림은 내 자신의 음모 와 비슷합니다 . "정규화 된 고유 벡터에 따라 동일한 직교 회전"방식을 사용했다고 생각합니다.

— ttnphns

나는 약간 흐릿한 것을 발견했다

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive

. 물론 MANOVA는 LDA를 수행하는 것에 대해 알지 못합니다. MANOVA는 2 차원 테스트이기 때문에 단순히 ANOVA보다 더 많은 df를 소비하므로 p- 값의 검정력이 -55 대신 -54가되어야합니다.

— ttnphns

나는 p- 값으로 말해야한다고 의심합니다. 대신 MANOVA W^-1 B가 LDA 와 동일한 매트릭스 를 분석하는 핵심 요점입니다 . LDA는 잠복 변수 (결정 변수)를 구성합니다. MANOVA는 그렇지 않습니다. 그러나 위의 매트릭스를보다 포괄적으로 조사하여 다양한 통계 (예 : Pillai 추적, Hotteling 추적)를 계산하여이를 기반으로 테스트합니다.

— ttnphns

LDA (두 번째 그림)와 대조적으로 MANOVA의 은유가 될 줄거리는 (그리고 당신이 당신의 답변에 그것을 추가하고 싶을 것이라고 생각합니다.) 두 번째 중심이 3 개의 중심이 점선으로 연결된 큰 중심이 될 것입니다. .

— ttnphns

마지막으로, 통계와 기계 학습의 차이가 너무 중요하다고 생각하지 않습니다. machine learning처음으로 단어를 듣기 전에 통계 데이터 분석을 배웠습니다 . 그리고 내가 읽은 텍스트는 MANOVA와 함께 LDA에 대해 상당히 다루었습니다.

— ttnphns