여러 곳에서 MANOVA는 ANOVA + 선형 판별 분석 (LDA)과 같다는 주장을 보았지만 항상 수동적 인 방식으로 이루어졌습니다. 나는 그것이 정확히 무엇 을 의미 하는지 알고 싶습니다 .
나는 MANOVA 계산의 모든 세부 사항을 설명하는 다양한 교과서를 찾았지만 통계가 아닌 사람이 접근 할 수 있는 좋은 일반적인 토론 ( 그림 만 제외) 을 찾기가 매우 어려워 보입니다 .
여러 곳에서 MANOVA는 ANOVA + 선형 판별 분석 (LDA)과 같다는 주장을 보았지만 항상 수동적 인 방식으로 이루어졌습니다. 나는 그것이 정확히 무엇 을 의미 하는지 알고 싶습니다 .
나는 MANOVA 계산의 모든 세부 사항을 설명하는 다양한 교과서를 찾았지만 통계가 아닌 사람이 접근 할 수 있는 좋은 일반적인 토론 ( 그림 만 제외) 을 찾기가 매우 어려워 보입니다 .
답변:
두 일방향 MANOVA 및 LDA 총 산란 행렬 분해 시작 클래스 내 분산 매트릭스로 (W) 사이 수준의 분산 행렬 B 되도록, T = W + B . 이는 일원 분산 분석이 총 제곱합 T 를 클래스 내 및 클래스 간 제곱합으로 T = B + W 분해하는 방법과 완전히 유사합니다 . 분산 분석에서는 B / W 비율 이 계산되어 p- 값을 찾는 데 사용됩니다.이 비율이 클수록 p- 값이 작아집니다. MANOVA와 LDA는 유사한 다변량을 구성합니다. W - 1 .
여기에서 그들은 다릅니다. MANOVA의 유일한 목적은 모든 그룹의 평균이 동일한 지 테스트하는 것입니다. 이 귀무 가설은 크기가 W 와 유사해야 함을 의미합니다 . 따라서 MANOVA는 W - 1 B 의 고유 분해를 수행 하고 고유 값 λ i를 찾습니다 . 아이디어는 이제 널을 거부하기에 충분히 큰지 테스트하는 것입니다. 고유 값 λ i 전체 집합에서 스칼라 통계량을 형성하는 일반적인 방법은 네 가지 입니다. 한 가지 방법은 모든 고유 값의 합을 취하는 것입니다. 또 다른 방법은 최대 고유 값을 얻는 것입니다. 두 경우 모두 선택한 통계량이 충분히 크면 귀무 가설이 기각됩니다.
반대로, LDA를 행한다는 eigendecomposition의 고유 벡터 (고유하지)에서와 보이는. 이 고유 벡터는 가변 공간의 방향을 정의하며 판별 축 이라고 합니다. 제 1 판별 축 상에 데이터의 투영은 최고 등급 분리 ( B / W 로 측정 됨 )를 갖는다; 두 번째 것-두 번째로 높음; LDA가 차원 축소에 사용될 때, 데이터는 예를 들어 처음 두 축에 투영 될 수 있고, 나머지 축은 폐기된다.
거의 동일한 근거를 다루는 다른 스레드에서 @ttnphns의 훌륭한 답변을 참조하십시오 .
종속 변수와 k = 3 개의 관측치 그룹 (즉, 세 가지 수준을 가진 한 요인)을 가진 단방향 사례를 고려해 봅시다 . 잘 알려진 Fisher의 Iris 데이터 세트를 가져 와서 sepal length와 sepal width 만 고려합니다 (2 차원으로 만들기 위해). 산점도는 다음과 같습니다.
sepal length / width를 따로 따로 분산 분석을 시작할 수 있습니다. x와 y 축에 데이터 포인트가 수직 또는 수평으로 투영되고 3 개의 그룹이 동일한 평균을 갖는지 테스트하기 위해 일원 분산 분석이 수행된다고 상상해보십시오. 우리는 얻을 및 P = (10) - (31) 꽃받침 잎 길이, 및 F 2 , 147 = 49 및 P = (10) - (17) 꽃받침 폭. 좋아, 그래서 세 가지 그룹이 두 측정 값에서 어리석은 p- 값으로 크게 다르기 때문에 나의 예는 꽤 나쁘지만 어쨌든 그것을 고수 할 것입니다.
이제 LDA를 수행하여 3 개의 군집을 최대한 분리하는 축을 찾을 수 있습니다. 상술 한 바와 같이, 우리는 전체 산란 행렬 계산 내의 급 산란 행렬 W를 사이 급 산란 행렬 B = T - W 및 고유 벡터 찾을 W가 - 1 개 B . 동일한 산점도에 두 고유 벡터를 플로팅 할 수 있습니다.
점선은 판별 축입니다. 임의의 길이로 플로팅했지만 축이 길수록 고유 값이 더 큰 고유 벡터 (4.1)와 짧은 고유 값이 더 작은 고유 벡터를 나타냅니다. 그것들은 직교는 아니지만 LDA의 수학은 이러한 축의 투영이 상관 관계가 없음을 보장합니다.
동일한 데이터에 대해 MANOVA를 실행하면 동일한 행렬을 계산합니다.
이것은 이제 다른 기계 학습 커뮤니티와 통계 커뮤니티가 같은 것에 어떻게 접근하는지에 대한 모범 사례 중 하나 인 것 같습니다. 기계 학습에 대한 모든 교과서는 LDA를 다루고 멋진 그림 등을 보여 주지만 MANOVA (예 : Bishop , Hastie 및 Murphy )는 언급 하지 않습니다 . 아마도 LDA 분류 정확도 (효과 크기에 거의 해당)에 더 관심이 있고 그룹 차이의 통계적 중요성 에 관심이 없기 때문일 수 있습니다. 반면, 다변량 분석에 관한 교과서는 MANOVA ad nauseam에 대해 논의하고, 많은 표 형식의 데이터를 제공하지만 (arrrgh) LDA에 대해서는 거의 언급하지 않으며, 어떤 도표 (예 :앤더슨 , 또는 해리스 ; 그러나 Rencher & Christensen 과 Huberty & Olejnik 은 "MANOVA and Discriminant Analysis"라고도합니다.
팩토리얼 MANOVA는 훨씬 더 혼란 스럽지만 "팩토리 LDA"가 실제로 존재하지 않고 팩토리얼 MANOVA가 "일반적인 LDA"와 직접적으로 일치하지 않는다는 점에서 LDA와 다르기 때문에 고려해야 할 것이 흥미 롭습니다.
이 그림에서 6 개의 "셀"(또한 "그룹"또는 "클래스"라고도 함)은 잘 분리되어 있으며 실제로는 거의 발생하지 않습니다. 여기에 두 가지 요소의 주요한 영향과 중요한 상호 작용 효과가 있음을 분명히 알 수 있습니다 (오른쪽 상단 그룹이 오른쪽으로 이동하기 때문에 "그리드"위치로 이동하면 상호 작용 효과).
이 경우 MANOVA 계산은 어떻게 작동합니까?
요인 B의 경우, 다른 클래스 간 산란 행렬
MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive
. 물론 MANOVA는 LDA를 수행하는 것에 대해 알지 못합니다. MANOVA는 2 차원 테스트이기 때문에 단순히 ANOVA보다 더 많은 df를 소비하므로 p- 값의 검정력이 -55 대신 -54가되어야합니다.
W^-1 B
가 LDA 와 동일한 매트릭스 를 분석하는 핵심 요점입니다 . LDA는 잠복 변수 (결정 변수)를 구성합니다. MANOVA는 그렇지 않습니다. 그러나 위의 매트릭스를보다 포괄적으로 조사하여 다양한 통계 (예 : Pillai 추적, Hotteling 추적)를 계산하여이를 기반으로 테스트합니다.
machine learning
처음으로 단어를 듣기 전에 통계 데이터 분석을 배웠습니다 . 그리고 내가 읽은 텍스트는 MANOVA와 함께 LDA에 대해 상당히 다루었습니다.