분산 분석의 기능을 시각화하는 방법은 무엇입니까?


60

분산 분석이란 무엇인지 시각적으로 설명 할 수있는 방법은 무엇입니까?

모든 참조, 링크 (R 패키지?)를 환영합니다.


Kristoffer Magnusson은 자신의 블로그 '통계 프로그래밍에 대한 심리학자의 노력'에서 D3.js rpsychologist.com/d3-one-way-anova/#comment-1891
Epifunky

분산 분석이 무엇인지에 대한 멋진 시각화를 발견했습니다. 이전 답변만큼 정확하지는 않지만 시각화를 통해 대화식으로 재생할 수 있습니다. : 그것을 꽤 intersting 찾을 수 students.brown.edu/seeing-theory/regression/index.html#third
마이크

답변:


51

개인적으로 선형 회귀 분석과 분산 분석이 모두 동일하고 선형 모형이 전체 분산을 분할하는 데 도움이된다는 것을 보여줌으로써 선형 회귀 분석과 분산 분석을 도입하는 것을 좋아합니다. 부분 ( '잔여'). 나는 일반적으로 다음 그림을 사용합니다 (총 변동성의 경우 회색 선, 그룹 또는 개인의 특정 변동성의 경우 검정 선).

대체 텍스트

나는 또한 Michael Friendly와 John Fox 의 heplots R 패키지를 좋아 하지만 다변량 선형 모델의 Visual Hypothesis Tests : The heplots Package for R도 참조하십시오 .

ANOVA가 실제로 무엇을하는지, 특히 선형 모델 프레임 워크에서 실제로 설명하는 표준 방법 은 Christensen의 복잡한 질문에 대한 비행기 답변 에서 실제로 잘 설명되어 있지만 그림은 거의 없습니다. Saville and Wood의 통계적 방법 : 기하 적 접근 방식 에는 몇 가지 예가 있지만 주로 회귀에 관한 것입니다. DoE에 주로 초점을 둔 몽고메리의 실험 설계 및 분석에는 내가 좋아하는 그림이 있지만 아래를 참조하십시오.

대체 텍스트

(이것들은 내 :-)

그러나 Wikipedia에 표시된 것처럼 제곱합, 오류 등이 벡터 공간으로 어떻게 변환되는지 보려면 선형 모델에 대한 교과서를 찾아야한다고 생각합니다 . 데이비슨 (Davidson)과 맥키 논 (MacKinnon)의 Econometrics의 추정과 추론 은 훌륭한 그림을 가지고있는 것 같지만 (제 1 장은 실제로 OLS 지오메트리를 다루고 있음) 프랑스어 번역 만 찾아 볼 수 있습니다 ( 여기에서 사용 가능 ). 선형 회귀의 기하학 에도 좋은 예가 있습니다.

편집하다 :

아, 그리고 저는이 기사를 Robert Pruzek의 일원 분산 분석을위한 새로운 그래픽으로 기억합니다 .

편집 2

그리고 이제 granova의 패키지 (@ gd047를 언급하고 상기 논문에 연관된)는, ggplot 볼 이식 된 granovaGG을 아래 일방향 ANOVA하는 도면으로.

여기에 이미지 설명을 입력하십시오


첫 번째 그림은 R을 사용하여 제작 되었습니까?
George Dontas

@ gd047 예. 원한다면 어딘가 못생긴 소스 코드가 있어야합니다. 두 번째는 Metapost에서 수행됩니다.
chl

3
@ gd047 좋아, 평소처럼 항상 우리가 찾을 수없는 오래된 코드를 찾을 때 (grep / find로 최선을 다했지만) 빠른 (여전히 추악한) R 스크립트 를 다시 작성 했습니다. 나는 또한 MP 코드 의 예를 넣었다 .
chl

선형 회귀 링크 의 형상은 슬프게 썩은 것 같습니다.
Silverfish

23

이런 건 어때? 대체 텍스트

Crawley (2005)에 따르면. 통계. R : Wiley를 사용한 소개.


1
(+1) 나는 생각 나게한다. plot.design()(그러나 당신은 강화 된 버전에서 :-)
chl

이게 최선이다.
Curious

13

지금까지 큰 답변을 주셔서 감사합니다. 그들이 매우 깨달은 곳에서, 나는 현재 가르치고있는 과정 (잘, TA'ing)에 그것들을 사용하는 것이 나의 학생들에게는 너무 많은 것이라고 느꼈습니다. (의학을 전공 한 학생들에게 BioStatistics 과정을 가르치는 데 도움을줍니다)

따라서 두 가지 이미지 (모두 시뮬레이션 기반)를 작성하여 분산 분석을 설명하는 데 유용한 예라고 생각했습니다.

개선을위한 의견이나 제안을 읽어 드리겠습니다.

첫 번째 이미지는 3 개의 플롯으로 분리 된 30 개의 데이터 포인트 시뮬레이션을 보여줍니다 (MST = Var가 MSB 및 MSW를 생성하는 데이터로 분리되는 방법을 보여줍니다).

  • 왼쪽 그림은 그룹당 데이터의 산점도를 보여줍니다.
  • 가운데 하나는 MSB에 사용할 데이터의 모습을 보여줍니다.
  • 올바른 이미지는 MSW에 사용할 데이터의 모습을 보여줍니다.

대체 텍스트

두 번째 이미지는 4 개의 플롯을 보여줍니다. 각 플롯은 그룹에 대한 분산과 기대의 다른 조합에 대해

  • 플롯의 첫 번째 행은 낮은 분산에 대한 것이고 두 번째 행은 높은 분산에 대한 것입니다.
  • 그림의 첫 번째 열은 그룹 간의 기대 수준이 같고 두 번째 열은 (매우) 기대치가 다른 그룹을 나타냅니다.

대체 텍스트


2
H0: μ1=μ2==μk H1:  i,j | μiμjH1¬ H0). 이러한 아이디어를 그래픽 디스플레이로 전달할 수 있다면 (여기서는 그럴 것 같습니다) 거의 끝났다고 생각합니다.
chl

안녕 chl, 긍정적 인 피드백 (및 이전의 자세한 답변)에 감사드립니다! 이 강의의 자료를 준비하면서 얻은 가장 큰 가정 마사지는 다음과 같습니다. 1) MSB 및 MSW 분산 측정을 위해 원본 데이터의 변환을 설명하는 방법. 2) MSB / MSW의 검정 통계량이 실제로 일측 (양측이 아님) 검정 인 경우 H0이 MSB <= MSW 인 방법. 마지막으로 SSW = SST-SSB (MSW = MST-MSB에 대해 어떻게 적용되는지는 알 수 없음) 인 것이 사실입니다.
Tal Galili

1
yij=μ+αi+εijyij=μi+εijyij=yi¯+εij=y¯+(y¯iy¯)+(yijy¯i)(yijy¯)=(y¯iy¯)+(yijy¯i)

12

이 게시물에서 특정 유형의 멋진 그래프를 수집하므로 여기에 내가 최근에 찾은 또 다른 그래프가 있으며 ANOVA의 작동 방식과 F 통계량 생성 방법을 이해하는 데 도움이 될 수 있습니다. 그래픽은 R 의 granova 패키지를 사용하여 작성 되었습니다. 대체 텍스트


2
(+1) Robert Pruzek의 기사에 대한 링크를 제공했지만 R에서 사용할 수 있다는 것을 몰랐습니다.
chl

10

Hadley Wickham의 프레젠테이션을 확인하십시오 ( pdf , mirrorggplot )을 확인하십시오. 이 문서의 23-40 페이지에서 시작하여 분산 분석 시각화에 대한 흥미로운 접근법을 설명합니다.

* 링크 : http://had.co.nz/ggplot2/


6

좋은 질문입니다. 알다시피, 나는 오랫동안 ANOVA 주위에 내 머리를 감쌀 때 어려움을 겪었습니다. 나는 항상 "내와 사이의"직관으로 돌아가는 것을 발견하고, 항상 이것이 내 머리에서 어떻게 보일지 상상하려고 노력했습니다. 이 질문이 생겨서 기쁘고 위의 답변에서 다양한 접근 방식에 놀랐습니다.

어쨌든, 오랫동안 (몇 년, 심지어조차) 나는 여러 곳에서 동시에 일어나는 일을 볼 수있는 한 곳에서 여러 줄거리를 수집하고 싶었습니다 .1) 인구 가 얼마나 떨어져 있는지 , 2) 어떻게 멀리 떨어져 데이터가 있으며, 3) 얼마나 큰의 사이에 받는 비교 에서 , 4) 어떻게 중앙noncentral을 F 분포 비교?

정말 세상에서 슬라이더로 놀아 샘플 크기 를 확인할 수도 있습니다. 가 바뀌는 .

그래서 나는 RStudio 에서 manipulate명령을 가지고 놀고 있었고 , 암소는 작동합니다! 다음은 플롯 중 하나 인 스냅 샷입니다.

시각화

RStudio가 있다면 위의 플롯 (슬라이더와 모두)을 만들기위한 코드를 얻을 수 있습니다! 여기 Github에 있습니다 .

이것을 잠시 동안 사용한 후, 나는 F 통계량이 그룹을 얼마나 잘 구분하는지, 심지어 작은 표본 크기에서도 얼마나 잘 구분되는지에 놀랐습니다. 내가 인구를 볼 때, 그들은 실제로 그렇게 멀지 않습니다 (내 눈에). 그러나 "내부"막대는 "사이"막대에 의해 지속적으로 왜소합니다. 매일 무언가를 배우십시오.


3

일원 분산 분석으로 진행되는 상황을 설명하기 위해 때때로 "통계 실습 입문"저자가 제공 한 애플릿을 사용하여 학생들이 분산 내에서 또는 분산 사이에서 놀고 F 통계에 미치는 영향을 관찰 할 수 있습니다. . 여기 링크가 있습니다 (애플릿은 페이지의 마지막 것입니다). 샘플 스크린 샷 :

여기에 이미지 설명을 입력하십시오

사용자는 상단 슬라이더를 제어하여 세 그룹의 데이터에 대한 수직 스프레드를 변경합니다. 하단의 빨간색 점은 p- 값의 플롯을 따라 이동하고 아래 표시된 F- 통계량은 업데이트됩니다.


2

배가 이미 해답으로 항해 한 것처럼 보이지만, 이것이 입문 과정이라면 여기에 제공되는 대부분의 디스플레이가 입문 학생들에게 이해하기가 너무 어려울 것입니다. 입문 분산에 대한 매우 간단한 설명을 제공하는 소개 디스플레이가 없으면 파악하기가 어렵습니다. 과목 수에 따라 SST 총점이 어떻게 증가하는지 보여줍니다. 그런 다음 여러 주제에 대해 팽창 한 것으로 나타난 후 (각 그룹에 하나씩 추가 할 수 있음) SST = SSB + SSW라고 설명하십시오. (초기부터 SSE라고 부르는 것이 좋습니다. ). 그런 다음 분산 분할의 시각적 표현, 예를 들어 SST가 SSB 및 SSW로 구성되는 방식을 볼 수 있도록 코딩 된 큰 정사각형 색상을 보여줍니다. 그때,


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.