“상자 그림 사용시기와 때 그림 표시”규칙 (엄격한가?)


14

상자 앤 수염 플롯 및 막대 차트 입니다 ANOVA에 적합한 그래픽은 R 도서 (크롤리, 2013)에 따르면, 그러나 더 적합하다 ? 상황에 따라 다르다고 생각합니다. 누구든지 나를 도울 수 있습니까?


5
" 하나의 문제는 여러 가지 대체 테스트로 해결할 수 있지만 항상 사용하기에 가장 적합한 테스트는 하나뿐입니다. "-그 문장에 동의하지 않습니다. 나는 그것이 항상 사실이라고 생각하지 않습니다.
Glen_b-복지 주 모니카

5
나는 여기 @Glen_b에 동의 하고이 문구조차도 핵심 요점을 놓칠 것을 제안합니다. 가장 적절한 테스트를 식별하는 것은 데이터의 정확한 생성 프로세스를 아는 것에 최소한으로 의존합니다. 장점과 단점이 다른 여러 가지 가능한 테스트가있는 것이 더 일반적입니다.
Nick Cox

1
나는 좋은 통계적 사고의 간단한 특성화에서 (가설 또는 유의성) 테스트를 언급하지 않을 것이라고 생각합니다 ... 그러나 이것은 부수적 인 문제라고 생각합니다. 당신의 질문은 그것없이 충분히 분명합니다.
Nick Cox

답변:


18

ANOVA의 그래픽 설명을 위해 특별히 :

  • 상자 그림 또는 막대 차트는 ANOVA에 대해 그래픽으로 표시하는 것보다 훨씬 좋지만 일반적으로 표시되는 것처럼 둘 다 그래픽 요약으로 간접적이거나 불완전합니다.

  • 분산 분석은 하나 이상의 종류의 변형과 관련 하여 평균비교하는 것이므로 가장 적합한 그래픽은 최소한 원시 데이터뿐만 아니라 평균을 보여줍니다. 그룹 표준 편차 (SD) 또는 관련 수량은 해를 끼치 지 않습니다.

  • 상자 그림 의 일부 품종은 중앙값뿐만 아니라 평균도 표시 하지만 표준 종류는 중앙값, 사 분위수 및 분포의 꼬리에있는 일부 정보를 표시합니다. 가장 일반적인 변형은 가까운 사 분위수에서 1.5 IQR 이상 떨어져있는 경우에만 개별 데이터 포인트가 표시되는 것으로 보입니다. 즉 : 분위 범위 IQR 상부 분위수 저급 분위수 때문에 상부 분위보다 플롯 점의 값으로 더 1.5 IQR 이하보다 낮은 분위+ =+1.5 IQR. 이러한 규칙은 분산 분석에 문제가 될 수있는 총 이상 치를 표시하는 데 도움이 될 수 있지만, 중앙값이나 사 분위수는 ANOVA에서 어떤 역할도 수행하지 않으며 중간 값 평균값이 확인되어야 할 지점인지 여부는 추정되지 않습니다. 일반적으로 숙련 된 데이터 분석가는 데이터 변환 또는 동일하지 않은 링크 기능을 가진 일반화 된 선형 모델의 필요성과 같은 조치가 필요한 문제의 표시로 현저한 특이 치 및 / 또는 분포의 비대칭 성을 취합니다. 그럼에도 불구하고 분산 분석이 제공 될 때 얼마나 많은 교과서 및 기타 계정에 상자 그림이 표시되는지 알 수 있지만 방에없는 코끼리는 언급되지 않습니다.

  • 반대로, 이 맥락에서 가장 일반적인 종류의 막대 차트 는 평균 및 SD 또는 표준 오류로 데이터를 요약하지만 그렇지 않으면 개별 데이터 포인트의 표시를 생략합니다. 따라서 예를 들어 특이 치 또는 표시 비대칭은 개별 그룹 내에서 라인 외부 수단 또는 팽창 된 변동성에서만 유추 할 수 있습니다.

일반적으로 어떤 종류의 그래프가 유용한 지에 대한 많은 제안이 있지만 어느 것이 가장 적합한 지에 대한 합의는 거의 없습니다. 좋은 그래프가 보여주는 기준으로 제안합니다.

  • 최소한 배경이나 상황에 따라 데이터의 전체 변형 패턴

  • 데이터의 관련 요약, 특히 엔터테인먼트중인 모델 또는 고려되는 설명자와 관련된 것들

  • 가정에 대한 의심을 불러 일으키는 데이터의 가능한 문제를 나타냅니다.

평균 및 SE가 추가 된 도트 또는 스트립 플롯과 같이 분산 분석에 도움이되는 몇 가지 설계가 있습니다.

John Tukey의이 논문 은 여기에 관련된 선전 그래프분석 그래프 의 차이점을 설명합니다 . ANOVA의 그래픽 그림이 너무 많으면 많은 분석없이 선전 그래프 (그룹이 매우 다름)입니다 (그리고이 응용 프로그램의 데이터 또는 기술의 한계에 대해 무엇을 배울 수 있습니까?).


그렇다면 평균적으로 sd와 특이 치가 그려진 바이올린 음모는 어떻습니까?
ziggystar

바이올린 음모가 도움이 될 수 있습니다. 개인적으로 나는 원시 데이터에 더 가까운 것을 선호하므로 양식과 세분성을 볼 수 있습니다.
Nick Cox

8

막 대형 차트 (1 개의 막대는 각 관심 수량을 표시하는 데 사용됨)와 다이너마이트 도표 (1 개의 막대는 각 그룹의 평균에 오류 막대를 더한 값)를 혼동하지 마십시오. 다이나마이트 도표는 아무런 이유없이 데이터 분포를 숨기므로 절대 수용 할 수 없습니다.

예, 이것이 가장 일반적인 유형의 플롯이라는 것을 알고 있습니다. 연구원들이 데이터의 형태에 두는 (낮은) 중요성을 반영하는 것은 큰 문제입니다. 살인 무기를 찾고있는 형사라면, 목격자가 1) 무기의 위치와 크기 만 알려 주면 더 좋을까요? 또는 2) 위치, 크기 및 모양?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf


다이너마이트 플롯이 이상적이지 않은 이유에 대한 다른 자료가 있습니까?
mguzmann

@mguzmann 죄송합니다. 또한 누가 아이디어, 시간이 지남에 따른 채택 등을 생각해 냈으며 그에 대한 어떤 것도 찾을 수 없었습니다. 컴퓨터 전날의 평균 +/- 오류보고 테이블에서 발전했다고 생각합니다. 1930 년대부터 완전한 데이터 세트의 테이블을 게시하는 논문을 보았으므로 연습이 실제로 정당화되었는지 확실하지 않습니다. 예 : Hedrich AW. 메릴랜드 주 볼티모어, 1900–1931 년 홍역에 걸린 어린이 인구의 월간 추정치. J Hyg 1933; 17 : 613-636.
Livid
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.