통계적 관점에서 우연히 카이 제곱 검정으로 분석되는 우발 사태 표 를 나타내는 가장 좋은 도표 는 무엇입니까? 피한 막대 그래프, 누적 막대 그래프, 히트 맵, 등고선도, 흔들린 산점도, 여러 줄 그림 등입니까? 절대 값 또는 백분율을 표시해야합니까?
편집 : 또는 @forecaster가 주석에서 제안하는 것처럼 숫자 표 자체는 단순한 음모이며 충분해야합니다.
통계적 관점에서 우연히 카이 제곱 검정으로 분석되는 우발 사태 표 를 나타내는 가장 좋은 도표 는 무엇입니까? 피한 막대 그래프, 누적 막대 그래프, 히트 맵, 등고선도, 흔들린 산점도, 여러 줄 그림 등입니까? 절대 값 또는 백분율을 표시해야합니까?
편집 : 또는 @forecaster가 주석에서 제안하는 것처럼 숫자 표 자체는 단순한 음모이며 충분해야합니다.
답변:
여기에 하나의 솔루션으로 적합하지는 않습니다. 매우 간단한 테이블 (예 : )이있는 경우 테이블을 제시하는 것이 가장 좋습니다. 실제 그림을 원한다면 @xan이 제안한 모자이크 그림이 시작하기에 좋은 곳일 것입니다. 체 플롯, 연관 플롯 및 동적 압력 플롯을 포함하여 모자이크 플롯과 유사한 다른 옵션이 있습니다 (여기서 나의 질문을 참조하십시오 : 비상 테이블에 대한 체 / 모자이크 플롯의 대안 ); Michael Friendly의 책 Visualizing Categorical Data 는이 주제에 대한 좋은 (SAS 기반) 자료가 될 것이며 vcd 패키지 는 R에서 이러한 아이디어를 구현하기위한 좋은 자료입니다.
그러나 테이블에 더 많은 수의 행과 열이 있기 때문에 사용하기가 더 어려워집니다. 다른 유형의 시각화 옵션은 대응 분석 을 수행 / 플롯 하는 것 입니다. 대응 성 분석은 우발성 테이블의 행과 열 모두에서 주성분 분석을 실행하는 것과 유사합니다. 그런 다음 둘 다 biplot과 함께 플롯됩니다. 다음은 @xan의 답변 데이터를 사용한 R 기반 예입니다.
library(ca)
tab = as.table(rbind(c(28, 4, 0, 56),
c(38, 5, 9, 10),
c( 6, 6, 14, 13) ))
names(dimnames(tab)) = c("activity", "period")
rownames(tab) = c("feed", "social", "travel")
colnames(tab) = c("morning", "noon", "afternoon", "evening")
tab
# period
# activity morning noon afternoon evening
# feed 28 4 0 56
# social 38 5 9 10
# travel 6 6 14 13
plot(ca(tab))
이 그림을 해석하기 위해 같은 유형의 두 점이 가까울수록 두 행 / 열 프로파일이 더 비슷합니다. 그리고 서로 다른 유형의 두 점이 가까울수록 교차 질량을 나타내는 확률 확률이 셀에 더 많습니다.
R에는 ca 패키지가 있습니다 . 이 비네팅 ( pdf )도 도움이 될 수 있습니다.
factor(vs)
)에 두 가지 수준 만 있기 때문입니다 . 당신은 적어도 세가 필요합니다. 시도하십시오 ttt = with(mtcars, table(factor(gear), factor(cyl))); plot(ca(ttt))
.
ca
객체 에서 가져 오는 방법을 잘 모르겠 으므로 처음부터 코딩했습니다. 내가 실수하지 않으면 행 c(1,3,2)
과 열의 순서를 바꿉니다 c(4,1,3,2)
. 그렇게 한 후에, 내가 여기서 무엇을 볼지 잘 모르겠습니다. 당신은 무엇을 생각하고 있습니까?
다른 비주얼은 다른 기능을 강조하는 데 더 나을 것이지만, 모자이크 플롯은 일반적인보기에 적합합니다 (눈에 띄는 것이 있는지 확인). 어쩌면 그게 닷지 바 플롯의 의미 일 것입니다. 대부분의 옵션과 마찬가지로 다른 주파수보다 한 차원에서 상대 주파수를 더 잘 표현한다는 점에서 대칭이 아닙니다. 좋은 특징은 한계 주파수도 표현된다는 것입니다.
"최상의"줄거리는 데이터 세트, 독자 및 목적과 독립적으로 존재하지 않는다는 데 동의합니다. 두 가지 측정 변수의 경우 산점도는 특정 목적을 제외하고는 다른 모든 것을 떠올리게하는 디자인 일 수 있지만 범주 형 데이터에 대해서는 시장 리더가 분명하지 않습니다.
여기서의 목표는 종종 재발견 또는 재발 명 된 간단한 방법을 언급하는 것이지만 통계 그래픽을 다루는 논문이나 교과서에서도 간과되기도합니다.
먼저 xan이 게시 한 것과 동일한 데이터를 다루는 예 :
이름을 원할 경우 종종 양방향 막대 차트입니다 (이 경우). 여러 막 대형 차트 가 비슷한 풍미의 일반적인 대안 이라는 점을 제외하고는 다른 용어를 여기에 카탈로그 화하지 않습니다 . ( "다중 막대 차트"에 대한 나의 작은 반대 의견은 "다중"이 매우 일반적인 누적 또는 병렬 막대 차트를 배제하지 않는 반면, "양방향"은 행과 열 레이아웃을보다 명확하게 암시하지만 명확하게하기 위해 예를들 수 있습니다.)
이런 종류의 음모에 대한 플러스와 마이너스도 간단하지만, 일부를 설명하겠습니다. 내가이 디자인을 좋아한다면 (적어도 1930 년대로 거슬러 올라간다), 다른 사람들은 더 날카로운 비판을 추가하고 싶을 수도있다.
+1. 비 기술 그룹에서도 아이디어를 쉽게 이해할 수 있습니다. 이 예에서 막대 높이 또는 막대 길이는 주파수를 인코딩합니다. 다른 예에서는 원하는 방식으로 계산 된 백분율, 잔차 등을 인코딩 할 수 있습니다.
+2. 행과 열 구조는 테이블의 구조와 일치합니다 . 숫자 값도 추가 할 수 있습니다. 매우 적은 양과 암시 적 제로도 분명하게 나타납니다. 이는 다른 디자인 (예 : 누적 막대 차트, 모자이크 도표)의 경우에는 해당되지 않습니다. 행 및 열 레이블은 일반적으로 키 또는 범례를 추가하는 것보다 정신적으로 "앞뒤로"더 효율적입니다. 따라서이 디자인은 그래프와 테이블 아이디어를 혼성화하여 일부 독자에게는 문제가있는 것 같습니다. 반대로, 나는 Figures와 Tables의 강력한 차이점은 단지 역사적 숙취 일 뿐이라고 연구자들이 자신의 문서를 준비 할 수 있고 디자이너, 컴포 지터 및 프린터에 의존 할 필요가 없기 때문에 사용되지 않는다고 주장합니다.
+3. 3 방향 이상의 디자인으로의 확장 은 원칙적으로 쉽습니다 . 두 개 이상의 변수를 하나 또는 두 축에 복합 변수로 사용하거나 그러한 플롯의 배열을 제공하십시오. 당연히 디자인이 복잡할수록 해석이 복잡해집니다.
+4. 이 설계 는 어느 축에서든 서수 변수 를 명확하게 허용 합니다. 순서는 해당 축의 범주 순서뿐만 아니라 적절한 음영 처리로 표현 될 수 있습니다. 축의 범주 순서는 의미에 따라 결정되거나 빈도에 따라 더 잘 결정될 수 있습니다. 텍스트 레이블에 따른 알파벳 순서는 기본값 일 수 있지만 유일한 선택은 아닙니다.
-1. 설계 상 일반적으로 플롯은 특정 종류의 관계를 표시하는 데 덜 효율적일 수 있습니다 . 특히, 모자이크 도표는 독립으로부터의 이탈을 매우 명확하게 만들 수 있습니다. 반대로 범주 형 변수 사이의 관계가 복잡하거나 명확하지 않은 경우 일반적으로 약한 사실보다 더 잘 보여주는 그래프는 없습니다.
-2. 어떤 방식 으로든 디자인은 발생 빈도와 빈도에 관계없이 모든 교차 조합을위한 공간 을 남겨 두어 공간 사용에 있어 비효율적입니다 . 이것은 미덕으로 간주되는 동일한 원칙의 악입니다. 위의 특정 디자인은 빈도와 상관없이 범주를 동일하게 구분합니다. 읽을 수있는 한계 레이블을 희생하는 경우가 많습니다. 이 예제에서 텍스트 레이블은 모두 매우 짧지 만 일반적인 것과는 거리가 멀습니다.
참고 : xan의 데이터는 발명 된 것으로 보이므로 다른 답변에서 시도한 것보다 더 이상 해석을 시도하지 않습니다. 그러나 어떤 가정적인 지혜는 여기서 마지막 단어를 받아 마땅합니다. 당신을위한 최고의 디자인은 당신과 당신의 독자에게 당신이 관심있는 실제 데이터의 구조를 가장 잘 전달하는 것입니다.
다른 예로는
tabplot
SSC에서 온 것입니다. 바의 높이는 반드시 가장 높거나 긴 바의 높이의 일부에 해당합니다. 사용 가능한 공간은 표시되는 행 수에 따라 결정됩니다. 사용자는 기본 간격 크기를 무시할 수 있지만 막대가 서로 닿거나 막힐 위험이 있습니다. 막대가 긍정적일뿐 아니라 부정적 일 수 있다면 일이 쉽지 않습니다. 다른 프로그램과 동일한 제약 조건이 물린다고 생각합니다. 요컨대, 만지지 않는 막대는 공백을 의미합니다!
@gung과 @xan의 답변을 보완하기 위해 vcd
R에서 사용하는 모자이크 및 연관 그림의 예가 있습니다 .
> tab
period
activity morning noon afternoon evening
feed 28 4 0 56
social 38 5 9 10
travel 6 6 14 13
줄거리를 얻으려면 :
require(vcd)
mosaic(tab, shade=T, legend=T)
assoc(tab, shade=T, legend=T)
둘 다 직관적으로 예상 주파수와의 이탈을 나타냅니다 ... 기본값은 상호 독립 의 모델 이지만 인수 를 통해 변경 될 수 있습니다 (예 : 명확한 응답 변수가있는 경우 공동 독립으로 ) expected
.
참조 :