답변:
당신의 음모의 목적을 분명히하는 것이 가치가 있습니다. 일반적으로 두 가지 종류의 목표가 있습니다. 자신이 직접 가정을 평가하고 데이터 분석 프로세스를 안내하기 위해 플롯을 만들거나 결과를 다른 사람에게 전달하기 위해 플롯을 만들 수 있습니다. 이것들은 동일하지 않습니다. 예를 들어, 플롯 / 분석의 많은 시청자 / 독자들은 통계적으로 복잡하지 않을 수 있으며 t- 검정에서 등분 산과 그 역할에 대한 아이디어에 익숙하지 않을 수 있습니다. 당신의 음모가 데이터에 대한 중요한 정보를 소비자들에게 전달하기를 원합니다. 그들은 당신이 올바르게 한 일을 암시 적으로 믿고 있습니다. 귀하의 질문 설정에서, 나는 당신이 후자의 유형을 따르는 것을 모았습니다.
실제로 t- 검정 1 의 결과 를 다른 사람들 에게 전달하기위한 가장 일반적이고 수용되는 도표 (실제로 가장 적합한 지 여부를 제외하고)는 표준 오차 막대가있는 평균 막대 차트입니다. 이것은 t- 검정이 표준 오차를 사용하여 두 가지 평균을 비교한다는 점에서 t- 검정과 매우 일치합니다. 두 개의 독립적 인 그룹이 있으면 통계적으로 정교하지 않은 사람들에게도 직관적 인 그림을 얻을 수 있으며 (데이터를 기꺼이하는) 사람들은 "아마도 두 개의 다른 인구에서 온 것"을 즉시 알 수 있습니다. 다음은 @Tim의 데이터를 사용하는 간단한 예입니다.
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
즉, 데이터 시각화 전문가는 일반적으로 이러한 플롯을 무시합니다. 그것들은 종종 "다이너마이트 플롯"으로 참조됩니다 (참조, 다이너마이트 플롯이 나쁜 이유 ). 특히 데이터가 적은 경우 데이터 자체 만 표시하는 것이 좋습니다 . 포인트가 겹치는 경우 더 이상 겹치지 않도록 수평으로 지터 할 수 있습니다 (소량의 랜덤 노이즈 추가). t- 검정은 기본적으로 평균과 표준 오차에 관한 것이므로 평균과 표준 오차를 그러한 도표에 오버레이하는 것이 가장 좋습니다. 다른 버전은 다음과 같습니다.
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
데이터가 많은 경우 분포에 대한 빠른 개요를 얻기 위해 상자 그림을 선택하는 것이 더 좋을 수 있으며 평균과 SE도 오버레이 할 수 있습니다.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
데이터의 간단한 도표와 상자 그림은 통계적으로 정통하지 않더라도 대부분의 사람들이 데이터를 이해할 수있을 정도로 간단합니다. 그러나 이들 중 어느 것도 t- 검정을 사용하여 그룹을 비교 한 타당성을 쉽게 평가할 수 없다는 것을 명심하십시오. 이러한 목표는 다양한 종류의 음모로 가장 잘 제공됩니다.
1.이 논의에서는 독립 샘플 t- 검정을 가정합니다. 이 도표 는 종속 표본 t- 검정과 함께 사용될 수 있지만 해당 맥락에서 오도 될 수 있습니다 (참조 : 대상 내 연구에서 수단에 오차 막대를 사용하는 것이 잘못 되었습니까? ).
가장 일반적으로 사용되는 시각화 방법 테스트와 비슷한 비교는 boxplots 를 사용하는 것 입니다. 아래에서는 이 사이트 에서 "마리화나 흡연과 단기 기억력 측정 작업의 수행 능력 부족 간의 관계"를 설명하는 데이터 세트를 사용하는 예를 제공 합니다 .
> nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
> smokers <- c(16,20,14,21,20,18,13,15,17,21)
>
> t.test(nonsmokers, smokers)
Welch Two Sample t-test
data: nonsmokers and smokers
t = 2.2573, df = 16.376, p-value = 0.03798
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.1628205 5.0371795
sample estimates:
mean of x mean of y
20.1 17.5
실제로, 박스 플롯은 일반적으로 "비공식적"가설 검정에 사용됩니다 (예 : 1988 년 요플 벤자민 (Joav Benjamini) 이 박스 플롯 상자 열기 :
규칙적인 상자 그림은 배치의 중앙값에 대한 대략적인 신뢰 구간으로 보완되며, 상자 측면에서 꺼낸 한 쌍의 쐐기로 표시됩니다. 이러한 신뢰 구간은 서로 다른 상자 그림의 두 노치가 겹치지 않을 때 중앙값이 크게 다른 방식으로 구성됩니다. (...) 신뢰 구간에 대한 공식은 사 분위 범위를 배치 크기의 제곱근으로 나눈 상수 시간이므로 상자 길이에 대한 웨지 길이에서 인식 할 수 있습니다.
참조 : T-테스트를 상자 줄거리 만 요약 데이터를 사용하여
이 플롯에는 직접 관련된 수량이 표시되지 않습니다 @NickCox에서 알 수 있듯이 -test . 신뢰 구간과 평균을 직접 비교하려면 신뢰 구간이 표시된 막대 그림 을 사용할 수 있습니다 . 평균과 신뢰 구간을 사용하면 가설 검정을 수행 할 수도 있습니다 ( 여기 또는 여기 참조 ).
이 글에서 다른 포스트와 코멘트에서 볼 수 있듯이, 박스 플롯과 다이너마이트 플롯은 다소 논란의 여지가있는 선택이므로 아직 언급되지 않은 대안을 하나 더 설명하겠습니다. 먼저테스트와 회귀 는 관련이 있습니다 . 당신은 음모를 꾸밀 수 있습니다선과 연결된 오류 표시 줄 (신뢰 간격)이있는 두 점으로 테스트와 같은 비교 직선 회귀를 사용하지 않은 경우 선의 경사는 회귀 경사에 비례합니다이 상황에서 테스트합니다. 이러한 음모의 주요 장점은 선의 기울기를 보면서 평균 차이의 크기를 쉽게 판단 할 수 있다는 것입니다. 단점은 수단간에 "연속성"이 있음을 암시 할 수 있다는 것입니다 (즉, 샘플을 쌍으로 설정 했음).
상자 그림은 시각화 된 변수 분포 에 대한 자세한 정보 를 제공하기 때문에 더 일반적으로 사용되는 것 같습니다 (신뢰 구간 만 의미하는 것과 비교). 또한 정보를 복제하지 않고 보완합니다.테스트 및 플롯의 사용은 대부분의 스타일 가이드, 예를 들어 미국 심리학 협회의 출판 매뉴얼에 의해 권장됩니다 .
첫 번째 고려 사항은 그림이 나타날 종이의 텍스트에서 그림의 정보 값입니다. 그림이 종이에 대한 이해에 실질적으로 추가되지 않거나 종이의 다른 요소를 복제하는 경우에는 포함시키지 않아야합니다.
이것은 @Tim과 @gung의 유용한 답변에 대한 변형이지만 대부분 그래프를 주석에 넣을 수는 없습니다.
작지만 유용한 점 :
예제 데이터에서와 같이 @gung이 나타내는 스트립 플롯 또는 도트 플롯은 관계가있는 경우 수정이 필요합니다. 점은 쌓이거나 지 터링되거나 아래 예 와 같이 Emanuel Parzen이 제안한대로 하이브리드 Quantile-box 플롯 을 사용할 수 있습니다 (가장 접근하기 쉬운 참조는 아마도 1979입니다. 비모수 통계 데이터 모델링. Journal, American Statistical Association74 : 105-121). 데이터의 절반이 상자 안에 있으면 절반도 외부에 있으며 본질적으로 분포의 모든 세부 사항을 보여줍니다. 이 문맥에서와 같이 단지 두 개의 그룹이 존재하는 경우, 더 통상적 인 종류의 박스 플롯은 최소한의 골격 표시 일 수있다. 어떤 사람들은 이것을 미덕으로 여기지만 더 자세하게 보여줄 수있는 범위가 있습니다. 반대 주장은 특정 점, 특히 가장 가까운 사 분위수에서 1.5 IQR 이상의 점을 나타내는 상자 그림이 사용자에게 분명한 경고라는 것입니다. 꼬리에 점이있을 수 있으므로 t- 검정으로주의하십시오. 걱정
자연스럽게 평균의 표시를 상자 그림에 추가 할 수 있습니다. 다른 마커 또는 점 기호를 추가하는 것이 일반적입니다. 여기에서 참 조선을 선택합니다.
흡연자와 비 흡연자를위한 Quantile-box 플롯. 상자에는 중앙값과 사 분위수가 표시됩니다. 파란색으로 표시된 수평선은 의미합니다.
노트. 그래프는 Stata에서 생성되었습니다. 관심있는 사람들을위한 코드는 다음과 같습니다. stripplot
로 이전에 설치해야합니다 ssc inst stripplot
.
clear
mat nonsmokers = (18,22,21,17,20,17,23,20,22,21)
mat smokers = (16,20,14,21,20,18,13,15,17,21)
local n = max(colsof(nonsmokers), colsof(smokers))
set obs `n'
gen smokers = smokers[1, _n]
gen nonsmokers = nonsmokers[1, _n]
stripplot smokers nonsmokers, vertical cumul centre xla(, noticks) ///
xsc(ra(0.6 2.4)) refline(lcolor(blue)) height(0.5) box ///
ytitle(digit span score) yla(, ang(h)) mcolor(red) msize(medlarge)
편집하다. @Frank Harrell의 답변에 대한이 추가 아이디어는 두 개의 정규 확률도 (실제로 Quantile-quantile plot)를 중첩합니다. 수평선은 평균을 나타냅니다. 일부는 예를 들어 (, 그 평균) 및 (그 의미 SD) 또는 강력한 내성 대안.