독립적 인 두 샘플 t- 검정을 시각화하는 방법?


11

독립적 인 2 표본 t- 검정의 결과를 시각화하는 가장 인정 된 방법은 무엇입니까? 숫자 테이블이 더 자주 사용되거나 일종의 줄거리입니까? 목표는 우연한 관찰자가이 수치를보고 즉시 다른 두 집단에서 온 것임을 알 수 있습니다.


어떤 상황에서 누구에 의해 "허용"되었습니까? 어디에서 "더 자주 사용"?
Glen_b-복지 주 모니카

답변:


18

당신의 음모의 목적을 분명히하는 것이 가치가 있습니다. 일반적으로 두 가지 종류의 목표가 있습니다. 자신이 직접 가정을 평가하고 데이터 분석 프로세스를 안내하기 위해 플롯을 만들거나 결과를 다른 사람에게 전달하기 위해 플롯을 만들 수 있습니다. 이것들은 동일하지 않습니다. 예를 들어, 플롯 / 분석의 많은 시청자 / 독자들은 통계적으로 복잡하지 않을 수 있으며 t- 검정에서 등분 산과 그 역할에 대한 아이디어에 익숙하지 않을 수 있습니다. 당신의 음모가 데이터에 대한 중요한 정보를 소비자들에게 전달하기를 원합니다. 그들은 당신이 올바르게 한 일을 암시 적으로 믿고 있습니다. 귀하의 질문 설정에서, 나는 당신이 후자의 유형을 따르는 것을 모았습니다.

실제로 t- 검정 1 의 결과 를 다른 사람들 에게 전달하기위한 가장 일반적이고 수용되는 도표 (실제로 가장 적합한 지 여부를 제외하고)는 표준 오차 막대가있는 평균 막대 차트입니다. 이것은 t- 검정이 표준 오차를 사용하여 두 가지 평균을 비교한다는 점에서 t- 검정과 매우 일치합니다. 두 개의 독립적 인 그룹이 있으면 통계적으로 정교하지 않은 사람들에게도 직관적 인 그림을 얻을 수 있으며 (데이터를 기꺼이하는) 사람들은 "아마도 두 개의 다른 인구에서 온 것"을 즉시 알 수 있습니다. 다음은 @Tim의 데이터를 사용하는 간단한 예입니다.

nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m        = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se       = c(sd(nonsmokers)/sqrt(length(nonsmokers)), 
             sd(smokers)/sqrt(length(smokers)))
windows()
  bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
  box()
  arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)

여기에 이미지 설명을 입력하십시오

즉, 데이터 시각화 전문가는 일반적으로 이러한 플롯을 무시합니다. 그것들은 종종 "다이너마이트 플롯"으로 참조됩니다 (참조, 다이너마이트 플롯이 나쁜 이유 ). 특히 데이터가 적은 경우 데이터 자체 만 표시하는 것이 좋습니다 . 포인트가 겹치는 경우 더 이상 겹치지 않도록 수평으로 지터 할 수 있습니다 (소량의 랜덤 노이즈 추가). t- 검정은 기본적으로 평균과 표준 오차에 관한 것이므로 평균과 표준 오차를 그러한 도표에 오버레이하는 것이 가장 좋습니다. 다른 버전은 다음과 같습니다.

set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE, 
     xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)

여기에 이미지 설명을 입력하십시오

데이터가 많은 경우 분포에 대한 빠른 개요를 얻기 위해 상자 그림을 선택하는 것이 더 좋을 수 있으며 평균과 SE도 오버레이 할 수 있습니다.

data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m  = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see

여기에 이미지 설명을 입력하십시오

데이터의 간단한 도표와 상자 그림은 통계적으로 정통하지 않더라도 대부분의 사람들이 데이터를 이해할 수있을 정도로 간단합니다. 그러나 이들 중 어느 것도 t- 검정을 사용하여 그룹을 비교 한 타당성을 쉽게 평가할 수 없다는 것을 명심하십시오. 이러한 목표는 다양한 종류의 음모로 가장 잘 제공됩니다.

1.이 논의에서는 독립 샘플 t- 검정을 가정합니다. 이 도표 는 종속 표본 t- 검정과 함께 사용될 있지만 해당 맥락에서 오도 될 수 있습니다 (참조 : 대상 내 연구에서 수단에 오차 막대를 사용하는 것이 잘못 되었습니까? ).


bar + CI 플롯을 사용할 때 큰 문제는 때때로 차이가 통계적으로 유의하지만 CI가 겹치는 것 입니다. 막대 + CI 도표가 일반 대중에게 호소하려고 할 때, 우리는이 여분의 주름을 설명하는 데 시간을 보내고 싶지 않습니다.
Heisenberg

@ Heisenberg, 나는 그것을 알고 있습니다. 모든 경우와 목적에 맞는 하나의 완벽한 음모가 없습니다. 또한 CI는 언급하지 않았으며 SE 만 언급했습니다 (df에 따라 일부 CI와 동일하지만). 의미는 그림 캡션에서 일반적으로 언급되고 텍스트에서 논의됩니다. 플롯 자체에 명확하게 표시하려면 괄호와 p- 값을 추가 하십시오 (예 : here ).
gung-복직 모니카

톤이 공격적으로 들리면 사과드립니다. 나는 결국 더 이상 설명하지 않고 일반 대중에게 t 테스트를 시각화 할 수있는 우아한 방법이 없다는 점에 조금 혼란 스럽습니다. SE로 그룹 평균을 나타내는 2 막대 플롯과 차이와 CI를 보여주는 세 번째 플롯 (예 : 링크 )으로 표시 될 수 있습니다. 그러나 이러한 시각화는 중복 정보 (그룹 평균 및 평균 차이)를 보여 주므로 청중을 혼란스럽게 할 수 있습니다.
Heisenberg

@ Heisenberg, 나는 환자 내 t- 테스트를 표시하지 않으면 내 다른 대답의 줄거리를 사용하지 않을 것입니다. 나는 종종 t- 테스트, 간단한 그림 캡션이있는 SE가있는 2 개의 막대를 제시하는 것이 좋습니다. 플롯 에서 중요성이 필요한 경우 대괄호 또는 이와 유사한 것을 추가 할 수 있습니다 (일반적으로 불필요하다고 생각합니다).
gung-복직 모니카

14

가장 일반적으로 사용되는 시각화 방법 t테스트와 비슷한 비교는 boxplots 를 사용하는 것 입니다. 아래에서는 이 사이트 에서 "마리화나 흡연과 단기 기억력 측정 작업의 수행 능력 부족 간의 관계"를 설명하는 데이터 세트를 사용하는 예를 제공 합니다 .

> nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
> smokers <- c(16,20,14,21,20,18,13,15,17,21)
> 
> t.test(nonsmokers, smokers)

    Welch Two Sample t-test

data:  nonsmokers and smokers
t = 2.2573, df = 16.376, p-value = 0.03798
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.1628205 5.0371795
sample estimates:
mean of x mean of y 
     20.1      17.5 

여기에 이미지 설명을 입력하십시오

실제로, 박스 플롯은 일반적으로 "비공식적"가설 검정에 사용됩니다 (예 : 1988 년 요플 벤자민 (Joav Benjamini) 이 박스 플롯 상자 열기 :

규칙적인 상자 그림은 배치의 중앙값에 대한 대략적인 신뢰 구간으로 보완되며, 상자 측면에서 꺼낸 한 쌍의 쐐기로 표시됩니다. 이러한 신뢰 구간은 서로 다른 상자 그림의 두 노치가 겹치지 않을 때 중앙값이 크게 다른 방식으로 구성됩니다. (...) 신뢰 구간에 대한 공식은 사 분위 범위를 배치 크기의 제곱근으로 나눈 상수 시간이므로 상자 길이에 대한 웨지 길이에서 인식 할 수 있습니다.

참조 : T-테스트를 상자 줄거리 만 요약 데이터를 사용하여

이 플롯에는 직접 관련된 수량이 표시되지 않습니다 t@NickCox에서 알 수 있듯이 -test . 신뢰 구간과 평균을 직접 비교하려면 신뢰 구간이 표시된 막대 그림 을 사용할 수 있습니다 . 평균과 신뢰 구간을 사용하면 가설 검정을 수행 할 수도 있습니다 ( 여기 또는 여기 참조 ).

여기에 이미지 설명을 입력하십시오

이 글에서 다른 포스트와 코멘트에서 볼 수 있듯이, 박스 플롯과 다이너마이트 플롯은 다소 논란의 여지가있는 선택이므로 아직 언급되지 않은 대안을 하나 더 설명하겠습니다. 먼저t테스트와 회귀 는 관련이 있습니다 . 당신은 음모를 꾸밀 수 있습니다t선과 연결된 오류 표시 줄 (신뢰 간격)이있는 두 점으로 테스트와 같은 비교 직선 회귀를 사용하지 않은 경우 선의 경사는 회귀 경사에 비례합니다t이 상황에서 테스트합니다. 이러한 음모의 주요 장점은 선의 기울기를 보면서 평균 차이의 크기를 쉽게 판단 할 수 있다는 것입니다. 단점은 수단간에 "연속성"이 있음을 암시 할 수 있다는 것입니다 (즉, 샘플을 쌍으로 설정 했음).

여기에 이미지 설명을 입력하십시오

상자 그림은 시각화 된 변수 분포 에 대한 자세한 정보 를 제공하기 때문에 더 일반적으로 사용되는 것 같습니다 (신뢰 구간 만 의미하는 것과 비교). 또한 정보를 복제하지 않고 보완합니다.t테스트 및 플롯의 사용은 대부분의 스타일 가이드, 예를 들어 미국 심리학 협회의 출판 매뉴얼에 의해 권장됩니다 .

첫 번째 고려 사항은 그림이 나타날 종이의 텍스트에서 그림의 정보 값입니다. 그림이 종이에 대한 이해에 실질적으로 추가되지 않거나 종이의 다른 요소를 복제하는 경우에는 포함시키지 않아야합니다.


4
이것은 t- 검정과 분산 분석을 다루는 텍스트에서도 실제로 일반적이지만 그럼에도 불구하고 특별한 선택입니다. 상자 그림에는 t- 검정과 관련된 수량이 직접 표시되지 않습니다. 최소한 관련 그림은 상자 그림보다 평균을 표시하고 분포에 대한 자세한 정보를 제공해야합니다. 테일 내 세부 사항은 종종 테스트 해석에 중요합니다.
Nick Cox

OK @ NickCox, 데이터 세트는 시각화를 위해 선택되었지만 이제는 더 적절한 예제로 변경했습니다.
Tim

3
막대 도표 (일명 "다이너마이트 도표")는 잉크 : 정보 비율이 매우 높습니다.
Frank Harrell

APA 매뉴얼에서 인용 한 내용은 일반적인 조언이지만,이 문맥에서 부분적으로 관련된 상자 그림을 사용하는 직접적인 주장은 아닙니다. 당연히 박스 플롯은 매우 유용하고 보완적일 수 있으며 매우 자주 사용된다는 데 동의하지만 첫 번째 요점은 여전히 ​​남아 있습니다.
Nick Cox

@NickCox 나는 당신과 동의하지 않는다고 말할 수는 없지만, 추가적인 정보를 제공하고 t- 테스트와 직접 관련이없는 경우에도 t- 테스트 결과를 복제하지 않도록 boxplot을 고려할 것입니다. 간단하고 명확하며 유익합니다.
Tim

8

이것은 @Tim과 @gung의 유용한 답변에 대한 변형이지만 대부분 그래프를 주석에 넣을 수는 없습니다.

작지만 유용한 점 :

  1. 예제 데이터에서와 같이 @gung이 나타내는 스트립 플롯 또는 도트 플롯은 관계가있는 경우 수정이 필요합니다. 점은 쌓이거나 지 터링되거나 아래 예 와 같이 Emanuel Parzen이 제안한대로 하이브리드 Quantile-box 플롯 을 사용할 수 있습니다 (가장 접근하기 쉬운 참조는 아마도 1979입니다. 비모수 통계 데이터 모델링. Journal, American Statistical Association74 : 105-121). 데이터의 절반이 상자 안에 있으면 절반도 외부에 있으며 본질적으로 분포의 모든 세부 사항을 보여줍니다. 이 문맥에서와 같이 단지 두 개의 그룹이 존재하는 경우, 더 통상적 인 종류의 박스 플롯은 최소한의 골격 표시 일 수있다. 어떤 사람들은 이것을 미덕으로 여기지만 더 자세하게 보여줄 수있는 범위가 있습니다. 반대 주장은 특정 점, 특히 가장 가까운 사 분위수에서 1.5 IQR 이상의 점을 나타내는 상자 그림이 사용자에게 분명한 경고라는 것입니다. 꼬리에 점이있을 수 있으므로 t- 검정으로주의하십시오. 걱정

  2. 자연스럽게 평균의 표시를 상자 그림에 추가 할 수 있습니다. 다른 마커 또는 점 기호를 추가하는 것이 일반적입니다. 여기에서 참 조선을 선택합니다.

여기에 이미지 설명을 입력하십시오

흡연자와 비 흡연자를위한 Quantile-box 플롯. 상자에는 중앙값과 사 분위수가 표시됩니다. 파란색으로 표시된 수평선은 의미합니다.

노트. 그래프는 Stata에서 생성되었습니다. 관심있는 사람들을위한 코드는 다음과 같습니다. stripplot로 이전에 설치해야합니다 ssc inst stripplot.

clear 
mat nonsmokers = (18,22,21,17,20,17,23,20,22,21)
mat smokers = (16,20,14,21,20,18,13,15,17,21)
local n = max(colsof(nonsmokers), colsof(smokers)) 
set obs `n' 
gen smokers = smokers[1, _n] 
gen nonsmokers = nonsmokers[1, _n] 
stripplot smokers nonsmokers, vertical cumul centre xla(, noticks) ///
xsc(ra(0.6 2.4)) refline(lcolor(blue)) height(0.5) box ///
ytitle(digit span score) yla(, ang(h)) mcolor(red) msize(medlarge) 

편집하다. @Frank Harrell의 답변에 대한이 추가 아이디어는 두 개의 정규 확률도 (실제로 Quantile-quantile plot)를 중첩합니다. 수평선은 평균을 나타냅니다. 일부는 예를 들어 (0, 그 평균) 및 (1그 의미 + SD) 또는 강력한 내성 대안.

여기에 이미지 설명을 입력하십시오


1
+1, 데이터를 불안하게 만들려고했지만 아직 데이터를 얻을 수 없었습니다. 또한 Quantile-box plots, violin plots & qq-plots를 포함한 고급 플롯을 추가하려고 생각했지만 궁극적으로 더 많은 플롯을 나열한다는 아이디어를 포기했습니다.
gung-복직 모니카

@ 궁전 박람회; 불행히도 또는 불행히도 스레드는 일반적으로 두 분포를 비교하는 방법으로 쉽게 변형 될 수 있습니다. 다른 데이터 예에서 히스토그램은 심각한 경쟁자 등이 될 수 있습니다.
Nick Cox

5

결과를 제시하는 좋은 목표 외에 두 그래픽의 등분 산 가정 을 확인하는 그래픽에 대한 몇 가지 고려해야 할 사항이 있습니다.t-성능이 우수한지 테스트하십시오. 그것은 두 개의 경험적 누적 분포 함수의 정상적인 역함수입니다. 테스트 가정을 만족 시키려면이 두 곡선이 평행 한 직선이어야합니다.


내 대답에 다양한 가능성 중 하나를 추가했습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.