Anscombe의 사중주와 유사한 목적으로 구성된 데이터 세트


32

방금 Anscombe의 사중주 (거의 구분할 수없는 설명 통계가 있지만 플롯 할 때 매우 다르게 보이는 4 개의 데이터 세트)를 보았으며 특정 측면의 중요성을 보여주기 위해 생성 된 다른 잘 알려진 데이터 세트가 있는지 궁금합니다. 통계 분석.


3
이 사이트에는 지금까지 수백 개의 데이터 세트가 있어야합니다. 체계적으로 검색 할 수있는 방법은 없지만 회귀 태그 와 같이 인기있는 태그에 대해 가장 투표가 많은 스레드를 간략하게 살펴보면 많은 검색 결과가 나타납니다 .
whuber

답변:


30

대중적인 오해에 대한 반례의 역할을하는 데이터 세트가 존재합니다. 저는 여러 가지 상황에서 많은 것을 만들었지 만 대부분 흥미롭지는 않을 것입니다.

* (Anscombe 데이터의 기능은 모델의 품질을 언급 한 것과 동일한 통계로부터 식별 할 수 있다는 오해를 받고있는 사람들에 대한 응답이므로)

여기에 내가 생성하는 것보다 더 큰 관심을 가질만한 몇 가지를 여기에 포함시킬 것입니다.

1) (일부)의 한 예는 제로 3 차 왜도가 대칭을 암시한다는 공통 주장을 반박하기 위해 구성된 이산 분포 (및 데이터 세트)의 예입니다. (Kendall과 Stuart의 고급 통계 이론은 더욱 인상적인 연속 제품군을 제공합니다.)

다음은 이러한 개별 배포 예 중 하나입니다.

x415P(X=x)2/63/61/6

(이 경우 샘플 사례에서 반례에 대한 데이터 세트는 명백합니다 : )4,4,1,1,1,5

보다시피,이 분포 대칭 이 아니지만 세 번째 모멘트 왜곡은 0입니다. 마찬가지로, 두 번째로 가장 일반적인 왜도 측정, 두 번째 Pearson 왜도 계수 ( ) 와 관련하여 유사한 주장에 대한 반례를 쉽게 구성 할 수 있습니다 .3(meanmedianσ)

실제로 나는 두 측정 값이 반대 인 분포 및 / 또는 데이터 세트를 생각해 냈습니다. 왜냐하면 왜도는 다소 미끄러운 아이디어보다는 왜곡이 단일하고 이해하기 쉬운 개념이라는 생각에 반하는 것으로 충분합니다 많은 경우에 적절하게 측정하는 방법을 알고 있습니다.

2) Choonpradub & McNeil (2005)의 접근 방식에 따라이 답변 에 다중 모달 분포에 대한 Box-and-whisker 플롯에 구성된 일련의 데이터가 있습니다.

여기에 이미지 설명을 입력하십시오

특히 대칭 상자 그림을 사용하여 뚜렷하게 왜곡 된 분포는 사람들을 놀라게하는 경향이 있습니다.

3) 히스토그램에 대한 사람들의 과도한 의존에 대한 응답으로, 특히 몇 개의 빈만 있고 하나의 빈 너비 및 빈 출처에서만 구성된 반례 데이터 세트 모음이 있습니다. 분포 형태에 대해 실수로 자신있게 주장하는 결과를 낳습니다. 이 데이터 세트 및 예제 디스플레이는 여기 에서 찾을 수 있습니다.

다음은 그 예 중 하나입니다. 이것은 데이터입니다.

  1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62

그리고 여기 두 히스토그램이 있습니다 :

스큐 vs 벨

그것은 두 가지 경우 모두 위의 34 가지 관측치입니다. 하나는 binwidth 이고 다른 하나는 binwidth 입니다. 플롯은 다음과 같이 R로 생성되었습니다.0.810.8

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

4) 최근에 Wilcoxon-Mann-Whitney 테스트의 비 일시성을 입증하기 위해 일부 데이터 세트를 구성했습니다. 즉, 3, 4 쌍의 데이터 세트 A, B 및 각각에 대해 단일 꼬리 대안을 거부 할 수 있음을 보여줍니다. C, (및 네 개의 샘플 경우 D) (즉, B가 A보다 크다는 결론을 내림), C와 B에 대한 결론 및 C에 대한 A (또는 4 개의 샘플 경우에 대한 C에 대한 D 및 C에 대한 A에 대한 D); 각각은주기의 이전 것보다 더 큰 경향이있다 (이것은 더 클 가능성이 더 크다는 점에서).(>에이)>12

다음은 A에서 D로 레이블이 지정된 각 샘플에 30 개의 관측치가있는 데이터 세트입니다.

       1     2     3     4     5     6     7     8     9    10    11    12
 A  1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 B  3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 C  6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50

      13    14    15    16    17    18    19    20    21    22    23    24
 A  1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 B  3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 C  6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65

      25    26    27    28    29    30
 A  1.42  2.56 16.73 17.01 18.86 19.98
 B  3.44  4.13  6.00 20.85 21.82 22.05
 C  6.57  7.58  8.81  9.08 23.43 24.45
 D 10.29 11.48 12.19 13.09 14.68 15.36

테스트 예제는 다음과 같습니다.

> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)

    Wilcoxon rank sum test

data:  adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
      -Inf -1.336372
sample estimates:
difference in location 
             -2.500199 

보시다시피, 단측 테스트는 null을 거부합니다. A의 값은 B의 값보다 작은 경향이 있습니다. 동일한 결론 (동일한 p- 값에서)은 B 대 C, C 대 D 및 D 대 A에 적용됩니다.이 거부주기 자체는 자동으로 문제가되지 않습니다. , 그것을 의미하지 않는 것으로 해석하지 않으면 (유사하지만 더 큰 표본으로 훨씬 더 작은 p- 값을 얻는 것은 간단합니다.)

여기서 더 큰 "역설"은 위치 이동에 대한 (이 경우 단면) 간격을 계산할 때 발생합니다. 모든 경우에 0이 제외됩니다 (각 간격은 동일하지 않습니다). 이로 인해 데이터 열을 A에서 B로, C에서 D로 이동하면 위치가 오른쪽으로 이동하지만 A로 다시 이동할 때도 마찬가지입니다.

이러한 데이터 세트의 더 큰 버전 (유사한 값의 분포이지만 더 많은 것)을 사용하면 실질적으로 더 작은 유의 수준에서 유의성을 얻을 수 있으므로 Bonferroni 조정을 사용하고 각각을 결론 지을 수 있습니다 그룹은 다음 배포본에서 위로 이동 한 배포판에서 나왔습니다.

이것은 무엇보다도 Wilcoxon-Mann-Whitney에서의 거부가 그 자체로 위치 이동의 주장을 자동으로 정당화하지는 않는다는 것을 보여줍니다.

(이러한 데이터는 해당되지 않지만, 샘플 평균이 일정한 세트를 구성하는 것도 가능하지만 위와 같은 결과가 적용됩니다.)

나중에 편집에 추가됨 : 이것에 대한 매우 유익하고 교육적인 참조는

Brown BM 및 Hettmansperger TP. (2002)
Kruskal-Wallis, 여러 동료 및 Efron 주사위.
Aust & N.ZJ 통계 , 44 , 427–438.

5) ANOVA가 중요 할 수 있지만 모든 쌍별 비교는 그렇지 않은 두 가지 관련 반례가 여기 에 나옵니다 (두 가지 다른 방식으로 해석되어 다른 반례가 나타남).


따라서 오해와 모순되는 몇 가지 반례 데이터 세트가 있습니다.

당신이 짐작할 수 있듯이, 나는 일반적으로 필요가 발생할 때 다른 많은 사람들처럼 합리적으로 그러한 반례를 구성합니다. 이러한 일반적인 오해 중 일부에 대해 새로운 예가 마음대로 생성 될 수있는 방식으로 반대 사례를 특성화 할 수 있습니다 (더욱 자주 특정 수준의 작업이 관련됨).

관심있는 특정 종류의 물건이 있다면 더 많은 세트 (광산 또는 다른 사람들의 세트)를 찾거나 일부를 구성 할 수도 있습니다.


원하는 계수를 갖는 랜덤 회귀 데이터를 생성하는 유용한 트릭은 다음과 같습니다 (괄호 안의 부분은 R 코드의 개요입니다).

a) 노이즈없이 원하는 계수를 설정합니다 ( y = b0 + b1 * x1 + b2 * x2)

b) 원하는 특성을 갖는 오차항 생성 ( n = rnorm(length(y),s=0.4)

c) 같은 x에 노이즈의 회귀를 설정합니다 ( nfit = lm(n~x1+x2))

d) 잔차를 y 변수에 추가합니다 ( y = y + nfit$residuals)

끝난. (모든 것은 실제로 두 줄의 R로 수행 할 수 있습니다)


6
0,0,1,1,1,1,3은 일반적인 주장에 대한 반례이며, 평균, 모드 및 모드 일치는 대칭 분포를 의미하지만 이 더 나은 것 같습니다. (10케이)0.1케이0.910케이,케이=0,,10
Nick Cox

@Glen_b 감사합니다. 반대로 매우 흥미 롭습니다. 예를 들어, 방금 sturges.R이라는 파일을 데이터 x와 다음 코드 줄과 함께 저장했습니다. hist (x, col = "green3", freq = FALSE); hist (x, breaks = "Scott", col = "aquamarine", freq = FALSE); hist (x, breaks = "FD", col = "darkgreen", freq = FALSE) 일부 사람들은 R 커뮤니티가 Sturges 규칙을 셀 수의 기본값으로 사용하지 않도록 설득하지 못했다는 것을 알고 있습니다. Rob Hyndman이 발표하지 않은 이론적 노트보다 더 설득력있는 주장.
최대 절전 모드

@ 명확한 부족에 대한 나의 동면 – 나는 나에게 일어난 흥미로운 것들을 선택했다. 내가 말했듯이, 반례를 생성하는 것은 정기적으로 발생하지만 대부분은 (직접적인 청중 이외의) 흥미롭지 않을 것입니다. 때때로 일부는, 그래서 내가 생각할 수있는 모든 것을 언급했습니다. Sturges 'rule의 문제를 보여주기 위해 예제를 만들려고한다면 예제와 다르게 만들 것입니다. (예제의 주요 가치는 단일 규칙에 의존해서는 안되며 일반적으로 일반적인 규칙보다 더 많은 쓰레기통에 의존해야 함을 분명히 보여주는 것이라고 생각합니다.
Glen_b -Reinstate Monica

2
@NickCox "mean = median = mode imp symmetry"에 대한 작은 반례는 -2, -1, 0, 0, 3 으로이 질문에 대해 구성했습니다 . 우리는 두 개의 데이터 포인트를 사용하여 모드를 형성하기 때문에 가 가장 작을 것으로 생각 합니다. 세 번째 별개의 포인트는 평균 = 중앙값을 망칠 것이고, 네 번째 포인트는 대칭으로 배치해야만 평균 = 중앙값 = 모드를 복원 할 수 있다고 생각합니다. 여하튼, 이항적인 예는 덜 이해되는 것처럼 보이기 때문에 더 만족 스럽습니다! =5
실버 피쉬

16

비슷한 목적으로 데이터 세트 를 생성하는 것과 관련하여 다음 과 같은 관심이있을 수 있습니다.

통계에서 까다 롭고 반 직관적 인 현상을 보여주기 위해 단순히 사용되는 데이터 세트 는 많지만, 어떤 현상을 보여주고 싶은지를 지정해야합니다. 예를 들어, 심슨의 역설 을 보여주는 것과 관련 하여 버클리의 성 편향 사례 데이터 세트 는 매우 유명합니다.

가장 유명한 데이터 세트에 대한 자세한 설명은 "아이리스"데이터 세트의 어떤 측면이 예제 / 교시 / 테스트 데이터 세트로서 성공했는지 확인하십시오 .


1

논문 "쓰레기통 회귀 및 쓰레기통을 어디에 놓아 두자" (C. Achen, 2004)에서 저자는 비선형 성을 가진 합성 데이터 세트를 만들어 데이터가 실제 사례를 반영하도록한다 측정 중에 코딩 오류가 발생했을 수 있습니다 (예 : 범주 값에 데이터를 할당 할 때의 왜곡 또는 잘못된 양자화 절차).

합성 데이터는 두 개의 양의 계수를 가진 완벽한 선형 관계로 만들어 지지만 일단 비선형 코딩 오류를 적용하면 표준 회귀 기술은 잘못된 부호의 계수를 생성하며 통계적으로 유의 한 계수를 생성 합니다. 더 큰 합성 데이터 세트를 부트 스트랩했습니다.

비록 작은 합성 데이터 세트 일지라도,이 논문은 "오른쪽에서 생각할 수있는 모든 것을 버려라"종류의 회귀에 대한 순진한 반박을 보여줍니다. 코딩 오류 또는 양자화 오류와 같은 일반적인 경우) 표준 회귀 푸시 버튼 분석의 출력을 신뢰하는 경우 매우 잘못된 결과를 얻을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.