상자 그림의 역사는 무엇이며,“상자와 수염”디자인은 어떻게 발전 했습니까?


19

많은 출처는 고전적인 "박스 플롯"디자인을 John Tukey 와 1970 년의 "도식 플롯"으로 거슬러 올라갑니다 . Edward Tufte의 박스 플롯 컷 다운 버전은 따라 잡지 못했지만 그 이후로 디자인은 상대적으로 정적으로 유지 된 것으로 보입니다. 바이올린 음모 -박스 음모의 더 유익한 변형이지만 인기는 낮습니다. 수염이 10 번째와 90 번째 백분위 수로 확장된다는 클리블랜드의 제안은 지지자들이 있지만, Cox (2009) 참조 . 그러나 표준은 아니다.

Hadley Wickham과 Lisa Stryjewski는 박스 플롯의 역사에 관한 미공개 논문을 썼지박스 플롯 의 역사적 선구자를 다루지 않는 것 같습니다.

그렇다면 현재의 유비쿼터스 "box and whiskers"플롯은 어떻게 생겼습니까? 어떤 종류의 데이터 시각화가 발전했는지, 초기 설계에 중요한 이점이 있었으며, Tukey의 체계에 의해 그 사용이 전반적으로 잘린 것처럼 보이는 이유는 무엇입니까? 설명 된 답변은 보너스이지만 Wickham 및 Stryjewski보다 역사적으로 더 깊이 다이빙하는 참조에 관한 것이 유용 할 것입니다.

참고 문헌

  • 콕스, 뉴저지 (2009). 말하기 Stata : 상자 그림을 작성하고 변경합니다. Stata Journal , 9 (3), 478.
  • Wickham, H. 및 Stryjewski, L. (2011). 40 년의 상자 그림. http://vita.had.co.nz/papers/boxplots.pdf

1
여기 전구체의 숫자의 일부 관련 토론 : stats.stackexchange.com/questions/125521/...은 ... Tukey에 메리 스피어스 작업 알고 있었다 그러나 그는 이전 사람의 보았다하지 않을 수 있습니다 가능
Glen_b -Reinstate 모니카

@Glen_b에게 감사의 말을 전합니다.이 질문에서 영감을 얻은 글이지만, 질문을하기까지 4 년이 걸렸으며, 그 내용을 추적 할 수 없었습니다! (불행히도 의견은 사이트 검색에 표시되지 않으므로 적절한 Q & A에 참여하는 것이 도움이 될 것입니다.)
Silverfish

1
site:stats.stackexchange.com댓글에서 내용을 추적하기 위해 Google 검색을 설정으로 사용합니다. 나는 처음으로 맞기에 충분한 세부 사항 (닉과 박스 플롯과 관련이 있고 슈미트에 대해 언급 한 Nick과의 토론이었다)을 기억할 수있었습니다.
Glen_b-복지 주 모니카

1
상자 그림 특이 치에 대한 접선 적 설명. 두 가지 규칙이 널리 사용되었습니다. 일반적으로 하나의 (R 및 다른 소프트웨어) 기본 아래 그 관측이다 이상 특이점으로서 지정된다; "1.5IQR 규칙" 초기 버전에서는 Minitab에서 규칙을 사용 하여 더 극단적 인 특이 값을 "가능한 이상치"로, 덜 극단적 인 특성을 "가능한 이상치"라고 부릅니다. 적어도 대략적인 데이터의 경우 두 규칙 모두 표본 크기 따라 크게 다른 특이 치의 백분율을 보여줍니다시뮬레이션에서 규칙이 1000 년대보다 더 안정적 이라는 증거 가 있습니다. 11.5나는아르 자형+1.5나는아르 자형나는아르 자형.2.25나는아르 자형
BruceET

1
github.com/hadley/boxplots-paper 에는 익명 리뷰어의 저널 (? _American Statistician_) 보고서 (간호 및 낙담) 및 David Hoaglin과 본인에 의한 독립적이지만 겹치는 불필요한 리뷰 (더 자세한 내용)와 같은 많은 자료가 포함되어 있습니다.
Nick Cox

답변:


18

최고 경영자 요약

역사는 많은 사람들이 생각하는 것보다 훨씬 길고 복잡합니다.

행정상 개요

Tukey가 box plots라고 한 이력은 현재 종종 dot 또는 strip plot (수십 개의 다른 이름)으로 불리는 것과 경험적 분위수 함수의 표현과 얽혀 있습니다.

널리 알려진 형태의 상자 그림은 John Wilder Tukey (1970, 1972, 1977)의 작품을 통해 가장 잘 알려져 있습니다.

그러나 중앙값과 사 분위수를 기본 요약으로 표시하는 아이디어는 종종 모든 값을 표시하는 점과 함께는 아니지만 항상 지리학자 Percy Robert Crowe (1933)가 소개 한 분산 다이어그램 (많은 변형 이름)으로 되돌아갑니다. 이것은 지리학자들에게 필수품으로, 1930 년대 후반부터 많은 교과서와 연구 논문에 사용되었습니다.

Bibby (1986, pp.56, 59)는 1897 년에 대한 그의 강의에서 Arthur Lyon Bowley (나중에 Arthur Arthur)가 가르치는 비슷한 아이디어와 그의 추천에 대해 이전에 언급 한 바있다 (Bowley, 1910, p.62; 1952, p.73). )를 그래픽 요약의 기초로 최소 및 최대 및 10, 25, 50, 75 및 90 % 포인트를 사용합니다.

극단과 사 분위수를 나타내는 범위 막대는 종종 Mary Eleanor Spear (1952)에 기인하지만 내 독서에서는 Kenneth W. Haemer (1948)를 인용하는 사람이 더 적습니다. 1950 년경 미국 통계학 자의 통계 그래픽에 관한 Haemer의 기사 는 독창적이며, 한입 깨물고 다시 읽을 가치가 있습니다. (많은 독자들은 jstor.org를 통해 액세스 할 수있을 것입니다.) 반면에 Spear의 책 (Spear 1969는 다시 시작)은 접근 가능하고 합리적이지만 혁신적이거나 학문적 이라기보다는 의도적으로 소개되었습니다.

수염이 선택된 백분위 수까지 확장되는 상자 그림의 변형은 많은 사람들이 생각하는 것보다 일반적입니다. 다시 말하지만, 1930 년대부터 지리학자들은 등가 도표를 사용했습니다.

Tukey의 박스 플롯 버전에서 가장 독창적 인 것은 먼저 꼬리에서 점을 개별적으로 플롯하고 세부적으로 고려해야 할 점을 식별하고 변수를 변환 된 스케일로 분석해야한다는 플래그를 지정하는 모든 기준입니다. 그의 1.5 IQR 경험 법칙은 많은 실험 후에 만 ​​나타났습니다. 그것은 결코 Tukey의 의도가 아닌 데이터 포인트를 삭제하기위한 어려운 규칙으로 변경되었습니다. 박력 있고 기억에 남는 이름-상자 그림은 이러한 아이디어가 훨씬 더 큰 영향을 미치는 데 아무런 해를 끼치 지 않았습니다. 대조적으로 분산도는 다소 둔하고 음란 한 용어입니다.

여기에 상당히 긴 참고 문헌 목록은 아마도 외관과 달리 철저하지는 않습니다. 목표는 일부 선구자 및 상자 그림의 대안에 대한 문서를 제공하는 것입니다. 구체적인 참조는 상세 쿼리에 유용하거나 필드와 가까운 곳에있는 경우 유용합니다. 반대로, 다른 분야의 관행에 대해 배우는 것은 유익 할 수 있습니다. 지리학자의지도 제작뿐만 아니라 그래픽 전문 지식은 종종 과소 평가되었습니다.

자세한 내용은

하이브리드 도트 박스 플롯은 Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse 및 Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond 및 McCullagh (1974), Lewis가 사용했습니다. (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn and Keough (2002), Young et al. (2006) 및 Hendry and Nielsen (2007) 및 기타 다수. Miller (1953, 1964)도 참조하십시오.

쿼터의 많은 IQR에있는 데이터 포인트가 아닌 특정 백분위 수로 수염을 그리는 것은 Cleveland (1985)에 의해 강조되었지만, 첫 번째와 사이에 의미가있는 interoctile 범위를 나타내는 Matthews (1936)와 Grove (1956)에 의해 예상되었습니다. 범위와 사 분위 범위뿐만 아니라 일곱 번째 옥타브. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) 및 Davino et al. (2014)는 최소, 사 분위수, 중앙값 및 최대 값뿐만 아니라 평균도 보여 주었다. Schmid (1954)는 중앙값, 사 분위수 및 5 및 95 % 포인트를 가진 요약 그래프를 보여주었습니다. 벤틀리 (1985, 1988), 데이비스 (2002), 스펜스 (2007, 2014) 및 모툴 스키 (2010, 2014, 2018)는 수염을 5 ~ 95 % 포인트로 표시했습니다. Morgan and Henrion (1990, pp.221, 241), Spence (2001, p.36), Gotelli and Ellison (2004, 2013, pp.72, 110, 213, 416)는 수염을 10 %와 90 % 포인트로 플로팅했습니다. Harris (1999)는 5 및 95 %와 10 및 90 % 포인트의 예를 보여주었습니다. Altman (1991, pp.34, 63) 및 Greenacre (2016)는 수염을 2.5 % 및 97.5 % 포인트로 표시했습니다. Reimann et al. (2008, pp.46-47)는 수염을 5 % 및 95 %, 2 % 및 98 % 포인트로 표시했습니다.

Parzen (1979a, 1979b, 1982)은 상자와 Quantile 플롯을 Quantile-Box 플롯으로 하이브리드 화했습니다. (예를 들어) Shera (1991), Militký 및 Meloun (1993), Meloun and Militký (1994)를 참조하십시오. 그러나 Keen (2010)의 Quantile 박스 플롯은 수염이 극도로 확장 된 박스 플롯 일뿐입니다. 대조적으로, JMP의 Quantile 박스 플롯은 0.5 %, 2.5 %, 10 %, 90 %, 97.5 %, 99.5 %의 마크를 갖는 박스 플롯 인 것 같다 : Sall et al. (2014, pp. 143-4).

Quantile-box 플롯의 변형에 대한 참고 사항은 다음과 같습니다.

,1,1

,1

내가 본 문헌에서 양자화 상자 그림 또는 이후 변형 (A) (B) (C)와 같은 스레드는 서로 인용하지 않는 것 같습니다.

!!! 2018 년 10 월 3 일부터 일부 참고 문헌에 대한 세부 정보는 다음 편집에서 제공해야합니다.

Altman, DG 1991 년 . 의학 연구에있는 실제 통계. 런던 : 채프먼과 홀.

벤틀리, JL 1985. 진주 프로그래밍 : 선택. ACM 28의 통신 : 1121-1127.

Bentley, JL 1988. 더 많은 프로그래밍 진주 : 코더의 고백. 독서, MA : 애디슨-웨슬리.

Bibby, J. 1986. Teaching Statistics의 역사에 대한 메모. 에든버러 : John Bibby (도서).

Bowley, AL 1910. 통계의 기본 매뉴얼. 런던 : 맥도날드와 에반스. (1952 년 제 7 판)

Cleveland, WS 1985. 그래프 데이터의 요소. 몬트레이, 캘리포니아 : 워즈워스.

Crowe, PR 1933. 강우 확률 분석 : 그래픽 방법 및 유럽 데이터에 적용. Scottish Geographical Magazine 49 : 73-91.

Crowe, PR 1936. 서부 평원의 강우 체제. 지리 검토 26 : 463-484.

Davis, JC 2002. 지질학 통계 및 데이터 분석. 뉴욕 : 존 와일리.

Dickinson, GC 1963. 통계 매핑 및 통계 표현. 런던 : 에드워드 아놀드. (1973 년 제 2 판)

Dury, GH 1963. 이스트 미들랜드와 피크. 런던 : 토마스 넬슨.

농부, BH 1956 년. 실론의 건조한 지역에서 강우와 물 공급. 영국 열대 지방의 철강, RW 및 CA Fisher (eds) 지리학 적 에세이. 런던 : George Philip, 227-268.

Gregory, S. 1963. 통계 방법 및 지리학자. 런던 : Longmans. (후기 1968 년, 1973 년, 1978 년, 발행인 롱먼)

Grove, AT 1956. 나이지리아의 토양 침식. 영국 열대 지방의 철강, RW 및 CA Fisher (eds) 지리학 적 에세이. 런던 : George Philip, 79-111.

Haemer, KW 1948. 범위 막 대형 차트. 미국 통계 학자 2 (2) : 23.

Hendry, DF 및 B. Nielsen. 2007. 계량 경제학 모델링 : 가능성 접근법. 프린스턴, 뉴저지 : 프린스턴 대학 출판부.

Hogg, WH 1948. 강우 분산도 : 장점과 단점에 대한 논의. 지리 33 : 31-37.

Ibrekk, H. 및 MG Morgan. 1987. 비 기술적 인 사람들에게 불확실한 수량의 그래픽 통신. 위험 분석 7 : 519-529.

존슨, BLC 1975. 방글라데시. 런던 : Heinemann Educational.

Keen, KJ 2010. R. Boca Raton, FL의 통계 및 데이터 분석 용 그래픽 : CRC Press. (2018 년 2 판)

Lewis, CR 1975. 도시 상태의 변화 분석 : 웨일즈 중부와 웨일즈 중부 지역의 사례 연구. 영국 지리학자 협회의 거래 64 : 49-65.

Martinez, WL, AR Martinez 및 JL Solka. 2011 년 MATLAB과 탐색 적 데이터 분석. 보카 레이턴, FL : CRC Press.

Matthews, HA 1936. 친숙한 인도 강우에 대한 새로운 견해. Scottish Geographical Magazine 52 : 84-97.

Matthews, JA 1981. 지리에 대한 양적 및 통계적 접근 : 실용 매뉴얼. 옥스포드 : 페르가몬.

Meloun, M. 및 J. Militký. 1994. 분석 화학 분석에서 컴퓨터 보조 데이터 처리. I. 일 변량 데이터의 탐색 분석. 화학 논문 48 : 151-157.

Militký, J. 및 M. Meloun. 일 변량 탐색 데이터 분석을위한 일부 그래픽 지원. Analytica Chimica Acta 277 : 215-221.

밀러, AA 1953 년 . 지구의 피부. 런던 : 메투 엔. (1964 년 제 2 판)

Monkhouse, FJ 및 HR Wilkinson. 1952. 지도 및 다이어그램 : 편집 및 구성. 런던 : 메투 엔. (후기 1963 년, 1971 년)

Morgan, MG 및 M. Henrion. 1990 년 불확실성 : 가이드 정량적 위험 및 정책 분석의 불확실성을 취급합니다. 케임브리지 : Cambridge University Press.

Myatt, GJ 2007. 데이터 감지 : 탐색 적 데이터 분석 및 데이터 마이닝에 대한 실용적인 안내서. 뉴저지 호보 켄 : 존 와일리.

Myatt, GJ 및 Johnson, WP 2009. 데이터 이해 II : 데이터 시각화, 고급 데이터 마이닝 방법 및 응용 프로그램에 대한 실용 가이드. 뉴저지 호보 켄 : 존 와일리.

Myatt, GJ 및 Johnson, WP 2011. 데이터 이해 III : 대화식 데이터 시각화 설계에 대한 실용적인 안내서. 뉴저지 호보 켄 : 존 와일리.

Ottaway, B. 1973. 분산도 : 탄소 -14 날짜 표시에 대한 새로운 접근. 고고학 15 : 5-12.

파젠, E. 1979a. 비모수 통계 데이터 모델링. 저널, 미국 통계 협회 74 : 105-121.

파젠, E. 1979b. 강력한 추정에 대한 밀도 양자 함수 관점. Launer, RL 및 GN Wilkinson (eds)의 견고성 통계. 뉴욕 : Academic Press, 237-258.

Parzen, E. 1982. Quantile 및 Density-quantile 함수를 사용한 데이터 모델링. J.와 Epstein, Tiago de Oliveira, B. (eds) 통계의 최근 발전. 런던 : Academic Press, 23-52.

Quinn, GP 및 MJ Keough. 2002 년 실험 설계 및 생물 학자를위한 데이터 분석. 케임브리지 : Cambridge University Press.

Reimann, C., P. Filzmoser, RG Garrett 및 R. Dutter. 2008. 통계 데이터 분석 설명 : R. Chichester를 통한 환경 통계 적용 : John Wiley.

Sall, J., A. Lehman, M. Stephens 및 L. Creighton. 2014. JMP 시작 통계 : JMP를 사용한 통계 및 데이터 분석 안내서. 캐리, 노스 캐롤라이나 : SAS Institute.

Shera, DM 1991. 데이터 표현을 향상시키기 위해 Quantile 플롯의 일부 사용. 컴퓨팅 과학 및 통계 23 : 50-53.

스피어, ME 1952. 차트 통계. 뉴욕 : 맥그로 힐.

스피어, ME 1969. 실용 차트 기술. 뉴욕 : 맥그로 힐.

Tukey, JW 1970.
탐색 적 데이터 분석. 한정판. 제 1 권 : MA : Addison-Wesley.

Tukey, JW 1972. 일부 그래픽 및 반 그래픽 디스플레이. 밴크로프트, TA 및 브라운에서, 조지 W. 스네 데코를 기리는 SA (eds) 통계 논문. Ames, IA : Iowa State University Press, 293-316. ( http://www.edwardtufte.com/tufte/tukey 에서도 액세스 가능 )

Tukey, JW 1977. 탐색 적 데이터 분석. 독서, MA : 애디슨-웨슬리.

Wild, CJ 및 GAF Seber. 2000 년 기회 상대 : 데이터 분석 및 추론에서의 첫 번째 코스. 뉴욕 : 존 와일리.


박스-백분위 수 플롯, 마운틴 플롯 및 기타 하이브리드 형식에 대한 다른 자료를 나중에 추가 할 수 있습니다.
Nick Cox

대안과 하이브리드에 대한 추가 사항을 기대하는 Nick에게 감사의 말을 전합니다. "상자 그림"과 "친구"가 데이터 시각화의 "가족"을 형성한다고 말하는 것이 타당하다고 생각합니다. 비록 그 가족이 무엇을 불러야할지 모르겠습니다
Silverfish

감사! 중앙값과 사 분위수를 나타내는 선 또는 기타 마커가 상자를 정의하는 경우 Tukey가 명명하기 훨씬 전에 상자 그림이 있었으며, 그가 다른 주장을하지 않았다고 확신합니다. 그러나 교과서와 다른 곳의 많은 미니어처 기록은 그 시점에서 강조되어 보입니다. 대부분, 그것은 레밍이 집단적인 자살로 절벽에서 뛰어 내린다는 이야기와 같은 증거없이 반복되는 밈입니다. 박스에 대안의 많은 플롯 심지어 다음 필드가 포함 활짝 열려있다, 어떤 의미에서 상자를 표시하지 않는 어떤 변량 분포의 그래픽 표현을.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.