최고 경영자 요약
역사는 많은 사람들이 생각하는 것보다 훨씬 길고 복잡합니다.
행정상 개요
Tukey가 box plots라고 한 이력은 현재 종종 dot 또는 strip plot (수십 개의 다른 이름)으로 불리는 것과 경험적 분위수 함수의 표현과 얽혀 있습니다.
널리 알려진 형태의 상자 그림은 John Wilder Tukey (1970, 1972, 1977)의 작품을 통해 가장 잘 알려져 있습니다.
그러나 중앙값과 사 분위수를 기본 요약으로 표시하는 아이디어는 종종 모든 값을 표시하는 점과 함께는 아니지만 항상 지리학자 Percy Robert Crowe (1933)가 소개 한 분산 다이어그램 (많은 변형 이름)으로 되돌아갑니다. 이것은 지리학자들에게 필수품으로, 1930 년대 후반부터 많은 교과서와 연구 논문에 사용되었습니다.
Bibby (1986, pp.56, 59)는 1897 년에 대한 그의 강의에서 Arthur Lyon Bowley (나중에 Arthur Arthur)가 가르치는 비슷한 아이디어와 그의 추천에 대해 이전에 언급 한 바있다 (Bowley, 1910, p.62; 1952, p.73). )를 그래픽 요약의 기초로 최소 및 최대 및 10, 25, 50, 75 및 90 % 포인트를 사용합니다.
극단과 사 분위수를 나타내는 범위 막대는 종종 Mary Eleanor Spear (1952)에 기인하지만 내 독서에서는 Kenneth W. Haemer (1948)를 인용하는 사람이 더 적습니다. 1950 년경 미국 통계학 자의 통계 그래픽에 관한 Haemer의 기사 는 독창적이며, 한입 깨물고 다시 읽을 가치가 있습니다. (많은 독자들은 jstor.org를 통해 액세스 할 수있을 것입니다.) 반면에 Spear의 책 (Spear 1969는 다시 시작)은 접근 가능하고 합리적이지만 혁신적이거나 학문적 이라기보다는 의도적으로 소개되었습니다.
수염이 선택된 백분위 수까지 확장되는 상자 그림의 변형은 많은 사람들이 생각하는 것보다 일반적입니다. 다시 말하지만, 1930 년대부터 지리학자들은 등가 도표를 사용했습니다.
Tukey의 박스 플롯 버전에서 가장 독창적 인 것은 먼저 꼬리에서 점을 개별적으로 플롯하고 세부적으로 고려해야 할 점을 식별하고 변수를 변환 된 스케일로 분석해야한다는 플래그를 지정하는 모든 기준입니다. 그의 1.5 IQR 경험 법칙은 많은 실험 후에 만 나타났습니다. 그것은 결코 Tukey의 의도가 아닌 데이터 포인트를 삭제하기위한 어려운 규칙으로 변경되었습니다. 박력 있고 기억에 남는 이름-상자 그림은 이러한 아이디어가 훨씬 더 큰 영향을 미치는 데 아무런 해를 끼치 지 않았습니다. 대조적으로 분산도는 다소 둔하고 음란 한 용어입니다.
여기에 상당히 긴 참고 문헌 목록은 아마도 외관과 달리 철저하지는 않습니다. 목표는 일부 선구자 및 상자 그림의 대안에 대한 문서를 제공하는 것입니다. 구체적인 참조는 상세 쿼리에 유용하거나 필드와 가까운 곳에있는 경우 유용합니다. 반대로, 다른 분야의 관행에 대해 배우는 것은 유익 할 수 있습니다. 지리학자의지도 제작뿐만 아니라 그래픽 전문 지식은 종종 과소 평가되었습니다.
자세한 내용은
하이브리드 도트 박스 플롯은 Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse 및 Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond 및 McCullagh (1974), Lewis가 사용했습니다. (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn and Keough (2002), Young et al. (2006) 및 Hendry and Nielsen (2007) 및 기타 다수. Miller (1953, 1964)도 참조하십시오.
쿼터의 많은 IQR에있는 데이터 포인트가 아닌 특정 백분위 수로 수염을 그리는 것은 Cleveland (1985)에 의해 강조되었지만, 첫 번째와 사이에 의미가있는 interoctile 범위를 나타내는 Matthews (1936)와 Grove (1956)에 의해 예상되었습니다. 범위와 사 분위 범위뿐만 아니라 일곱 번째 옥타브. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) 및 Davino et al. (2014)는 최소, 사 분위수, 중앙값 및 최대 값뿐만 아니라 평균도 보여 주었다. Schmid (1954)는 중앙값, 사 분위수 및 5 및 95 % 포인트를 가진 요약 그래프를 보여주었습니다. 벤틀리 (1985, 1988), 데이비스 (2002), 스펜스 (2007, 2014) 및 모툴 스키 (2010, 2014, 2018)는 수염을 5 ~ 95 % 포인트로 표시했습니다. Morgan and Henrion (1990, pp.221, 241), Spence (2001, p.36), Gotelli and Ellison (2004, 2013, pp.72, 110, 213, 416)는 수염을 10 %와 90 % 포인트로 플로팅했습니다. Harris (1999)는 5 및 95 %와 10 및 90 % 포인트의 예를 보여주었습니다. Altman (1991, pp.34, 63) 및 Greenacre (2016)는 수염을 2.5 % 및 97.5 % 포인트로 표시했습니다. Reimann et al. (2008, pp.46-47)는 수염을 5 % 및 95 %, 2 % 및 98 % 포인트로 표시했습니다.
Parzen (1979a, 1979b, 1982)은 상자와 Quantile 플롯을 Quantile-Box 플롯으로 하이브리드 화했습니다. (예를 들어) Shera (1991), Militký 및 Meloun (1993), Meloun and Militký (1994)를 참조하십시오. 그러나 Keen (2010)의 Quantile 박스 플롯은 수염이 극도로 확장 된 박스 플롯 일뿐입니다. 대조적으로, JMP의 Quantile 박스 플롯은 0.5 %, 2.5 %, 10 %, 90 %, 97.5 %, 99.5 %의 마크를 갖는 박스 플롯 인 것 같다 : Sall et al. (2014, pp. 143-4).
Quantile-box 플롯의 변형에 대한 참고 사항은 다음과 같습니다.
피p , 1 - p−p , 1 - p
p , 1 - p
내가 본 문헌에서 양자화 상자 그림 또는 이후 변형 (A) (B) (C)와 같은 스레드는 서로 인용하지 않는 것 같습니다.
!!! 2018 년 10 월 3 일부터 일부 참고 문헌에 대한 세부 정보는 다음 편집에서 제공해야합니다.
Altman, DG 1991 년
. 의학 연구에있는 실제 통계.
런던 : 채프먼과 홀.
벤틀리, JL 1985. 진주 프로그래밍 : 선택.
ACM 28의 통신 : 1121-1127.
Bentley, JL 1988.
더 많은 프로그래밍 진주 : 코더의 고백.
독서, MA : 애디슨-웨슬리.
Bibby, J. 1986.
Teaching Statistics의 역사에 대한 메모.
에든버러 : John Bibby (도서).
Bowley, AL 1910.
통계의 기본 매뉴얼.
런던 : 맥도날드와 에반스. (1952 년 제 7 판)
Cleveland, WS 1985. 그래프 데이터의 요소.
몬트레이, 캘리포니아 : 워즈워스.
Crowe, PR 1933. 강우 확률 분석 : 그래픽 방법 및 유럽 데이터에 적용.
Scottish Geographical Magazine 49 : 73-91.
Crowe, PR 1936. 서부 평원의 강우 체제.
지리 검토 26 : 463-484.
Davis, JC 2002.
지질학 통계 및 데이터 분석.
뉴욕 : 존 와일리.
Dickinson, GC 1963.
통계 매핑 및 통계 표현.
런던 : 에드워드 아놀드. (1973 년 제 2 판)
Dury, GH 1963.
이스트 미들랜드와 피크.
런던 : 토마스 넬슨.
농부, BH 1956 년. 실론의 건조한 지역에서 강우와 물 공급. 영국 열대 지방의 철강, RW 및 CA Fisher (eds)
지리학 적 에세이.
런던 : George Philip, 227-268.
Gregory, S. 1963. 통계 방법 및 지리학자.
런던 : Longmans. (후기 1968 년, 1973 년, 1978 년, 발행인 롱먼)
Grove, AT 1956. 나이지리아의 토양 침식. 영국 열대 지방의 철강, RW 및 CA Fisher (eds)
지리학 적 에세이.
런던 : George Philip, 79-111.
Haemer, KW 1948. 범위 막 대형 차트.
미국 통계 학자 2 (2) : 23.
Hendry, DF 및 B. Nielsen. 2007.
계량 경제학 모델링 : 가능성 접근법.
프린스턴, 뉴저지 : 프린스턴 대학 출판부.
Hogg, WH 1948. 강우 분산도 : 장점과 단점에 대한 논의.
지리 33 : 31-37.
Ibrekk, H. 및 MG Morgan. 1987. 비 기술적 인 사람들에게 불확실한 수량의 그래픽 통신.
위험 분석 7 : 519-529.
존슨, BLC 1975.
방글라데시. 런던 : Heinemann Educational.
Keen, KJ 2010.
R.
Boca Raton, FL의 통계 및 데이터 분석 용 그래픽 : CRC Press. (2018 년 2 판)
Lewis, CR 1975. 도시 상태의 변화 분석 : 웨일즈 중부와 웨일즈 중부 지역의 사례 연구.
영국 지리학자 협회의 거래
64 : 49-65.
Martinez, WL, AR Martinez 및 JL Solka. 2011 년
MATLAB과 탐색 적 데이터 분석.
보카 레이턴, FL : CRC Press.
Matthews, HA 1936. 친숙한 인도 강우에 대한 새로운 견해.
Scottish Geographical Magazine 52 : 84-97.
Matthews, JA 1981.
지리에 대한 양적 및 통계적 접근 : 실용 매뉴얼.
옥스포드 : 페르가몬.
Meloun, M. 및 J. Militký. 1994. 분석 화학 분석에서 컴퓨터 보조 데이터 처리. I. 일 변량 데이터의 탐색 분석.
화학 논문 48 : 151-157.
Militký, J. 및 M. Meloun. 일 변량 탐색 데이터 분석을위한 일부 그래픽 지원.
Analytica Chimica Acta 277 : 215-221.
밀러, AA 1953 년
. 지구의 피부.
런던 : 메투 엔. (1964 년 제 2 판)
Monkhouse, FJ 및 HR Wilkinson. 1952.
지도 및 다이어그램 : 편집 및 구성.
런던 : 메투 엔. (후기 1963 년, 1971 년)
Morgan, MG 및 M. Henrion. 1990 년
불확실성 : 가이드 정량적 위험 및 정책 분석의 불확실성을 취급합니다.
케임브리지 : Cambridge University Press.
Myatt, GJ 2007.
데이터 감지 : 탐색 적 데이터 분석 및 데이터 마이닝에 대한 실용적인 안내서.
뉴저지 호보 켄 : 존 와일리.
Myatt, GJ 및 Johnson, WP 2009.
데이터 이해 II : 데이터 시각화, 고급 데이터 마이닝 방법 및 응용 프로그램에 대한 실용 가이드.
뉴저지 호보 켄 : 존 와일리.
Myatt, GJ 및 Johnson, WP 2011.
데이터 이해 III : 대화식 데이터 시각화 설계에 대한 실용적인 안내서.
뉴저지 호보 켄 : 존 와일리.
Ottaway, B. 1973. 분산도 : 탄소 -14 날짜 표시에 대한 새로운 접근.
고고학 15 : 5-12.
파젠, E. 1979a. 비모수 통계 데이터 모델링.
저널, 미국 통계 협회 74 : 105-121.
파젠, E. 1979b. 강력한 추정에 대한 밀도 양자 함수 관점. Launer, RL 및 GN Wilkinson (eds)의 견고성 통계.
뉴욕 : Academic Press, 237-258.
Parzen, E. 1982. Quantile 및 Density-quantile 함수를 사용한 데이터 모델링. J.와 Epstein, Tiago de Oliveira, B. (eds)
통계의 최근 발전. 런던 : Academic Press, 23-52.
Quinn, GP 및 MJ Keough. 2002 년
실험 설계 및 생물 학자를위한 데이터 분석.
케임브리지 : Cambridge University Press.
Reimann, C., P. Filzmoser, RG Garrett 및 R. Dutter. 2008.
통계 데이터 분석 설명 : R.
Chichester를 통한 환경 통계 적용 : John Wiley.
Sall, J., A. Lehman, M. Stephens 및 L. Creighton. 2014.
JMP 시작 통계 : JMP를 사용한 통계 및 데이터 분석 안내서.
캐리, 노스 캐롤라이나 : SAS Institute.
Shera, DM 1991. 데이터 표현을 향상시키기 위해 Quantile 플롯의 일부 사용.
컴퓨팅 과학 및 통계 23 : 50-53.
스피어, ME 1952. 차트 통계.
뉴욕 : 맥그로 힐.
스피어, ME 1969. 실용 차트 기술.
뉴욕 : 맥그로 힐.
Tukey, JW 1970.
탐색 적 데이터 분석. 한정판. 제 1 권
: MA : Addison-Wesley.
Tukey, JW 1972. 일부 그래픽 및 반 그래픽 디스플레이. 밴크로프트, TA 및 브라운에서, 조지 W. 스네 데코를 기리는 SA (eds)
통계 논문.
Ames, IA : Iowa State University Press, 293-316. ( http://www.edwardtufte.com/tufte/tukey 에서도 액세스 가능 )
Tukey, JW 1977.
탐색 적 데이터 분석.
독서, MA : 애디슨-웨슬리.
Wild, CJ 및 GAF Seber. 2000 년
기회 상대 : 데이터 분석 및 추론에서의 첫 번째 코스.
뉴욕 : 존 와일리.