히스토그램에 대한 QQ- 플롯 사용의 이점


22

에서 이 댓글 닉 콕스는 썼다 :

클래스로 비닝은 고대 방법입니다. 히스토그램은 유용 할 수 있지만 최신 통계 소프트웨어를 사용하면 원시 데이터에 분포를 맞추는 것이 쉽고 좋습니다. 비닝은 어느 분포가 그럴듯한지를 결정하는 데 중요한 세부 사항 만 버립니다.

이 의견의 맥락에서 QQ- 플롯을 적합도를 평가하기위한 대체 수단으로 사용하는 것이 좋습니다. 그 진술은 그럴듯하게 들리지만 이 진술을 뒷받침하는 믿을만한 참고 문헌에 대해 알고 싶습니다. 단순한“잘, 이것은 분명하게 들리는 것”을 넘어서,이 사실을보다 철저히 조사하는 논문이 있습니까? 결과 또는 유사점에 대한 실제 체계적인 비교가 있습니까?

또한 히스토그램에 비해 QQ- 플로트의 이점이 모델 피팅 이외의 응용 프로그램으로 얼마나 확장 될 수 있는지 알고 싶습니다. 이 질문에 대한 답변 은“QQ- 플롯 […]은“뭔가 잘못되었다”는 것입니다. 나는 그것들을 null 모델과 비교하여 관찰 된 데이터의 구조를 식별하는 도구로 사용하고 QQ-plots (또는 기본 데이터)를 사용하여 비 랜덤을 탐지 할뿐만 아니라 설명하는 확립 된 절차가 있는지 궁금합니다. 관찰 된 데이터의 구조. 따라서이 방향을 포함하는 참조가 특히 유용합니다.


4
stats.stackexchange.com/questions/51718/… 이미 질문의 절반, 즉 히스토그램을 대체하는 것이 무엇이든 히스토그램을 피하는 것이 가장 좋은 이유입니다.
Gala

답변:


25

여기에 표준 용지는

Wilk, MB 및 R. Gnanadesikan. 1968. 데이터 분석을위한 확률 도법. Biometrika 55 : 1-17

그리고 그것은 여전히 ​​꼼꼼하고 반복적 인 독서를 상환합니다.

많은 좋은 예를 이용한 명쾌한 치료는

Cleveland, WS 1993. 데이터 시각화. Summit, NJ : Hobart Press.

더 입문을 언급 할 가치가 있습니다.

Cleveland, WS 1994. 그래프 데이터의 요소. Summit, NJ : Hobart Press.

이 접근법에 대한 합리적인 노출을 포함하는 다른 텍스트는 다음과 같습니다.

Davison, AC 2003. 통계 모델. 케임브리지 : Cambridge University Press.

라이스, JA 2007. 수학적 통계 및 데이터 분석. 캘리포니아 주 벨몬트 : Duxbury.

그 외에도, 나는 당신이 묻는 것이 무엇인지 전혀 모른다. Quantile-quantile 도표의 요점을 본 후, 히스토그램이 이차 대안임을 상세하게 보여주는 것은 배럴에서 물고기를 쏘는 것과 같이 흥미롭지도 유용하지도 않습니다.

그러나 다음과 같이 요약합니다.

  1. 비닝은 세부 사항을 억제하며 세부 사항은 종종 중요합니다. 이것은 꼬리에서 일어나는 일뿐 만 아니라 중간에서 일어나는 일에도 적용될 수 있습니다. 예를 들어, 왜도 또는 꼬리 무게뿐만 아니라 입도 또는 다중 양식이 중요 할 수 있습니다.

  2. 구간 화에는 구간 원점 및 구간 폭에 대한 결정이 필요하며, 이는 막대 그래프의 모양에 큰 영향을 줄 수 있으므로 실제 항목과 선택 항목의 부작용을 파악하기가 어렵습니다. 소프트웨어가 이러한 결정을 내리더라도 문제는 남아 있습니다. 예를 들어, 기본 출력 함 선택은 "너무 많은 출력 함"을 사용하지 않도록 (예 : 약간 부드럽게하는 동기로) 종종 설계됩니다.

  3. 두 히스토그램을 비교할 때 발생하는 그래픽 및 심리적 문제는 일련의 포인트의 적합성을 직선으로 판단하는 것보다 까다 롭습니다.

[Added 27 Sept 2017] 4. Quantile plot은 하나 이상의 변형 된 스케일을 고려할 때 매우 쉽게 변할 수 있습니다. 변환에 의해 여기에서 I는 (최대 값 또는 표준화하여 비선형 변형, 예를 들면 스케일링되지 평균평균) / SD. Quantile이 단지 주문 통계 인 경우, 최대의 로그가 로그의 최대 값과 동일하므로 변환을 적용하기 만하면됩니다. (일반적으로 왕복 운동은 순서를 반대로합니다.) 2 차 통계를 기반으로 선택한 Quantile을 플로팅하더라도 일반적으로 2 개의 원래 데이터 값 사이에 보간되고 보간의 효과는 사소합니다. 대조적으로, 로그 또는 기타 변형 된 스케일의 히스토그램은 특히 어렵지는 않지만 빈 원점 및 너비에 대한 새로운 결정이 필요하지만 사소한 것은 아닙니다. 분포를 요약하는 방법으로 밀도 추정에 대해서도 마찬가지입니다.


8

윌리엄 S. 클리블랜드의 작품을보십시오.

데이터 시각화 는 아마도 최고의 단일 소스 일 수 있지만 그의 웹 페이지 , 특히 참고 문헌 및 데이터 시각화 페이지 (에서 사용할 수있는 S + 코드 포함 R)를 참조하십시오.

클리블랜드에는 QQ 플롯이 좋은 이유와 히스토그램이 좋지 않은 이유가 많이 있습니다.



7

사용 방법을 익히면 QQ 플롯을 통해 왜도, 헤비 테일, 일반적인 모양, 피크 등을 식별 할 수 있으며 사람들이 히스토그램을 사용하여 평가하려고하는 동일한 종류의 기능을 식별 할 수 있습니다.

커널 밀도 추정값 또는 로그 스플라인 밀도 추정값은 Gala가 주석에서 지적한 히스토그램 관련 문제를 피할 수 있습니다.

해당 링크에서이 예제를 고려하십시오.

그러나 운이 좋지 않은 경우 히스토그램, 심지어 부드러운 밀도 추정치 (매끄럽고 자연 스럽기 때문에)를 사용하여 의심 할 여지가없는 이산 성을 놓칠 수 있지만 QQ 플롯에서는 종종 분명합니다. 스무스 밀도 추정 (특별히 처리하지 않는 한)도 경계 변수에 문제가있을 수 있습니다.

히스토그램과 부드러운 밀도 추정은 모두 데이터에 대한 근사치에 의존하며 유용 할 수 있지만 아티팩트를 유발하거나 다소 잘못 표시 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.